Projekt Razvoj slovenščine v digitalnem okolju
Foto: Kittyfly/stock.adobe.com
S projektom Razvoj slovenščine v digitalnem okolju – RSDO želimo prispevati k boljši izrabi raziskovalnega potenciala raziskovalcev na področju jezikovnih virov in tehnologij in spodbuditi sodelovanje raziskovalnih organizacij s podjetji. Rezultat projekta bodo izdelki, ki bodo na uporabniško prijazen način pomagali pri sporazumevanju, sodelovanju, poslovanju, izmenjavi znanja in udeleževanju v družabnih in političnih razpravah ter prispevali k premagovanju jezikovnih meja.
Višina finančne podpore za operacijo znaša 4.000.000,00 EUR.
Višina finančne podpore za operacijo znaša 4.000.000,00 EUR.
Strateški cilji projekta
- Zadovoljiti potrebe po računalniških izdelkih in storitvah s področja jezikovnih tehnologij za slovenski jezik za raziskovalne organizacije, za podjetja in za širšo javnost.
- Odprti dostop do rezultatov raziskovalnega dela.
- Nadgradnja organiziranega skladiščenja, vzdrževanja in distribucije virov in tehnologij.
- Enakopravnejše sodelovanje z evropskimi pobudami za izmenjavo digitalnih virov in orodij.
- Večja konkurenčnost slovenskega razvojno-raziskovalnega prostora v mednarodnem merilu.
Operativni cilji po delovnih sklopih
Delovni sklop 1: vzdrževanje in nadgradnja korpusov (jezikovni viri)
- Nadgradnja programa za strojno označevanje besedil in vzpostavitev spletnega delotoka.
- Izdelava ali nadgradnja učnih množic za procesiranje naravnega jezika.
- Nadgradnja leksikona ter korpusov pisne standardne in nestandardne slovenščine.
- Nadgradnja korpusa govorjene slovenščine.
- Gradnja korpusa usvajanja slovenščine kot prvega in kot drugega/tujega jezika.
- Gradnja korpusa parlamentarnih razprav in metakorpusa vseh večjih korpusov slovenskega jezika.
Delovni sklop 2: govorne tehnologije
- Izdelava govorne baze, ki bo osnova za izdelavo splošnega razpoznavalnika govora.
- Izdelava podpornih orodij in postopka za razvoj robustnega splošnega ter specializiranega razpoznavalnika.
- Razvoj portala s podpornimi orodji in modeli razpoznave.
- Priprava dolgoročnega načrta nadgradnje splošnega razpoznavalnika z velikim slovarjem besed ter načrta izdelave razpoznavalnika v realnem času za domeno izobraževanja.
Delovni sklop 3: semantični viri in tehnologije
- Izdelava osrednje digitalne slovarske baze, ki združuje različne tipe jezikovnih podatkov o slovenščini v odprtem dostopu.
- Avtomatska izdelava baze znanja oziroma semantične mreže.
- Izdelava virov in orodij za razdvoumljanje pomenov in prepoznavanje semantičnih premikov ter za avtomatsko povzemanje in odgovarjanje na vprašanja.
- Izdelava korpusov za izvajanje semantičnih analiz.
Delovni sklop 4: strojno prevajanje
- Namestitev referenčnega prevajalnika ter razvoj podpornih orodij in definiranje evalvacijskih metod.
- Testiranje alternativnih ogrodij nevronskega strojnega prevajanja (NMT).
- Izdelava modelov NMT in njihovo osveževanje glede na rast korpusa prevodov.
- Razvoj dela portala s strojnim prevajalnikom.
- Priprava dolgoročnega načrta za razvoj strojnega prevajalnika v domeni izobraževanja ter načrta za nadaljnji razvoj splošnega prevajalnika.
- Zbiranje besedil za korpus prevodov.
Delovni sklop 5: terminološki portal
- Izdelava terminološkega portala z iskalnikom po terminoloških virih in spletnim konkordančnikom za analizo specializiranih korpusov.
- Izdelava orodja za luščenje terminoloških kandidatov iz korpusov.
- Izdelava spletnega urejevalnika terminoloških virov.
- Izdelava smernic in navodil za sestavljanje terminoloških virov z vzorčnimi podatkovnimi zbirkami.
- Vzpostavitev svetovalnice za reševanje terminoloških vprašanj in zagotovitev ažurne objave odgovorov.
- Priprava načrta razvoja in nadgradnje terminološkega portala po zaključku projekta.
Delovni sklop 6: vzdrževanje infrastrukturnega centra za jezikovne vire
- Zagotoviti obstoječe in nadgrajene storitve infrastrukture CLARIN.SI.
- Razvoj in vzdrževanje shem XML.
- Zagotoviti distribucijo jezikovnih virov in orodij ter zagotoviti odkup obstoječih jezikovnih virov.
Delovni sklop 7: koordinacija in informiranje
- Informirati uporabnike o projektnih rezultatih.
Projektni konzorcij
Projektni konzorcij je obsežen in vključuje tako rekoč vse akterje, ki so se v zadnjih desetletjih ukvarjali z razvojem jezikovnih virov in tehnologij za slovenščino:
- Univerza v Ljubljani, Kongresni trg 12, 1000 Ljubljana
- Znanstvenoraziskovalni center Slovenske akademije znanosti in umetnosti, Novi trg 2, 1000 Ljubljana
- Institut “Jožef Stefan”, Jamova cesta 39, 1000 Ljubljana
- Inštitut za novejšo zgodovino, Kongresni trg 1, 1000 Ljubljana
- Univerza v Novi Gorici, Rožna Dolina, Vipavska cesta 13, 5000 Nova Gorica
- Amebis, d. o. o., Bakovnik 3, 1241 Kamnik
- Aikwit, d. o. o., Ljubljanska cesta 84, 1354 Horjul
- Alpineon, d. o. o., PE Kranj, Letenice 16, 4204 Golnik
- Slovenska tiskovna agencija, d. o. o., Tivolska cesta 48, 1000 Ljubljana
- Univerza v Mariboru, Slomškov trg 15, 2000 Maribor
- Pošta Slovenije, d. o. o., Slomškov trg 10, 2000 Maribor
- VITASIS, d. o. o., Partizanska cesta 8A, 1381 Rakek
Projekt sofinancirata Evropska unija iz Evropskega sklada za regionalni razvoj in Republika Slovenija.