Skoči do osrednje vsebine

Projekt Razvoj slovenščine v digitalnem okolju

Shema nevronske mreže na temno modrem ozadju

Foto: Kittyfly/stock.adobe.com

S projektom Razvoj slovenščine v digitalnem okolju – RSDO želimo prispevati k boljši izrabi raziskovalnega potenciala raziskovalcev na področju jezikovnih virov in tehnologij in spodbuditi sodelovanje raziskovalnih organizacij s podjetji. Rezultat projekta bodo izdelki, ki bodo na uporabniško prijazen način pomagali pri sporazumevanju, sodelovanju, poslovanju, izmenjavi znanja in udeleževanju v družabnih in političnih razpravah ter prispevali k premagovanju jezikovnih meja.

Višina finančne podpore za operacijo znaša 4.000.000,00 EUR.

Strateški cilji projekta

  • Zadovoljiti potrebe po računalniških izdelkih in storitvah s področja jezikovnih tehnologij za slovenski jezik za raziskovalne organizacije, za podjetja in za širšo javnost.
  • Odprti dostop do rezultatov raziskovalnega dela.
  • Nadgradnja organiziranega skladiščenja, vzdrževanja in distribucije virov in tehnologij.
  • Enakopravnejše sodelovanje z evropskimi pobudami za izmenjavo digitalnih virov in orodij.
  • Večja konkurenčnost slovenskega razvojno-raziskovalnega prostora v mednarodnem merilu.

Operativni cilji po delovnih sklopih

Delovni sklop 1: vzdrževanje in nadgradnja korpusov (jezikovni viri)

  • Nadgradnja programa za strojno označevanje besedil in vzpostavitev spletnega delotoka.
  • Izdelava ali nadgradnja učnih množic za procesiranje naravnega jezika.
  • Nadgradnja leksikona ter korpusov pisne standardne in nestandardne slovenščine.
  • Nadgradnja korpusa govorjene slovenščine.
  • Gradnja korpusa usvajanja slovenščine kot prvega in kot drugega/tujega jezika.
  • Gradnja korpusa parlamentarnih razprav in metakorpusa vseh večjih korpusov slovenskega jezika.

Delovni sklop 2: govorne tehnologije

  • Izdelava govorne baze, ki bo osnova za izdelavo splošnega razpoznavalnika govora.
  • Izdelava podpornih orodij in postopka za razvoj robustnega splošnega ter specializiranega razpoznavalnika.
  • Razvoj portala s podpornimi orodji in modeli razpoznave.
  • Priprava dolgoročnega načrta nadgradnje splošnega razpoznavalnika z velikim slovarjem besed ter načrta izdelave razpoznavalnika v realnem času za domeno izobraževanja.

Delovni sklop 3: semantični viri in tehnologije

  • Izdelava osrednje digitalne slovarske baze, ki združuje različne tipe jezikovnih podatkov o slovenščini v odprtem dostopu.
  • Avtomatska izdelava baze znanja oziroma semantične mreže.
  • Izdelava virov in orodij za razdvoumljanje pomenov in prepoznavanje semantičnih premikov ter za avtomatsko povzemanje in odgovarjanje na vprašanja.
  • Izdelava korpusov za izvajanje semantičnih analiz.

Delovni sklop 4: strojno prevajanje

  • Namestitev referenčnega prevajalnika ter razvoj podpornih orodij in definiranje evalvacijskih metod.
  • Testiranje alternativnih ogrodij nevronskega strojnega prevajanja (NMT).
  • Izdelava modelov NMT in njihovo osveževanje glede na rast korpusa prevodov.
  • Razvoj dela portala s strojnim prevajalnikom.
  • Priprava dolgoročnega načrta za razvoj strojnega prevajalnika v domeni izobraževanja ter načrta za nadaljnji razvoj splošnega prevajalnika.
  • Zbiranje besedil za korpus prevodov.

Delovni sklop 5: terminološki portal

  • Izdelava terminološkega portala z iskalnikom po terminoloških virih in spletnim konkordančnikom za analizo specializiranih korpusov.
  • Izdelava orodja za luščenje terminoloških kandidatov iz korpusov.
  • Izdelava spletnega urejevalnika terminoloških virov.
  • Izdelava smernic in navodil za sestavljanje terminoloških virov z vzorčnimi podatkovnimi zbirkami.
  • Vzpostavitev svetovalnice za reševanje terminoloških vprašanj in zagotovitev ažurne objave odgovorov.
  • Priprava načrta razvoja in nadgradnje terminološkega portala po zaključku projekta.

Delovni sklop 6: vzdrževanje infrastrukturnega centra za jezikovne vire

  • Zagotoviti obstoječe in nadgrajene storitve infrastrukture CLARIN.SI.
  • Razvoj in vzdrževanje shem XML.
  • Zagotoviti distribucijo jezikovnih virov in orodij ter zagotoviti odkup obstoječih jezikovnih virov.

Delovni sklop 7: koordinacija in informiranje

  • Informirati uporabnike o projektnih rezultatih.

Projektni konzorcij

Projektni konzorcij je obsežen in vključuje tako rekoč vse akterje, ki so se v zadnjih desetletjih ukvarjali z razvojem jezikovnih virov in tehnologij za slovenščino:

  • Univerza v Ljubljani, Kongresni trg 12, 1000 Ljubljana
  • Znanstvenoraziskovalni center Slovenske akademije znanosti in umetnosti, Novi trg 2, 1000 Ljubljana
  • Institut “Jožef Stefan”, Jamova cesta 39, 1000 Ljubljana
  • Inštitut za novejšo zgodovino, Kongresni trg 1, 1000 Ljubljana
  • Univerza v Novi Gorici, Rožna Dolina, Vipavska cesta 13, 5000 Nova Gorica
  • Amebis, d. o. o., Bakovnik 3, 1241 Kamnik
  • Aikwit, d. o. o., Ljubljanska cesta 84, 1354 Horjul
  • Alpineon, d. o. o., PE Kranj, Letenice 16, 4204 Golnik
  • Slovenska tiskovna agencija, d. o. o., Tivolska cesta 48, 1000 Ljubljana
  • Univerza v Mariboru, Slomškov trg 15, 2000 Maribor
  • Pošta Slovenije, d. o. o., Slomškov trg 10, 2000 Maribor
  • VITASIS, d. o. o., Partizanska cesta 8A, 1381 Rakek

Projekt sofinancirata Evropska unija iz Evropskega sklada za regionalni razvoj in Republika Slovenija.