Jezične tehnologije za hrvatski
Institut za hrvatski jezik i jezikoslovlje te Filozofski fakultet Sveučilišta u Zagrebu ovoga su desetljeća prerasli u nezaobilazna nacionalna središta za razvitak jezičnih tehnologija i našu besplatno dostupnu digitalnu jezičnu riznicu s rječnicima, gramatikama i pravopisnim priručnicima
Napisala: Vesna Kukavica, časopis Matica, Hrvatska matica iseljenika
Inovativne jezične tehnologije (JT) su posrednici koji će omogućiti hrvatskim građanima sudjelovanje u glavnim društvenim i gospodarskim tijekovima europskog i globalnog društva znanja. Sredinom ove godine, nadamo se od 1. srpnja, hrvatski jezik postat će 24. službeni jezik Europske unije. Danas se dvadesetak europskih jezika, kojima se služi manje od 10 milijuna govornika, poput hrvatskoga, nalaze u opasnosti od digitalnog izumiranja, zbog svoje nedovoljne zastupljenosti on-line i slabe razvijenosti jezičnih resursa, odnosno izvora jezičnih tekstova pohranjenih u obliku elektroničkoga teksta, kao i jezičnih alata tj. aplikacija za služenje postojećim digitalnim resursima. Kako se pred nama otvaraju goleme mogućnosti na regionalnim tržištima, koje još nisu iskorištene zbog jezičnih prepreka – izazove JT-a treba staviti na listu nacionalnih prioriteta kao što je primjerice prometna infrastruktura. Žarko bismo željeli, unatoč ekonomskoj krizi, izići iz kruga onih građana Europske unije koji će se naći socijalno i ekonomski zakinuti zbog toga što govore samo svoj materinski jezik. Višejezične tehnologije postale su kanali za trenutačnu, jednostavnu i jeftinu komunikaciju i interakciju, zaobilazeći jezične barijere poput besplatne usluge prevođenja Google Translate.
Institut za hrvatski jezik i jezikoslovlje (www.ihjj.hr) ovoga desetljeća prerasta u vodeće nacionalno središte za razvitak naših jezičnih tehnologija i besplatno dostupnu digitalnu jezičnu riznicu za hrvatski jezik s rječnicima, gramatikama i pravopisnim priručnicima. Dominaciju izmjenjuje s lingvističkim računalnim stručnjacima s Filozofskoga fakulteta Sveučilišta u Zagrebu, znanog i po pionirskim pothvatima uvođenja jezično-tehnoloških inovacija za hrvatski jezik u isto vrijeme kad je prije 42 godine Ralph Gorin sa Stanford Universityja plasirao prvu jezičnu provjeru računalom – English Spell Check. U Zavodu za lingvistiku Filozofskoga fakulteta Sveučilišta u Zagrebu tako je prof. dr. sc. Željko Bujas sastavio prvi hrvatski računalni korpus. Dominaciju u računalnoj lingvistici ta obrazovna ustanova održat će tijekom idućih nekoliko desetljeća kada će od 1980-ih biti izvršena računalna obrada starih hrvatskih pisaca. Sastavljanje Jednomilijunskoga korpusa hrvatskoga književnog jezika započelo je 1976. pod vodstvom akademika Milana Moguša. Sastavljanje Hrvatskoga nacionalnog korpusa (http://hnk.ffzg.hr), koji trenutačno obuhvaća 101,3 milijuna riječi, počelo je 1998. pod vodstvom istraživača dr. sc. Marka Tadića koji se u međuvremenu profilirao u vodećeg stručnjaka računalne i korpusne lingvistike u Hrvatskoj. Aktualni najveći hrvatski korpus hrWaC sastavljen je na istome fakultetu 2010., a sadrži ukupno 1,3 milijarde riječi – pojavnica, skupljenih s hr internetske domene. Početkom 21. stoljeća na tom fakultetu se, uz popularni internetski portal za hrvatski jezik (http://www.hrvatskijezik.eu), pod vodstvom prof. dr. sc. Damira Borasa, obavlja digitalizacija starih hrvatskih jednojezičnih i višejezičnih rječnika koji su dostupni na Portalu hrvatske rječničke baštine (http://crodip.ffzg.hr).
S druge strane, pri Institutu za hrvatski jezik i jezikoslovlje, krenulo je 2004. sastavljanje opsežnoga korpusa pod nazivom Hrvatska jezična riznica http://riznica.ihjj.hr), koja uključuje pisane tekstove od 11. stoljeća do suvremenoga doba. Riznica je podijeljena u tri glavna korpusa (starohrvatski, srednjohrvatski i suvremeni hrvatski) gdje se za prva dva rješavaju ključni problemi dijakronijskih korpusa što u hrvatskome slučaju znači transliteraciju s trima različitim pismima (glagoljica, ćirilica i latinica), rješavanje nestandardnih pravopisnih rješenja, kao i individualne varijacije u uporabi pojedinih pismena, objasnio nam je ravnatelj Instituta dr. sc. Željko Jozić. Institut održava i praktičan on – line jezični savjetnik (http://savjetnik.ihjj.hr). Većinu istraživačkih aktivnosti na području računalnoga i korpusnoga jezikoslovlja te jezičnih tehnologija u RH podupire Ministarstvo znanosti, obrazovanja i sporta projektima koji su povezani s jezičnim tehnologijama te Ministarstvo kulture projektima digitalizacije kulturne baštine – za razliku od komercijalnih tržišta JT-a kakvo su američko ili neka azijska.
Iz istoga proračunskog izvora prije pet godina započeti su pojedini vitalni projekti vezani uz razvitak hrvatskih jezičnih resursa na Filozofskome fakultetu. To su, uz ostale programe, Računalnolingvistički modeli i jezične tehnologije za hrvatski jezik (http://rmjt.ffzg.hr) gdje se sastavlja i održava čitav niz jezičnih resursa i alata kao što su Hrvatski morfološki leksikon, Hrvatsko-engleski paralelni korpus, Hrvatska ovisnosna banka stabala (http://hobs.ffzg.hr) i slično. Navedeni programi uključuju digitalizaciju skupljenih jezičnih podataka i izravno uvećavaju broj dostupnih jezičnih resursa za hrvatski jezik.
Nove prilike i JT otvaraju internetsko poglavlje u očuvanju hrvatskoga jezika među višemilijunskom poliglotskom hrvatskom dijasporom od Aljaske do Ognjene zemlje, juga Afrike te Australije i Novoga Zelanda. Mrežni pristup jezičnim resursima za hrvatski jezik izvor je nade da će broj govornika našega jezika u iseljeništvu rasti.