Menu
 

Datorzinātnieks Mārcis Pinnis: Latviešu valodā ir vismaz 20 miljoni vārdformu Apriņķis.lv

  • Autors:  Inese Helmane, LV portāls
Foto – Aiga Dambe, LV portāls Foto – Aiga Dambe, LV portāls

Tehnoloģijām pārņemot ikdienas dzīvi, pastāv risks, ka pamazām no aprites tiek izstumta latviešu valoda, kuru tās “nesaprot”. “Tādēļ aktīvi strādājam, lai latviešu valodai nodrošinātu dažādu valodas tehnoloģiju atbalstu,” stāsta tehnoloģiju uzņēmuma “Tilde” Mākslīgā intelekta attīstības daļas vadītājs Dr. sc. comp. Mārcis Pinnis, kas atzīts par vienu no pagājušā gada izcilībām zinātnē Latvijā.

Pērn saņēmāt Latvijas Zinātņu akadēmijas gada balvu par izstrādāto jauno neironu mašīntulkošanas tehnoloģiju. Savukārt janvāra sākumā esat viens no 12 personībām zinātnē, par kuru izcilu un inovatīvu pētniecību Latvijas Nacionālajā bibliotēkā veidota izstāde #ZinātneLatvijai. Cik ilgu laiku strādājāt datorzinātnē, un kāds bijis ceļš uz izcilajiem panākumiem?

Interesēties par programmēšanu sāku pamatskolā, kādā 9. vai 10. klasē. Bet 11. klasē jau skaidri zināju, ka vēlos kļūt par programmētāju. Strādāt pie valodas tehnoloģijām gan sāku vēlāk, 2006. gadā, bakalaura studiju 2. kursā, Latvijas Universitātes Matemātikas un informātikas institūta Mākslīgā intelekta laboratorijā. “Tildei” pievienojos 2011. gadā, kad arī sāku darbu pie mašīntulkošanas tehnoloģijām. Tātad ar to nodarbojos jau astoņus gadus.

Kas ir panākumu pamatā? Svarīgi, ka “Tilde” mašīntulkošanās jomā strādā kopš tiem laikiem, kad šīs tehnoloģijas tika plaši izmantotas industrijā, un šai jomai velta visus spēkus. Uzņēmuma mašīntulkošanas tehnoloģiju attīstības uzplaukums sākās pirms desmit gadiem – ap 2010. gadu, kad kompānija iesaistījās Eiropas Komisijas finansētā starptautiskā statistiskās mašīntulkošanas projektā, kurā tapa spēcīgākā statistiskās mašīntulkošanas programma. Tā ir pamattehnoloģija, kuru izmantojam vēl šodien, lai attīstītu savus mašīntulkošanas risinājumus.

“Tildē” strādā spēcīga un pieredzes bagāta pētniecības un izstrādes komanda, turpinām iesaistīties dažādos starptautiskos projektos, kas ļauj attīstīt tehnoloģijas kopā ar citiem spēlētājiem šajā jomā. Svarīgi, ka tehnoloģijas izstrādājam tirgum – visu laiku jātur sevi formā un jāspēj piedāvāt konkurētspējīgi produkti. Darbs ar produktiem prasa praktiskāku pieeju problēmu risināšanai, kas arī ļauj nonākt pie rezultāta.

Pēdējos trīs gadus uzņēmums “Tilde” starptautiskajās sacensībās uzrādījis labākos rezultātus Baltijas valodu mašīntulkošanas tehnoloģiju izstrādē: tulkojot no latviešu, lietuviešu un igauņu valodas uz angļu valodu un otrādi. Kā izdevies apsteigt IT tehnoloģiju zemi – Igauniju?

Jā, igauņi mūs ir uzteikuši par mašīntulkošanas sistēmu kvalitāti. Bijušais kaimiņvalsts prezidents Tomass Hendriks Ilvess pat tviterī bija atsaucies uz “Tildi”, kad uzvarējām mašīntulkošanas sacensībās ar igauņu-angļu valodu. Pat Igaunijā izskanēja, ka latvieši ir soli priekšā.

Ar mašīntulkošanu nodarbojas pētniecības grupa Tartu Universitātē, taču atšķirība starp zinātniekiem un privātuzņēmumu ir tāda, ka “Tilde” mērķtiecīgi attīsta šo tehnoloģiju – ir daudz lielāka pētniecības un izstrādes atdeve. Igauņiem nav tādu uzņēmumu, kas izstrādā mašīntulkošanas tehnoloģijas. Igaunijas uzņēmumi izmanto “Tildes” risinājumus.

Vai nav izaicinājums piedāvāt tulkojumus latviešu valodā, kurā ir tik daudz locījumu? Cik liels vārdu apjoms jāapstrādā datoram, lai tas spētu nekavējoties iztulkot iedoto tekstu?

Pēc “Tildes” aprēķiniem, latviešu valodā ir vismaz 20 miljoni dažādu vārdformu dažādos locījumos. Datos, kādus izmantojam neironu mašīntulkošanas sistēmu apmācībai, parasti ir sastopami aptuveni viens miljons vārdformu. Tātad – būtiski mazāk. Neironu mašīntulkošanas sistēmas gan spēj pašas apgūt zināšanas par vārdu locīšanu, tāpēc visiem locījumiem datos obligāti nav jāparādās.

Pilnu interviju ar Mārci Pinni lasiet portālā “Lvportals.lv”.

atpakaļ uz augšu

Jūs varat autentificēties ar Apriņķis.lv vai kontu.