Meie kõige sagedamini kasutatavatel arvutitel – nutitelefonidel – tõepoolest puudub füüsiline klaviatuur ja ka kõnepõhine suhtlus on jõudnud laiadesse massidesse: näiteks virtuaalassistendid nagu Apple Siri ja Google Assistant on kasutajaliidesed, mille eesmärk on teha loomulikus keeles arvutiga suhtlemine lihtsamaks. Kahjuks nad veel eesti keelt ei toeta.

Tallinna Tehnikaülikooli (TalTech) keeletehnoloogia laboris on kõne- ja keeletehnoloogiat uuritud juba mitu aastakümmet. Abstraktsema teadustöö kõrval on labor tegelenud palju ka reaalselt kasutatavate eesti keeletehnoloogiakomponentide väljatöötamisega. Üheks kõige tähtsamaks tooteks on eesti keele kõnetuvastus. Automaatne kõnetuvastus on tehnoloogia, mille abil teisendatakse kõne sellele vastavaks tekstiks. Tänapäevane kõnetuvastus põhineb masinõppel, st kõnetuvastusmudelid on treenitud suurte treeningkorpuste põhjal. Kõnetuvastusel on palju rakendusi, näiteks dokumentide dikteerimine, inimese ja arvuti vaheline suhtlus, kõnesalvestuste (intervjuud, koosolekusalvestused) transkribeerimine, kuulmispuudega inimeste abisüsteemid jpm.

Kõnetuvastust kasutatakse üha rohkem nii rahvusvahelistes suurfirmades kui ka Eestis

Erinevalt paljulevinud arvamusest on keeletehnoloogias kasutatavad meetodid suuresti keelest sõltumatud – keelespetsiifilisuse eest hoolitsevad treeningandmed. Näiteks eesti keele kõnetuvastuseks kasutatakse sarnaseid meetodeid nagu suurfirmade Google’i ja Microsofti süsteemides. Tänu keeletehnoloogia ja tehisintellekti ülikiirele arengule on ka TalTechi kõnetuvastussüsteemi kvaliteet viimase 12 aasta jooksul jõudsalt paranenud: võrreldes 10 aasta taguse ajaga on nüüd vigu umbes kolm korda vähem. See on võimaldanud luua mitmesuguseid reaalselt kasutatavaid kõnetuvastuse rakendusi. TalTechi kõnesalvestuste transkribeerimise süsteem on tasuta saadaval kõigile huvilistele ja seda kasutatakse iga päev keskmiselt 130 kõnefaili transkribeerimiseks. Samuti on juba mitu aastat see kõnetuvastussüsteem olnud kasutuses Riigikogus stenogrammide loomise abivahendina. Alates 2022. aasta märtsist kasutatakse TalTechis loodud kõnetuvastust ka ETV-s uudiste- ja vestlussaadetele reaalajas genereeritud subtiitrite loomiseks. Kuigi süsteem teeb vigu, teevad subtiitrid eelkõige kuulmispuudega inimestele paljude telesaadete vaatamise oluliselt lihtsamaks.

Lisaks kõnetuvastusele tegeletakse laboris paljude teiste valdkondade uurimisega. Tihti on need teemad seotud praktiliste vajadustega ning tulemused saadakse koostöös magistrantidega. Näiteks on mitmes hiljutises magistritöös uuritud, kuidas tuvastada kõnest parasjagu kõneldav keel. Sellist keele identifitseerimist on vaja näiteks eesti keele tuvastussüsteemis, et välja filtreerida muukeelsed kõnelõigud, mida eesti keele tuvastustusmudel transkribeerida ei oska. Praegu ongi meie uurimistöö üheks fookuseks aktsendiga kõne: selgus, et keele identifitseerimine on väga täpne emakeelsete kõnelejate puhul, kelle puhul on eesti keele identifitseerimise täpsus üle 99%. Aktsendiga kõne puhul langeb täpsus aga 50% kanti. Hiljuti valminud teadusartikkel selgitas, kuidas aktsendiga kõne puhul selliseid vigu vähendada.

Kõnetehnoloogial on tulevikus veelgi suurem potentsiaal

Keele- ja kõnetehnoloogia on tehisintellekti üks olulisemaid komponente. Samas on inimkeel ja -kõne tohutult variatiivne, mitmetähenduslik ja -tasandiline ning seetõttu arvutile ka väga keeruline mõista. See teeb keeletehnoloogia uurimise väga huvitavaks. Keeletehnoloogia olulisust aitab mõista ka see, et siin tulevad praegu tihti kõige huvitavamad ja üllatavamad teadustulemused suurfirmadelt nagu Google, Microsoft ja Facebook, kes investeerivad valdkonda tohutult inimtöötunde ja arvutusressurssi. Võib kindlalt öelda, et kaasaegse keeletehnoloogia heal tasemel tundmine avab ülikoolilõpetajale palju uusi võimalusi tööturul ja seda mitte ainult keeletehnoloogia valdkonnas, vaid ka üldisemalt andmeteaduse ja masinõppe maailmas.

Keeletehnoloogia ja ka teiste tehismõistuse rakenduste arendamise oskusi saab sügavuti täiendada, läbides TalTechi informaatika magistriõppekava. Avaldusi kandideerimiseks saab esitada 6. juuli keskpäevani.

Kuidas tulla õppima Tallinna Tehnikaülikooli?

  • Esita avaldus lehel sais.ee.

  • Avaldusi kandideerimiseks saab esitada 4. juuli 2023 keskpäevani. Loe lähemalt: www.taltech.ee/sisseastujale

  • Kui oled ületanud lävendi, oled järgmisest õppeaastast TalTechi oodatud. Õppima tulemise pead kinnitama hiljemalt 15. juulil, kuid võid kinnitada ka kohe.

  • Kui su eksamitulemused on allpool lävendit, saad parandada eksamitulemust ülikooli eesti keele või matemaatika katsel juunikuus.

Jaga
Kommentaarid