Murresanojen tunnistukseen tekoälyä – testigeneraattori ja koodit verkossa

Koneäly ymmärtää suomea yleensä vain kirjakielenä. Kun vuorovaikutuksessa tietokoneiden kanssa käytetään suomen eri murteita, syntyy paljon ongelmatilanteita. Sitä avittamaan Helsingin yliopiston tutkijat ovat opettaneet tekoälylle suomen kielen eri murteita. Tarjolla on verkossa testigeneraattori ja ohjelmakoodit.

Tiedotusvälineissä on laajemmin viime aikoina puhuttu kieliaineiston keräämisestä tarkoituksena opettaa tekoälyä ymmärtämään suomen ja ruotsin kielen murteita. Nyt Mika Hämäläisen, Niko Partasen, Khalid Alnajjarin ja Jack Rueterin muodostama tutkimusryhmä Helsingin yliopistossa on kehittänyt menetelmiä, joilla saadaan aikaan murteita sujuvasti käyttävä tekoäly.

Tutkijat ovat laskennallisen luovuuden avulla kehittäneet menetelmän, jolla suomen kirjakieli voidaan muuntaa miksi tahansa suomen kielen 23 alamurteesta. Koneälyn tulee sekä ymmärtää murteellista suomea että kyetä ilmaisemaan itseään murteellisesti.

Murteet tunnistetaan sekä puheäänestä että tekstistä. Tutkimustulosten perusteella murteiden tunnistaminen on vaikeaa pelkästään tekstin pohjalta. Murteiden tunnistaminen helpottuu, kun mallilla on käytössään myös ääntä, sillä monilla murteilla on äänteellisiä erityispiirteitä. Tutkijoiden tuoreimmat julkaistut tulokset liittyvätkin murteiden tunnistamiseen sekä puhutun äänen että tekstin perusteella.

Tutkijat huomauttavat, että murteiden ymmärtäminen on monitahoinen haaste, eikä mikään malli kykene ymmärtämään ihmisen lailla luonnollista kieltä. Nyt luodut mallit avaavat kuitenkin mielenkiintoisia suuntia tutkimukselle, kuten selvittää murteiden normista poikkeamisen aste ja eri kielimuotojen lauseopilliset erot.

Tutkimusryhmä on kehittänyt vastaavanlaista kirjakielistämismenetelmää myös Suomessa puhutuille ruotsin murteille ja historialliselle suomelle. Murregeneraattoria voi testata verkossa ja murteen ”kirjakielistäjä” ja Python-generaattorikoodi ovat julkaistu avoimesti GitHubissa. Myös murteen tunnistajakoodin löytyy Githubista.

Lisää: Murregeneraattori (LINKKI), murregeneraattorin Python-kirjastona (LINKKI) ja suomenkielen tunnistuskoodi Githubissa (LINKKI).

Kuvituskuva: Aki-Pekka Sinikoski/Aalto- ja Helsingin yliopisto