Tekoälyn kielimalleja myös pienemmille kielille

Suomalaisessa Silo AI:ssa ja Turun yliopiston TurkuNLP:ssa halutaan vahvistaa tulevaisuuden tekoälyratkaisuja myös pienempien kielten osalta. Uusin Viking-malli kattaa islannin, norjan, tanskan ja ruotsin. Suomi oli mukana aiemmin julkistetussa Poro-kielimallissa, johon Viking 7B-mallikin perustuu.

Turun yliopiston TurkuNLP-tutkimusryhmä kehittää pienempiä kieltä ymmärtäviä ja tuottavia tekoälyn malleja osana Euroopan tekoälylaboratorio Silo AI:n kanssa osana Euroopan unionin rahoittamaa High Performance Language Technologies (HPLT) -projektia.

Uusien kielimallien kehityksessä pienempien kielten mallit ovat jääneet jälkeen vahvemmassa asemassa olevan englanninkielisten mallien kehityksestä. Nyt tavoitteena on kehittää eurooppalaisia kielimalleja ja vahvistaa siten eurooppalaista digitaalista suvereniteettia sekä mahdollistaa suurten monikielisten kielimallien saatavuus kaikille, kielestä riippumatta.

TurkuNLP ja Silo AI ovat aiemmin julkaisseet suomen kieleen keskittyneen Poro-kielimallin, sekä varhaisempia versioita pohjoismaisten kielten Viking-kielimalleista. Nyt on julkaistu Vikingin ensimmäinen valmis versio, Viking 7B.

Uusi Viking.malli perustuu samaan koulutustapaan kuin Poro, jossa keskitytään vähäresurssisiin kieliin: suomen ja englannin lisäksi Viking kattaa ruotsin, norjan, tanskan, islannin, ja ruotsin kielet sekä monia ohjelmointikieliä.

’’Viking osoittaa, että olemme onnistuneet kehittämään korkealaatuisia kielimalleja useammalle pienemmälle kielille, joissa tekoälyn kouluttamiseen on tarjolla vain rajoitetusti korkealaatuista tekstiaineistoa’’, toteaa yliopistotutkija Sampo Pyysalo Turun yliopistosta.

Uusien lähestymistapojen tutkiminen on ollut keskeistä Viking-hankkeen kehitystyössä. Esimerkiksi tekstiaineistojen uudelleenkäyttö koulutuksen aikana sekä kielten välisten käännösparien sisällyttäminen ovat parantaneet mallin ymmärrystä kielten välisistä yhteyksistä. Tämä on ratkaisevaa, kun halutaan saavuttaa parempi suorituskyky pienemmissä kielissä ilman, että mallin suorituskyky englannin kielessä kärsii.

Lisää: TurkuNLP (LINKKI) sivusto lisälinkkeineen ja SiloAI:n blogitiedote (LINKKI) sekä aiemmat tekoälyä käsitelleet uutisjutut Uusiteknologia.fi:ssä (LINKKI).

Kuvituskuva: Shutterstock