Parempaa tekoälyä ilman syväoppimista

Tekoäly ei aina tarvita jyväskyläläistutkijoiden mukaan välttämättä nousussa olevaa syväoppimista. Heidän mukaansa perinteiset matemaattiset optimointimenetelmät toimivat ainakin yksinkertaisen tekoälyn kouluttamisessa paremmin.

Jyväskylän yliopiston professori Tommi Kärkkäinen ja väitöskirjatutkija Jan Hänninen tutkivat Jyväskylän yliopistossa itseoppivia menetelmiä. He saivat jo kuusi vuotta sitten yllättäviä tuloksia, joiden mukaan syväoppimisen ydintä, monimutkaisia neuroverkkorakenteita, ei välttämättä tarvita.

’’Syväoppimismenetelmien käyttö on aina hyvin monimutkainen ja virhealtis savotta. Tämä tekee malleista väistämättä raskaita ja vaikeasti hahmotettavia’’, arvioi tutkimustuloksia Jyväskylän yliopiston professori Kärkkäinen.

Jyvskyläläistutkijoiden keinot pohjautuvat 1700-luvun matematiikkaan. Myös perinteiset 1960- ja 1970-luvuilla esitetyt matemaattiset optimointimenetelmät toimivat yksinkertaisemman tekoälyn opettamisessa jopa paremmin kuin 2000-luvun syväoppiminen. Yksinkertaisempi tekoäly on myös eettisesti ja ympäristöllisesti kestävämpi.

’’Uusi neuroverkkojen mallimme on ilmaisuvoimaisempi ja pystyy merkittävästi tiivistämään laajoja tietoaineistoja’’, sanoo professori Kärkkäinen. Myös väitöskirjatutkija Hännisen mukaan tulosten perusteella neuroverkkojen soveltamisesta erilaisiin tehtäviin tulee entistäkin helpompaa ja luotettavampaa.

Kärkkäinen ja Hänninen kertovat, että yksinkertaisempi verkkorakenne mahdollistaa helpomman käyttöönoton ja paremman ymmärrettävyyden. Tekoälystä on tullut osa lähes kaikkea modernia teknologiaa ja siksi on tärkeää ymmärtää, mitä ja millä tavalla se tekee asioita.

’’Mitä läpinäkyvämpi ja yksinkertaisempi tekoäly on, sitä helpompaa on tarkastella sen käytön eettisiä näkökulmia. Vaikkapa lääketieteen sovelluksissa syväoppimismalleja ei voida laajasti hyödyntää, koska potilasturvallisuutta ei voi varmasti arvioida’’, Kärkkäinen toteaa.

Tutkijat nostavat esille myös sen, että yksinkertaisemmat mallit säästävät resursseja eli kuluttavat esimerkiksi vähemmän sähköä ja ovat näin ympäristöystävällisempiä. Esimerkiksi uusien ChatGPT:n käyttämät syväoppimismallit ovat raskaita ja vaikeasti hahmotettavia.

Tutkijat ovat silti kokeneet, että valtavirran käsityksistä poikkeavan tutkimuksen julkaiseminen on ollut vuosia kestävä tuskaisa prosessi. Heidän mukaansa tuntuu, että valtavirtaa vastaan uiminen on tieteessäkin haastavaa, kun kuuluisat tutkijat ja heidän verkostonsa puolustavat omia tutkimusintressejään. Nyt jyväskyläläistutkijoiden artikkeli on julkaistu neurolaskenta-alan korkeatasoisessa Neurocomputing-julkaisusarjassa.

’’Odotamme mielenkiinnolla, miten tulokset otetaan vastaan tiedeyhteisössä ja koneoppimismenetelmien hyödyntäjien parissa teollisuudessa. Itse otamme uudet menetelmät käyttöön ainakin resurssiviisaan vetytalouden, älykkäiden oppimisen ympäristöjen sekä luotettavan terveys- ja hyvinvointiteknologian monitieteisissä kehityshankkeissamme, professori Kärkkäinen summaa.

Lisää: Kärkkäinen, T., & Hänninen, J. (2023). Additive autoencoder for dimension estimation. Neurocomputing, 126520 (LINKKI)