Äänesi paljastaa enemmän kuin uskotkaan

Verkon huijauksiin pyrkivät deepfake-valevideot ja mobiiliäänet ovat jo tuttua monelle, mutta samalla myös puhujan omakin ääni voi paljastaa enemmän kuin uskotkaan. Aalto-yliopiston tutkijoiden mukaan puheesta voidaan saada arkaluonteistakin tietoa.

Puheteknologiat yleistyvät vauhdilla, ja samalla kasvaa riski siitä, että äänestä voi tulla huijauksen lisäksi muitakin ongelmia. Aalto-yliopiston tutkijoiden mukaan erot intonaatiossa, puhenopeudessa tai sanavalinnoissa voivat kertoa vaikkapa sosiaalisesta taustasta.

Ihmisen äänensävystä voi usein päätellä, onko hän esimerkiksi iloinen, väsynyt tai stressaantunut. Myös tietokoneet pystyvät jo nyt samaan – ja tulevaisuudessa ne pystyvät tunnistamaan puheesta vielä huomattavasti enemmän.

Puhe- ja kieliteknologian professori Tom Bäckström varoittaa, että ääneen koodautunut tieto voi helposti paljastaa paljon enemmän kuin puhuja itse aikookaan.

”Puheeseen sisältyy tietoa esimerkiksi terveydestä, kulttuuritaustasta ja koulutustasosta. Se välittyy puheen mukana, vaikka ihminen itse ei sitä tiedostaisi”, Bäckström sanoo.

Mitä kaikkea tietoa puhe sisältää? Esimerkiksi hienovaraiset erot intonaatiossa, puhenopeudessa tai sanavalinnoissa voivat kertoa vaikkapa poliittisesta suuntauksesta, tunnetiloista tai sosiaalisesta taustasta. Lisäksi hengitykseen, äänenlaatuun tai puheen rytmiin liittyvät piirteet taas voivat paljastaa tietoa esimerkiksi sairauksista tai muutoksista terveydentilassa.

Yksi merkittävä riski onkin, että äänitallenteista päätelty terveystieto vaikuttaa jatkossa esimerkiksi vakuutusten saantiin ja hinnoitteluun tai ohjaa lääkkeiden ja hoitojen markkinointia ilman, että ihminen itse on tietoinen tällaisista puheeseen perustuvista päätöksistä.

Työnantajat taas saattavat esimerkiksi poimia äänitallenteista henkilökohtaista tietoa, jota käytetään rekrytoinneissa, työntekijöiden arvioinnissa – jopa heitä vastaan. Myös entiset kumppanit tai muut ulkopuoliset voisivat hyödyntää puheeseen liittyviä analyysityökaluja vainoamiseen tai häirintään. Bäckström korostaa näiden lisäksi kuitenkin myös epäsuoran haitan mahdollisuutta.

”Jo se, että ihminen kokee olevansa koko ajan kuunneltavana – tai pelko jatkuvasta tarkkailusta – on itsessään psykologisesti vahingollista”, hän sanookin.

Bäckströmin mukaan teknologia, jolla kaikkea tätä puheeseen ja ääneen koodautunutta tietoa voitaisiin kattavasti ja luotettavasti hyödyntää, ei ole ”ihan vielä valmista”. Tutkijat pyrkivät kuitenkin kehittämään suojakeinoja jo nyt – ennen kuin ongelma kasvaa liian suureksi ja käytännöt ehtivät vakiintua. Yksi keskeinen haaste on ollut, ettei puheen sisältämän informaation määrää ole aiemmin osattu mitata kunnolla.

”On vaikea suojella jotain, jos ei tiedä, mitä on suojelemassa. Mittaaminen onkin ensimmäinen askel kohti toimivaa yksityisyyden suojaa”, Bäckström sanoo. Tähän tarpeeseen hänen tutkimusryhmänsä on nyt kehittänyt mittarin, joka arvioi, kuinka tarkasti puhujan identiteetti voidaan rajata äänitallenteen perusteella. Aiemmat menetelmät ovat keskittyneet yksittäisiin tunnistamisriskeihin – esimerkiksi siihen, voidaanko puheesta päätellä jokin tietty sairaus – mutta niitä on ollut vaikea yleistää. Uusi lähestymistapa kuvaa puhetallenteen sisältämän informaation kokonaismäärää.

Mittareiden avulla voidaan myös kehittää konkreettisia suojakeinoja. Väärinkäytösten ehkäiseminen edellyttää, että välitetään vain palvelun kannalta välttämätön tieto, ja että se toimitetaan turvallisesti oikealle vastaanottajalle.

Esimerkiksi yksityinen tieto voidaan erottaa muusta puheesta, puhetta voidaan käsitellä paikallisesti laitteessa pilvipalvelujen sijaan, ja akustisilla ratkaisuilla voidaan rajata, missä ääntä tallennetaan tai kuuluu. Haasteet ovat suhteellisen uusia ja seurausta nopeasta teknologisesta kehityksestä sekä suurten aineistojen yleistymisestä.

Vuonna 2019 Bäckström kollegoineen perusti kansainvälisen tutkimusverkoston, joka keskittyy puheteknologioiden yksityisyyteen ja tietoturvaan. Verkosto on nyt julkaissut uuden työkalunsa, joka vastaa alan peruskysymykseen: kuinka paljon tietoa puhetallenne sisältää.

Bäckström näkee vastikään Proceedings of the IEEE -lehdessä julkaistun tutkimuksen askeleena kohti sitä, että ihmisille voidaan kertoa ymmärrettävällä tavalla eri puheteknologioiden yksityisyysvaikutuksista. Tutkimus korostaa, että yksityisyyden suoja ei ole vain tekninen kysymys, vaan liittyy myös käyttäjien psykologiaan, kokemuksiin ja käyttöliittymäsuunnitteluun.

Hyvät mittarit ovat kuitenkin tärkeitä myös yksityisyyttä suojaavien työkalujen suunnittelussa ja arvioinnissa. Artikkelissaan tutkimusryhmä tarjoaa ensimmäisen kattavan yleiskatsauksen puheteknologioihin liittyvistä uhkista ja suojakeinoista sekä nostaa esiin myös riskit ihmisille, jotka eivät itse käytä puhepalveluja – esimerkiksi tilanteissa, joissa ääni tallentuu taustahälynä.

Lisää: IEEE: Privacy in Speech Technology (LINKKI).

Kuvituskuva: Aalto-yliopisto / Aki-Pekka Sinikoski