Base Styles/Icons/Menu/Burger Default Created with Sketch. Base Styles/Icons/Close/Default Created with Sketch. Base Styles/Icons/lock/open Created with Sketch.

Voivatko älylaitteet ymmärtää meitä?

Virtuaaliapurit ovat tuoneet keskustelevan tekoälyn osaksi jokapäiväistä arkea. Seuraavaksi tietokoneet oppivat suhtautumaan meihin yksilöinä.
Kuvituskuvassa ääniaaltoja, ihmisen korva ja pään sisäinen mikropiiri: Kuvittaja: Ida-Maria Wikström.

Digitaaliset älyapurit ovat siirtyneet tieteiskirjallisuudesta taskuihimme ja kotiemme pöydille. Amazonin Alexa, Applen Siri ja Googlen Google Assistant ovat irrottamassa meidät tietokoneiden ja puhelimien ruuduista – ja tuomassa käyttöliittymäksi puhutut sanamme.

Ääniohjauksella on jo helppoa tarkistaa uutiset, valita musiikkia kuunneltavaksi, tilata taksi ja ohjata kodin älylaitteita.

Mutta kuinka tekoälyä käyttävät älyapurit oikeastaan pystyvät ymmärtämään meitä?

1. vaihe: puheentunnistus

Älyapurien pitää toimiakseen olla aina päällä. Ne kuuntelevat ympäristöään horroksessa siihen asti, kunnes ne tunnistavat ympäristössä lausutun avainsanan.

Esimerkiksi Amazonin virtuaaliapuri havahtuu sanalla ”Alexa”. Heräämisen merkkinä älykaiuttimen led-rengas muuttuu siniseksi.

Myös Applen puhelimen Siri toimii samalla periaatteella. Kun Siri kuulee ”Hei Siri” -komennon, se alkaa äänittää käyttäjän puhetta ja lähettää sitä pilvipalvelussa toimivaan puheentunnistukseen.

Ensin digitoitu puhe pilkotaan lyhyiksi, sekunnin murto-osan pituisiksi palasiksi.

”Kaikki lähtee spektrianalyysistä eli taajuuksista, joita siellä on. Taajuusavaruudessa syntyy hahmoja, jotka kuvaavat erilaisia äänteitä”, sanoo Aalto-yliopiston signaalikäsittelyn ja akustiikan laitoksen professori Mikko Kurimo.

Pilkkomisen yhteydessä puheesta poistetaan kaikki puheentunnistuksen kannalta ylimääräinen materiaali, kuten esimerkiksi puhujan äänenkorkeus ja ympäristön äänet.

”Eli yritetään löytää piirteitä, jotka kertovat siitä, mitä äänteitä on sanottu”, Kurimo sanoo.

Puheentunnistusta vaikeuttaa se, että me ihmiset puhumme sekavasti, nielaisemme sanoja ja käytämme eleitä ja äännähdyksiä. Lausumamme sanat voivat myös kuulostaa toisiltaan, kuten vaikkapa englanninkielen sanat ate ja eight.

”Nykyään puheentunnistus tehdään yhä useammin syvällä neuroverkolla”, Kurimo sanoo.

Aivojen toimintatapaa jäljittelevät syvät neuroverkot koostuvat neuroneista eli eräänlaisista yksinkertaisista laskureista. Neuroverkosta tulee tehokas, kun toisiinsa liitetyt neuronikerrokset työskentelevät muiden saman kerroksen ja seuraavan kerroksen neuronien kanssa.

Puheentunnistuksessa neuroverkkojen hakualgoritmeissa käytetään tilastollisten äännemallien lisäksi laajojen tekstimateriaalien avulla rakennettuja kielimalleja. Kielimallilla ennustetaan sanojen esiintymistodennäköisyyttä toistensa jälkeen ja todennäköistä ääntämismallia. Se auttaa karsimaan epätodennäköiset sanat tunnistuksen nopeuttamiseksi.

”Eli puheentunnistimen tehtäväkenttä on hakea mahdollisimman todennäköinen lause, jonka käyttäjä on sanonut.”

2. vaihe: luonnollisen kielen käsittely

Luonnollisen kielen käsittelyssä tekstistä yritetään purkaa sen merkitys – se, mitä käyttäjä haluaa digi­apuriltaan saada.

Myös luonnollisen kielen käsittelyssä käytetään neuroverkkoja. Puheen datasta haravoidaan automaattisesti avainsanoja ja fraaseja, jotta saataisiin selville, mihin käyttäjän sanat mahdollisesti liittyvät.

Neuroverkot koulutetaan tehtäviinsä syöttämällä käsiteltäväksi iso määrä dataa ja vertaamalla saatuja arvoja oikeiksi tiedettyihin arvoihin. Korjauksia toistetaan niin pitkään, ettei tulos enää parane. Sen jälkeen järjestelmä pystyy toimimaan omin päin.

Eräässä Kurimon vetämässä hankkeessa on tutkittu audiovisuaalisen aineiston automaattista kuvailua. Aineistoiksi valittiin muun muassa Ylen arkistoimia videoita. Kehitetty menetelmä pystyy tulkitsemaan samanaikaisesti sekä videolla kuultavaa puhetta että liikkuvaa videokuvaa – ja tuottamaan niistä tekstimuotoisen kuvailun. Järjestelmää opetettiin käyttämällä vertailukohtana ihmisten kirjoittamia kuvauksia samoista videoista.

Keskeistä syvissä neuroverkoissa on niiden opetukseen käytettyjen tietokantojen koko. Siksi kaupallisia digiapureita tuottavat juuri Amazonin, Applen, Googlen ja Microsoftin kaltaiset jättiyritykset.

”Suurilla firmoilla on pääsy laajoihin tietokantoihin, ja niiden on aika helppo tehdä automatisointia. Jos chatbottia lähdetään tekemään ihan tyhjästä, se on työlästä. Tietokanta pitää kerätä jotenkin.”

3. vaihe: pyynnön toteuttaminen

Viimeinen vaihe toteuttaa käyttäjän pyynnön. Digiapurit hyödyntävät verkosta haettavien tietojen ohella esimerkiksi käyttäjän puhelimen yhteystietoja, kalenteria ja paikannustietoja käsittääkseen paremmin, mitä käyttäjä haluaa.

Siksi digiapuri voi vaikuttaa hämmästyttävän fiksulta yksinkertaisten pyyntöjen toteuttamisessa, kuten puhelun yhdistämisessä, säätietojen kysymisessä tai pizzan tilaamisessa.

Jos älyapuria pyytäisi kertomaan kuulumisia Piilaaksosta, kompuroivana vastauksena tulisi vain sekalaisia Piilaakso-sanaan liittyviä hakutuloksia. Digiapuri ei osaisi päätellä, kysyttiinkö siltä Piilaakson historiasta, säästä vai alueen yrityksistä.

”Äly loppuu kuin veitsellä leikaten, kun mennään suunnitteluavaruuden ulkopuolelle”, Kurimo sanoo.

Myös älyapureiden puheäänen tuottamisessa on siirrytty käyttämään syviä neuroverkkoja. Puheessa äänteet liittyvät aina toisiinsa, ja juuri yhteensopimattomat äänteet saivat varhaiset älyapurit kuulostamaan robottimaisilta. Nykyisin neuroverkot laskevat lennossa mallin vastauksena tulevan lauseen ääntämiseksi.

”Puhesynteesigeneraattorille syötetään painotettavat tavut ja sanat, mitkä tekevät puheesta luonnollisen kuuloista. Sitten generoitu signaali toimitetaan käyttäjän päätelaitteeseen ja soitetaan sieltä läpi.”

Kohti yksilöllisiä käyttöliittymiä

Tieteiselokuvista tutuksi keskustelukumppaniksi keskustelevinkaan tekoäly ei veny vielä pitkään aikaan.

Tietoliikenne- ja tietoverkkotekniikan laitoksen professori Antti Oulasvirta pitää puhekäyttöliittymien ongelmana sitä, että ne eivät varsinaisesti ymmärrä kieltä.

”Tekoäly ei opi kieltä ikään kuin ruumiillisena ja ­sosiaalisena kanssakäymisenä. Se ei voi oppia kielellistä viitekehystä, mihin sanat tai eleet viittaavat.”

Tutkimus ihmisen ja tekoälyä käyttävien järjestelmien vuorovaikutuksesta etenee silti koko ajan, ja samalla kasvavat mahdolliset sovellusalueet. Yksi ­sovellusalue on Oulasvirran User Interfaces -ryhmän tutkima käyttöliittymien parantaminen laskennallisten mallien avulla.

Esimerkiksi verkkosivu on mahdollista muotoilla käyttäjän selainhistorian perusteella automaattisesti uusiksi siten, että se tuntuu käyttäjästä heti tutulta.

”Tällä tavoin voidaan tehdä miellyttävämpi selauskokemus. Esimerkiksi otsikot voivat löytyä melkein aina samasta kohdasta.”

Myös arkisesta tekstinsyötöstä on löytynyt uusia tutkimuskohteita. Yhdistämällä havaitsemista, oppimista ja muistin ilmiöitä tutkivaa kognitiotiedettä tekoälyyn voidaan rakentaa malleja, jotka ennustavat tarkasti ihmisen yksilöllisten ominaisuuksien vaikutusta esimerkiksi kirjoittamiseen puhelimen näytöllä. Kun mallit liitetään vaihtoehtoja simuloivaan koneelliseen optimoijaan, käyttöliittymä voidaan räätälöidä käyttäjän mukaan. Näin on löydetty esimerkiksi ratkaisuja vapinasta kärsivien ikäihmisten älypuhelinten käyttöön.

Oulasvirran ryhmässä on kehitetty myös ranskalaisten tietokonenäppäimistöjen uutta näppäinasettelua, jonka Ranskan standardointiviranomaiset ovat juuri hyväksyneet.

”Koko Ranskassa tullaan käyttämään optimoijan auttamaa tapaa kirjoittaa erikoismerkkejä”, Oulasvirta sanoo.

Meneillään on myös tunteiden mallinnukseen liittyvä tutkimushanke.

”Tekoälyn kentässä on lopulta kyse siitä, että inhimillisiä asioita pyritään esittämään laskennallisesti”, Oulasvirta sanoo.

Hän muistuttaa, että tavallinen puhelimen reittiopaskin perustuu tekoälyyn, vaikka käyttäjät eivät sitä tekoälyksi ehkä miellä. Oulasvirran näkemys asiasta on kuitenkin selvä.

”Aina kun jokin älyllinen kapasiteetti voidaan toteuttaa laskennallisesti, minun mielestäni se on tekoälyä.”

Teksti: Panu Räty. Kuvitus: Ida-Maria Wikström.

Artikkeli on julkaistu Aalto University Magazinen numerossa 23 (issuu.com) lokakuussa 2018.

Kuvituskuvassa puhelimen mikropiirejä, hermosoluja ja aivokudosta. Kuvittaja: Ida-Maria Wikström.

Myös arkisesta tekstinsyötöstä on löytynyt uusia tutkimuskohteita. Yhdistämällä havaitsemista, oppimista ja muistin ilmiöitä tutkivaa kognitiotiedettä tekoälyyn voidaan rakentaa malleja, jotka ennustavat tarkasti ihmisen yksilöllisten ominaisuuksien vaikutusta esimerkiksi kirjoittamiseen puhelimen näytöllä. Kun mallit liitetään vaihtoehtoja simuloivaan koneelliseen optimoijaan, käyttöliittymä voidaan räätälöidä käyttäjän mukaan. Näin on löydetty esimerkiksi ratkaisuja vapinasta kärsivien ikäihmisten älypuhelinten käyttöön.

Pieni tekoälysanasto

Related news