Voivatko älylaitteet ymmärtää meitä?
Digitaaliset älyapuritovat siirtyneet tieteiskirjallisuudesta taskuihimme ja kotiemme pöydille. Amazonin Alexa, Applen Siri ja Googlen Google Assistant ovat irrottamassa meidät tietokoneiden ja puhelimien ruuduista – ja tuomassa käyttöliittymäksi puhutut sanamme.
Ääniohjauksella on jo helppoa tarkistaa uutiset, valita musiikkia kuunneltavaksi, tilata taksi ja ohjata kodin älylaitteita.
Mutta kuinka tekoälyä käyttävät älyapurit oikeastaan pystyvät ymmärtämään meitä?
1. vaihe: puheentunnistus
Älyapurien pitää toimiakseen olla aina päällä. Ne kuuntelevat ympäristöään horroksessa siihen asti, kunnes ne tunnistavat ympäristössä lausutun avainsanan.
Esimerkiksi Amazonin virtuaaliapuri havahtuu sanalla ”Alexa”. Heräämisen merkkinä älykaiuttimen led-rengas muuttuu siniseksi.
Myös Applen puhelimen Siri toimii samalla periaatteella. Kun Siri kuulee ”Hei Siri” -komennon, se alkaa äänittää käyttäjän puhetta ja lähettää sitä pilvipalvelussa toimivaan puheentunnistukseen.
Ensin digitoitu puhe pilkotaan lyhyiksi, sekunnin murto-osan pituisiksi palasiksi.
”Kaikki lähtee spektrianalyysistä eli taajuuksista, joita siellä on. Taajuusavaruudessa syntyy hahmoja, jotka kuvaavat erilaisia äänteitä”, sanoo Aalto-yliopiston signaalikäsittelyn ja akustiikan laitoksen professori Mikko Kurimo.
Pilkkomisen yhteydessä puheesta poistetaan kaikki puheentunnistuksen kannalta ylimääräinen materiaali, kuten esimerkiksi puhujan äänenkorkeus ja ympäristön äänet.
”Eli yritetään löytää piirteitä, jotka kertovat siitä, mitä äänteitä on sanottu”, Kurimo sanoo.
Puheentunnistusta vaikeuttaa se, että me ihmiset puhumme sekavasti, nielaisemme sanoja ja käytämme eleitä ja äännähdyksiä. Lausumamme sanat voivat myös kuulostaa toisiltaan, kuten vaikkapa englanninkielen sanat ate ja eight.
”Nykyään puheentunnistus tehdään yhä useammin syvällä neuroverkolla”, Kurimo sanoo.
Aivojen toimintatapaa jäljittelevät syvät neuroverkot koostuvat neuroneista eli eräänlaisista yksinkertaisista laskureista. Neuroverkosta tulee tehokas, kun toisiinsa liitetyt neuronikerrokset työskentelevät muiden saman kerroksen ja seuraavan kerroksen neuronien kanssa.
Puheentunnistuksessa neuroverkkojen hakualgoritmeissa käytetään tilastollisten äännemallien lisäksi laajojen tekstimateriaalien avulla rakennettuja kielimalleja. Kielimallilla ennustetaan sanojen esiintymistodennäköisyyttä toistensa jälkeen ja todennäköistä ääntämismallia. Se auttaa karsimaan epätodennäköiset sanat tunnistuksen nopeuttamiseksi.
”Eli puheentunnistimen tehtäväkenttä on hakea mahdollisimman todennäköinen lause, jonka käyttäjä on sanonut.”
2. vaihe: luonnollisen kielen käsittely
Luonnollisen kielen käsittelyssä tekstistä yritetään purkaa sen merkitys – se, mitä käyttäjä haluaa digiapuriltaan saada.
Myös luonnollisen kielen käsittelyssä käytetään neuroverkkoja. Puheen datasta haravoidaan automaattisesti avainsanoja ja fraaseja, jotta saataisiin selville, mihin käyttäjän sanat mahdollisesti liittyvät.
Neuroverkot koulutetaan tehtäviinsä syöttämällä käsiteltäväksi iso määrä dataa ja vertaamalla saatuja arvoja oikeiksi tiedettyihin arvoihin. Korjauksia toistetaan niin pitkään, ettei tulos enää parane. Sen jälkeen järjestelmä pystyy toimimaan omin päin.
Eräässä Kurimon vetämässä hankkeessa on tutkittu audiovisuaalisen aineiston automaattista kuvailua. Aineistoiksi valittiin muun muassa Ylen arkistoimia videoita. Kehitetty menetelmä pystyy tulkitsemaan samanaikaisesti sekä videolla kuultavaa puhetta että liikkuvaa videokuvaa – ja tuottamaan niistä tekstimuotoisen kuvailun. Järjestelmää opetettiin käyttämällä vertailukohtana ihmisten kirjoittamia kuvauksia samoista videoista.
Keskeistä syvissä neuroverkoissa on niiden opetukseen käytettyjen tietokantojen koko. Siksi kaupallisia digiapureita tuottavat juuri Amazonin, Applen, Googlen ja Microsoftin kaltaiset jättiyritykset.
”Suurilla firmoilla on pääsy laajoihin tietokantoihin, ja niiden on aika helppo tehdä automatisointia. Jos chatbottia lähdetään tekemään ihan tyhjästä, se on työlästä. Tietokanta pitää kerätä jotenkin.”
3. vaihe: pyynnön toteuttaminen
Viimeinen vaihe toteuttaa käyttäjän pyynnön. Digiapurit hyödyntävät verkosta haettavien tietojen ohella esimerkiksi käyttäjän puhelimen yhteystietoja, kalenteria ja paikannustietoja käsittääkseen paremmin, mitä käyttäjä haluaa.
Siksi digiapuri voi vaikuttaa hämmästyttävän fiksulta yksinkertaisten pyyntöjen toteuttamisessa, kuten puhelun yhdistämisessä, säätietojen kysymisessä tai pizzan tilaamisessa.
Jos älyapuria pyytäisi kertomaan kuulumisia Piilaaksosta, kompuroivana vastauksena tulisi vain sekalaisia Piilaakso-sanaan liittyviä hakutuloksia. Digiapuri ei osaisi päätellä, kysyttiinkö siltä Piilaakson historiasta, säästä vai alueen yrityksistä.
”Äly loppuu kuin veitsellä leikaten, kun mennään suunnitteluavaruuden ulkopuolelle”, Kurimo sanoo.
Myös älyapureiden puheäänen tuottamisessa on siirrytty käyttämään syviä neuroverkkoja. Puheessa äänteet liittyvät aina toisiinsa, ja juuri yhteensopimattomat äänteet saivat varhaiset älyapurit kuulostamaan robottimaisilta. Nykyisin neuroverkot laskevat lennossa mallin vastauksena tulevan lauseen ääntämiseksi.
”Puhesynteesigeneraattorille syötetään painotettavat tavut ja sanat, mitkä tekevät puheesta luonnollisen kuuloista. Sitten generoitu signaali toimitetaan käyttäjän päätelaitteeseen ja soitetaan sieltä läpi.”
Kohti yksilöllisiä käyttöliittymiä
Tieteiselokuvista tutuksi keskustelukumppaniksi keskustelevinkaan tekoäly ei veny vielä pitkään aikaan.
Tietoliikenne- ja tietoverkkotekniikan laitoksen professori Antti Oulasvirta pitää puhekäyttöliittymien ongelmana sitä, että ne eivät varsinaisesti ymmärrä kieltä.
”Tekoäly ei opi kieltä ikään kuin ruumiillisena ja sosiaalisena kanssakäymisenä. Se ei voi oppia kielellistä viitekehystä, mihin sanat tai eleet viittaavat.”
Tutkimus ihmisen ja tekoälyä käyttävien järjestelmien vuorovaikutuksesta etenee silti koko ajan, ja samalla kasvavat mahdolliset sovellusalueet. Yksi sovellusalue on Oulasvirran User Interfaces -ryhmän tutkima käyttöliittymien parantaminen laskennallisten mallien avulla.
Esimerkiksi verkkosivu on mahdollista muotoilla käyttäjän selainhistorian perusteella automaattisesti uusiksi siten, että se tuntuu käyttäjästä heti tutulta.
”Tällä tavoin voidaan tehdä miellyttävämpi selauskokemus. Esimerkiksi otsikot voivat löytyä melkein aina samasta kohdasta.”
Myös arkisesta tekstinsyötöstä on löytynyt uusia tutkimuskohteita. Yhdistämällä havaitsemista, oppimista ja muistin ilmiöitä tutkivaa kognitiotiedettä tekoälyyn voidaan rakentaa malleja, jotka ennustavat tarkasti ihmisen yksilöllisten ominaisuuksien vaikutusta esimerkiksi kirjoittamiseen puhelimen näytöllä. Kun mallit liitetään vaihtoehtoja simuloivaan koneelliseen optimoijaan, käyttöliittymä voidaan räätälöidä käyttäjän mukaan. Näin on löydetty esimerkiksi ratkaisuja vapinasta kärsivien ikäihmisten älypuhelinten käyttöön.
Oulasvirran ryhmässä on kehitetty myös ranskalaisten tietokonenäppäimistöjen uutta näppäinasettelua, jonka Ranskan standardointiviranomaiset ovat juuri hyväksyneet.
”Koko Ranskassa tullaan käyttämään optimoijan auttamaa tapaa kirjoittaa erikoismerkkejä”, Oulasvirta sanoo.
Meneillään on myös tunteiden mallinnukseen liittyvä tutkimushanke.
”Tekoälyn kentässä on lopulta kyse siitä, että inhimillisiä asioita pyritään esittämään laskennallisesti”, Oulasvirta sanoo.
Hän muistuttaa, että tavallinen puhelimen reittiopaskin perustuu tekoälyyn, vaikka käyttäjät eivät sitä tekoälyksi ehkä miellä. Oulasvirran näkemys asiasta on kuitenkin selvä.
”Aina kun jokin älyllinen kapasiteetti voidaan toteuttaa laskennallisesti, minun mielestäni se on tekoälyä.”
Teksti: Panu Räty. Kuvitus: Ida-Maria Wikström.
Artikkeli on julkaistu Aalto University Magazinen numerossa 23 (issuu.com) lokakuussa 2018.
Myös arkisesta tekstinsyötöstä on löytynyt uusia tutkimuskohteita. Yhdistämällä havaitsemista, oppimista ja muistin ilmiöitä tutkivaa kognitiotiedettä tekoälyyn voidaan rakentaa malleja, jotka ennustavat tarkasti ihmisen yksilöllisten ominaisuuksien vaikutusta esimerkiksi kirjoittamiseen puhelimen näytöllä. Kun mallit liitetään vaihtoehtoja simuloivaan koneelliseen optimoijaan, käyttöliittymä voidaan räätälöidä käyttäjän mukaan. Näin on löydetty esimerkiksi ratkaisuja vapinasta kärsivien ikäihmisten älypuhelinten käyttöön.
Pieni tekoälysanasto
Algoritmi
Tehtävän suorittamisen määritelmä, joka avaa askel askeleelta, mitä prosessissa tapahtuu. Ohjelma-sana tarkoittaa algoritmin kuvaamista ohjelmointikielellä.
Chatbot (botti)
Automaattisesti tehtäviä suorittava, ihmisten vuorovaikutusta jäljittelevä ohjelmisto. Kehittyneimmillään tekoälyyn perustuva ohjelmien kokoelma, joka pystyy hakemaan vastauksia puheena tai tekstinä rajatuista aiheista.
Koneoppiminen
Menetelmiä, joilla tietokone oppii päätymään haluttuun lopputulokseen itsenäisesti esimerkkien ja kokemuksen perusteella.
Neuroverkko
Koneoppimismenetelmä, joka väljästi tulkittuna jäljittelee ihmisaivojen toimintaa. Se koostuu toisiinsa kytketyistä keinotekoisista neuroneista eli yksinkertaisista prosessoreista. Kun neuroverkkoon lisätään tasoja, se muuttuu syvemmäksi ja pystyy suorittamaan yhä monimutkaisempia tehtäviä.
Tekoäly
Viittaa tietokoneen kykyyn tehdä älykästä toimintaa. Laaja sateenvarjokäsite erilaisille päättelysäännöille. Tunnetaan myös käsitteellä keinoäly.
Sovellettu (kapea/heikko) tekoäly
Ainoa tekoäly, jota ihmiskunta on toistaiseksi tehnyt. Ratkaisujen tuottamista ennalta rajattuun sovellusalueeseen yhdistämällä analytiikkaa ja automaatiota.
Yleinen (vahva) tekoäly
Tieteiskirjallisuudessa suosittu ajatus ihmisen älykkyyden jäljittelystä tietokoneella. Joskus yleiseen tekoälyyn liitetään myös koneen muuttuminen tietoiseksi. Toistaiseksi teknologian kehitys ei ole lähelläkään yleisen tekoälyn rakentamista.
Sanaston on laatinut Panu Räty.
- Julkaistu:
- Päivitetty: