”Hauki on kala” ei riitä koneoppimisessakaan
25.04.2012
Älykkäät algoritmit ja oppivat koneet suorittavat tehtäviä, joita ei ihmisaivoin ratkota. Suurten informaatioaineistojen tilastollinen mallintaminen on elinehto päätöksenteossa lukuisilla yhteiskunnan aloilla lääketieteestä liikennesuunnitteluun, osakemarkkinoiden analyysista roskapostien tunnistamiseen.
Mallien toimivuutta tulkitsemaan ja arvioimaan tarvitaan silti kriittinen ihminen.
Tilastolliset mallit perustuvat monimutkaisimmillaan jopa tuhansiin selittäviin muuttujiin. Tärkeintä on siis löytää aineistosta piirteet, jotka kuvaavat tutkittavaa kohdetta mahdollisimman tarkasti. Piirrevalinnaksi kutsuttu tehtävä kuulostaa ilmeiseltä, mutta tätä hahmontunnistuksen perusongelmaa on yritetty ratkaista jo puoli vuosisataa.
Juha Reunanen osoittaa väitöstutkimuksessaan Ylisovittuminen piirrevalinnassa: sudenkuoppia ja ratkaisuja Aalto-yliopiston tietojenkäsittelytieteen laitokselle, että piirrevalintamenetelmiä vertaillaan ja arvioidaan usein väärin perustein.
Hahmontunnistuksessa tehdään yleisesti kaksi virheellistä johtopäätöstä: laskennallisesti raskaiden ja hitaiden hakualgoritmien sekä hienosyisen piirrevalinnan uskotaan tuottavan tarkimmat tulokset.
– Kaikki haluavat esittää uuden ja parhaan piirrevalintamenetelmän. Niiden vertailu ja valinta ei silti ole niin helppoa kuin tutkimuksessa usein luullaan, Reunanen tiivistää alansa keskeisen pulman.
Liian hyviä tuloksia ja suuria pieniä virheitä
Ongelma ei Reunasen mukaan ole niinkään yksioikoiset algoritmit tai karsimatta jätetyt muuttujat vaan se, että koneoppimismenetelmin tilastoaineistoa luokittelevien mallien ylisovittuminen jää huomiotta.
Tilastollinen malli on ylisovittunut, kun se kykenee vain toistamaan sille syötettyä informaatiota mutta ei kuvaamaan ja luokittelemaan uusia aineistoja. Malli oppii jokaisesta lammessa uivasta hauesta, että kyseiset kala ovat haukia, mutta ei sitä, miksi ne ovat haukia.
– Tämä perusylisovittuminen tiedostetaan ja tunnistetaan toki jo tilastollisen mallintamisen alkeista lähtien, mutta ”toisen tason” ylisovittumista ei aina osata huomioida, Reunanen huomauttaa.
Kun tietyssä lammessa tietyt kalalajit tietyllä muuttujajoukolla 95 prosentin tarkkuudella tunnistavan mallin uskotaan suoriutuvan yhtä hyvin eri kalakannoissa järvissä, joissa ja merissä, törmätään Reunasen löytämään tulkintavirheeseen. Erhettä ei välttämättä huomata, sillä ylisovittuneiden mallien tulokset ovat usein valheellisen hyviä.
– Johtopäätösten tekeminen on vaikeaa. Tilastollisten mallien ja hahmontunnistusmenetelmien hyvistä tuloksista on liiankin helppoa innostua. Tutkijalta tarvittaisiin itsekritiikkiä – pakkia silloin, kun lupaava selitys ilmenee.
Optimaalista joukkoa muuttujia ei siis välttämättä ole löydetty tai luotu nerokasta algoritmia, vaan kyse on tilastoharhasta.
– Monimuuttujamallien tarkkuus ja ennustuskyky ovat erityisen tärkeitä aloilla, joilla 85 ja 95 prosentin todennäköisyyden erolla on väliä. Esimerkiksi jos lääkärin työkaluksi tarkoitettu malli osaa diagnosoida harvinaisen sairauden 95 prosentin varmuudella, sitä kannattaa käyttää.
Työkalun ei silti soisi koostuvan muuttujista, jotka vaativat potilaille vaarallisia ja kivuliaita koepaloja ja uuvuttavaa tulosten odottamista.
– Kärjistäen, oikein menetelmin valitun mallin ei tarvitse sisältää kallonporausta edellyttäviä muuttujia.
Lisätietoja:
Juha Reunanen
juha.reunanen [at] iki [dot] fi
puh. 050 375 4475
