Tapahtumat

Väitös tietotekniikan alalta, DI Lassi Meronen

Väitös Aalto-yliopiston perustieteiden korkeakoulusta, tietotekniikan laitokselta
Doctoral hat floating above a speaker's podium with a microphone

Väitöskirjan nimi: Uncertainty Quantification in Deep Learning

Tohtoriopiskelija: Lassi Meronen
Vastaväittäjä: Associate Prof. Carl Henrik Ek, University of Cambridge, Englanti
Kustos: Assistant Prof. Arno Solin, Aalto-yliopiston perustieteiden korkeakoulu, tietotekniikan laitos

Linkki väitöskirjan sähköiseen esittelykappaleeseen (esillä 10 päivää ennen väitöstä): https://aaltodoc.aalto.fi/doc_public/eonly/riiputus/

Epävarmuuden arviointi syväoppimisessa 

Tekoäly on ollut suosittu puheenaihe uutisissa viime aikoina. Tekoäly yleensä viittaa syväoppimismalleihin, kuten paljon viime aikoina esillä ollut ChatGPT. Tällaiset mallit voivat olla hyvin tehokkaita, mutta ne ovat yleensä myös yli-itsevarmoja ja huonoja arvioimaan omien ennusteidensa luotettavuutta. Tästä johtuen syväoppimismallit eivät kykene sanomaan “en tiedä”, vaikka ne kohtaisivat itselleen tuntemattoman tilanteen. Tämä on ongelmallista turvallisuuskriittisissä sovelluksissa, kuten itsestään ajavissa autoissa, sillä huonot päätökset voivat johtaa vakaviin seurauksiin. Esimerkiksi, syväoppimismalli voisi auttaa diagnosoimalla sairauksia lääketieteellisestä kuvantamisdatasta, jos malli voi luotettavasti diagnosoida 90% tapauksista jättäen vain 10% epävarmoista tapauksista lääkärin tarkastettavaksi. Jos kyseinen malli ei kuitenkaan pysty ilmaisemaan mitkä ovat nuo epävarmat tapaukset, lääkäri joutuu tarkistamaan kaikki diagnoosit, jolloin syväoppimismallista ei ole pahimmillaan lainkaan hyötyä. 

Tässä väitöskirjassa esitettävä tutkimus keskittyy parantamaan syväoppimismallien kykyä arvioida ennusteidensa epävarmuutta. Tämä mahdollistaisi niiden laajemman käytön turvallisuuskriittisissä sovelluksissa. Tutkimuksen tärkeimmät tulokset on saatu hyödyntämällä matemaattisia yhteyksiä todennäköisyysmalleihin, jotka ovat tunnettuja hyvistä epävarmuusarvioistaan. Havaitut yhteydet mahdollistavat näiden hyödyllisten ominaisuuksien tuomisen syväoppimismalleihin. Kun syväoppimismallien kykyä arvioida ennusteidensa epävarmuutta parannetaan, ne voivat myös paremmin erottaa vaikeat syötteet helpoista. Tämä mahdollistaa laskennallisten resurssien säästämisen, kun raskas laskenta voidaan kohdistaa vain vaikeille syötteille. Näin voidaan vähentää syväoppimismallien energiankulutusta, mikä on yhä tärkeämpää, kun mallien koon kasvaessa myös niiden energiankulutus kasvaa jatkuvasti suuremmaksi.

Yhteystiedot:

Sähköposti  [email protected]


Perustieteiden korkeakoulun väitöskirjat: https://aaltodoc.aalto.fi/handle/123456789/52

  • Julkaistu:
  • Päivitetty:
Jaa
URL kopioitu