Tapahtumat

Väitös tietotekniikan alalta, DI Juho Piironen

Uusia tilastollisia menetelmiä korkeaulotteisten aineistojen analysoimiseen
CS_defence photo by Matti Ahlgren

Diplomi-insinööri Juho Piironen väittelee perjantaina 24.5.2019 klo 12 Aalto-yliopiston perustieteiden korkeakoulussa, salissa T2, Konemiehentie 2, Espoo. Väitöskirjassa "Bayesian Predictive Inference and Feature Selection for High-Dimensional Data" tutkittiin ja kehitettiin uusia tilastollisia menetelmiä korkeaulotteisten aineistojen analysoimiseen. Menetelmät ovat yleisiä ja sovellettavissa aineistoihin monilta aloilta.

Monilla tilastotieteen ja koneoppimisen sovellusaloilla tulee jatkuvasti vastaan aineistoja, joissa jostakin ilmiöstä on mitattu suuri määrä piirteitä, mutta niin että havaintojen kokonaismäärä on pieni. Esimerkki voisi olla lääketieteellinen aineisto, jossa on mitattu tuhansia geeniekspressioita potilailta, jotka sairastavat kahta erityyppistä syöpää. Koska tällaiset mittaukset voivat olla verrattain kalliita, tyypillinen aineisto saattaa sisältää vain joitakin kymmeniä näytteitä molemmista ryhmistä.

Suuri piirteiden määrä ja toisaalta pieni aineiston koko aiheuttavat tilastollisia haasteita. Väitöskirjassa tarkastellaan kahta osaongelmaa: ennustamista ja piirrevalintaa. Edellä esitetyssä esimerkissä ennusteongelman tavoitteena olisi rakentaa annetun aineiston perusteella tilastollinen luokittelija, joka osaa automaattisesti kertoa uudesta geeniekspressionäytteestä, kumpaa syöpätyyppiä kyseinen henkilö sairastaa. Piirrevalinnassa taas tavoitteena on löytää minimaalinen joukko piirteitä, jotka ovat merkityksellisiä ennusteiden kannalta. Kuvatussa syöpäesimerkissä tavoitteena olisi siis tunnistaa, minkä geenien ekspressiot ovat erilaisia eri syöpätyyppien välillä. Tällainen analyysi voisi olla hyödyllinen syöpätyyppien erojen ymmärtämisen kannalta ja voisi auttaa suunnittelemaan uusia hoitoja kyseisiin sairauksiin.

Työssä tutkitaan ja vertaillaan useita jo olemassa olevia tekniikoita, sekä esitetään uusia laskennallisesti tehokkaita ja entisiä parempia menetelmiä edellä kuvattujen ongelmien ratkaisemiseksi. Vaikka yllä on käytetty esimerkkiä lääketieteen alalta, ehdotetut uudet menetelmät ovat yleisiä ja soveltuvat useiden eri sovellusalojen aineistojen analysoimiseen.

Vastaväittäjä: Dr. José Miguel Hernández-Lobato, University of Cambridge, UK

Kustos: professori Aki Vehtari, Aalto-yliopiston perustieteiden korkeakoulu, tietotekniikan laitos

Elektroninen väitöskirja: http://urn.fi/URN:ISBN:978-952-60-8539-5

  • Julkaistu:
  • Päivitetty:
Jaa
URL kopioitu