Tapahtumat

Väitös matematiikan ja tilastotieteen alalta, DI Aleksi Avela

On imbalanced data and text classification

Väitös Aalto-yliopiston perustieteiden korkeakoulusta, matematiikan ja tilastotieteen laitokselta.
Kuvitus puhujakorokkeesta ja sen yläpuolella olevasta tohtorinhatusta.

Väitöskirjan nimi: On imbalanced data and text classification

Väittelijä: Aleksi Avela
Vastaväittäjä: professori Thomas Verdebout, Universite Libre de Bruxelles, Belgia
Kustos: professori Pauliina Ilmonen, Aalto-yliopiston perustieteiden korkeakoulu 

Luokittelu on tilastotieteen haara, joka tutkii ja kehittää menetelmiä havaintojen luokkien ennustamiseen. Luokittelu voi muun muassa liittyä kuvien tunnistamiseen; tavoitteena voi esimerkiksi olla luokitella kuvat sen perusteella onko niissä koira vai kissa. Koneoppiminen on yksi merkittävimmistä lähestymistavoista luokitteluun. Koneoppimisessa algoritmi käyttää valmiiksi luokiteltua harjoitusaineistoa luokittelusäännön oppimiseen. Harjoitusaineiston luokittelu ei kuitenkaan ole päätepysäkki, vaan tavoitteena on, että luokittelijaa voidaan käyttää myös tulevien havaintojen luokitteluun mahdollisimman tarkasti.

Käytännön luokittelutehtävissä suuri osa datasta kuuluu usein johonkin yleiseen luokkaan ja mielenkiintoiset ja tärkeät havainnot ovat harvinaisia. Tällainen tilanne voi esimerkiksi olla lääketieteellisessä testaamisessa, jossa riskissä olevat potilaat ovat harvinaisia muuhun populaatioon verrattuna, mutta riskipotilaan väärinluokittelun kustannus on huomattavasti suurempi kuin terveen henkilön. Luokittelussa tätä ilmiötä kutsutaan epätasaisen datan ongelmaksi. Koneoppivat algoritmit suoriutuvat usein heikommin, kun data on epätasaista; tyypillisesti koneoppivat luokittelijat osoittavat suurta rakkautta enemmistöluokkaa kohtaan eivätkä opi tunnistamaan harvinaisen luokan havaintoja tarkasti.

Epätasaisen datan lisäksi myös käsitellyn aineistotyypin erityispiirteet voivat hankaloittaa luokittelua. Tekstin luokittelu, jossa havainnot ovat luonnollista kieltä, on esimerkki tällaisesta tapauksesta. Koska tekstiaineisto ei luonnostaan sisällä mittauksia, joita voisi käyttää luokitteluun, täytyy tekstin luokittelussa ensin onnistua muuntamaan luonnollinen kieli muotoon, jota algoritmit pystyvät käsittelemään. Tämä ominaisuus lisää yhden lisäkerroksen haasteita (epätasaisen) tekstiaineiston luokitteluun.

Tämä väitöskirja käsittelee epätasaisen datan tuomia haasteita niin yleisellä tasolla kuin liittyen erityisesti tekstin luokitteluun. Väitöskirjassa tutkitut aiheet käsittävät käytännön sovelluksen tekstin luokittelulle, uuden menetelmän, joka on suunniteltu huomioimaan sekä tekstiaineiston erityispiirteiden että epätasaisen datan aiheuttamia haasteita tekstin luokittelussa, sekä teoreettisen tutkimuksen epätasaisen datan huomioimisesta luokittelijoiden arvioinnissa ja vertailussa.

Avainsanat: luokittelu, epätasainen data, tekstin luokittelu

Linkki väitöskirjan sähköiseen esittelykappaleeseen (esillä 7 päivää ennen väitöstä): Aaltodoc 

Perustieteiden korkeakoulu väitöskirjat

Suuri valkoinen 'A!' veistos Otaniemen Kandidaattikeskuksen katolla. Taustalla puu ja muita rakennuksia.

Perustieteiden korkeakoulun väitöskirjat Aaltodoc-julkaisuarkistossa (ulkoinen linkki)

Perustieteiden korkeakoulun väitöskirjat ovat saatavilla yliopiston ylläpitämässä avoimessa Aaltodoc-julkaisuarkistossa.

Zoom pikaopas
  • Päivitetty:
  • Julkaistu:
Jaa
URL kopioitu