Perustieteiden korkeakoulun väitöskirjat Aaltodoc-julkaisuarkistossa (ulkoinen linkki)
Perustieteiden korkeakoulun väitöskirjat ovat saatavilla yliopiston ylläpitämässä avoimessa Aaltodoc-julkaisuarkistossa.
Väitöskirjan nimi: Addressing statistical and computational challenges in extreme multilabel classification with unbiased estimators, macro-averaged metrics, and hardware-aware implementations
Väittelijä: Erik Schultheis
Vastaväittäjä: Staff Research Scientist Aditya Menon, Yhdysvallat
Kustos: professori Pekka Marttinen, Aalto-yliopiston perustieteiden korkeakoulu
Verkkokauppojen ja hakukoneiden tehtävänä on valita pieni joukko suosituksia tietylle kyselylle. Tätä voidaan pitää moniluokkaisena luokitteluongelmana, jossa on erittäin suuri joukko mahdollisia luokkia. Tästä seuraa kolme merkittävää haastetta: Ensinnäkin ihmisasiantuntijoiden saaminen luokittelemaan esimerkkejä automaattisen järjestelmän kouluttamiseen on erittäin kallista, koska yhdellä esimerkillä voi olla yli miljoona ehdokasluokkaa. Koulutusdata on siksi epätäydellinen. Toiseksi, muutama erittäin suosittu luokka (esim. menestyselokuvat) esiintyy useita kertoja, kun taas useimmat luokat esiintyvät vain muutaman kerran. Jos arvioisimme luokittelun onnistumista tarkkuden keskiarvolla, merkitystä olisi vain suosituilla luokilla; siis tarvitaan kehittyneempää pisteytystä. Kolmanneksi, valtava luokkien määrä tekee luokittelijoiden kouluttamisesta laskennallisesti kallista.
Tämä opinnäytetyö edistää kaikkien näiden kolmen ongelman ratkaisemista: Tietyissä olosuhteissa osoitamme, kuinka puuttuvat luokat voidaan huomioida, jos käytettävissä on arvio puuttuvien luokkien määrästä. Aliedustetuille luokille voidaan antaa enemmän painoarvoa laskemalla kullekin pistemäärä erikseen ja keskiarvoistamalla nämä pisteet. Todistamme, että jokaisen luokan todennäköisyyden tunteminen riittää tämän kohdefunktion optimointiin. Mielenkiintoinen huomio on, että suositusten ei tarvitse olla korkeimman todennäköisyyden luokkia; joskus on parempi suositella niche-elokuvaa menestyselokuvan sijaan.
Laskentakustannusten vähentämiseksi hyödynnämme harvuutta: useimmat luokat ovat merkityksettömiä kullekin datapisteelle, joten laskenta voi keskittyä pieneen joukkoon vaikeita luokkia. Lisäksi osoitamme, että jo pieni osa mallin parametreista riittää saavuttamaan tarkkuuden, joka vastaa koko mallia. Tämä mahdollistaa algoritmien ajamisen kuluttajille käytettävissä olevilla laitteistoilla tehokkaiden datakeskuslaitteistojen sijaan. Suurten kielimallien yleistyessä vastaavat tekniikat ovat yhä arvokkaampia mallien tehokkaan koulutuksen ja käytön mahdollistamiseksi kuluttajalaitteistolla.
Linkki väitöskirjan sähköiseen esittelykappaleeseen (esillä 7 päivää ennen väitöstä): Aaltodoc
Perustieteiden korkeakoulun väitöskirjat ovat saatavilla yliopiston ylläpitämässä avoimessa Aaltodoc-julkaisuarkistossa.