Sähkötekniikan korkeakoulun väitöskirjat Aaltodoc-julkaisuarkistossa (ulkoinen linkki)
Sähkötekniikan korkeakoulun väitöskirjat ovat saatavilla yliopiston ylläpitämässä avoimessa Aaltodoc-julkaisuarkistossa.
Data Efficiency and Domain Robustness in Speech-Based Biomarking of Health
Väittelijä: Saska Tirronen
Vastaväittäjä: Prof. Juan Ignacio Godino-Llorente, Universidad Politécnica de Madrid (UPM), Espanja
Kustos: Prof. Paavo Alku, Aalto-yliopiston sähkötekniikan korkeakoulu
Puheesta välittyy sanojen lisäksi tietoa myös puhujan äänestä ja puheen tuottamisesta. Äänen ja puheen muutokset voivat kertoa terveydentilan muutoksista. Siksi puhetta voidaan hyödyntää sairauksien havaitsemisessa ja seurannassa edullisesti ja ei-invasiivisesti, esimerkiksi älypuhelinäänitteiden avulla.
Tässä väitöskirjassa tutkittiin, miten koneoppimisjärjestelmät voivat tunnistaa puheesta terveyteen liittyvää tietoa luotettavammin tilanteissa, joissa lääketieteellisesti luokiteltua puhedataa on vähän ja äänitteet vaihtelevat terveyteen liittymättömistä syistä. Työ keskittyi luokittelutehtäviin: esimerkiksi terveiden puhujien erottamiseen ääni- tai puhehäiriöisistä puhujista sekä häiriötyyppien tai vaikeusasteiden tunnistamiseen. Kun opetusdataa on niukasti, malli voi oppia muitakin kuin terveyteen liittyviä puhesignaalin piirteitä. Ongelma korostuu, jos opetus- ja testausäänitteet eroavat toisistaan esimerkiksi laitteen, äänitysympäristön tai puhelinkanavan vuoksi. Väitöskirjassa kehitettiin ja arvioitiin menetelmiä, jotka auttavat käyttämään pientä dataa tehokkaammin ja säilyttämään suorituskyvyn muuttuvissa olosuhteissa.
Tulokset osoittavat, että puheeseen perustuvaa terveysluokittelua voidaan parantaa kolmella tavalla. Ensinnäkin tarkkuus parani, kun järjestelmät käyttivät puheen esitystapoja, jotka vähentävät terveyteen liittymättömän vaihtelun vaikutusta. Erityisen hyödyllisiä olivat suurista puheaineistoista opitut esitystavat, jotka yleistyivät perinteisiä puhepiirteitä paremmin. Toiseksi monimutkaisia luokittelutehtäviä voitiin helpottaa jakamalla ne kliinisesti mielekkäisiin osatehtäviin. Hierarkkinen luokittelija erotti ensin terveen ja häiriöisen puheen ja sen jälkeen häiriötyypit, ja se päihitti tavanomaiset moniluokkaiset menetelmät. Kolmanneksi menetelmät vähensivät suorituskyvyn heikkenemistä tilanteissa, joissa opetus- ja testiaineistot poikkesivat toisistaan. Puhelinkanavakokeissa esikäsittelymenetelmä palautti suorituskyvyn lähelle korkealaatuisilla äänitteillä saavutettua tasoa.
Päätulos on, että puheeseen perustuvasta terveysteknologiasta voidaan tehdä tarkempaa ja luotettavampaa, kun järjestelmä ei opi tarpeettoman paljon puhujasta, laitteesta tai ympäristöstä johtuvaa vaihtelua. Tulokset tukevat puheeseen perustuvien terveydenhuollon työkalujen kehittämistä. Samalla ne osoittavat, että lisätutkimusta tarvitaan ennen kuin tällaiset järjestelmät ovat valmiita luotettavaan käyttöön terveydenhuollossa.
Avainsanat: puhesignaaliin perustuvat terveysbiomarkkerit, datatehokkuus, robustisuus eri toimintaympäristöissä, ympäristöolosuhteiden vaihtelu
Linkki väitöskirjan sähköiseen esittelykappaleeseen (esillä 7 päivää ennen väitöstä): Aalto-yliopiston riiputussivu
Yhteystiedot: saska.tirronen@aalto.fi
Sähkötekniikan korkeakoulun väitöskirjat ovat saatavilla yliopiston ylläpitämässä avoimessa Aaltodoc-julkaisuarkistossa.