Tapahtumat

Väitös, akustiikka ja puheteknologia, DI Saska Tirronen

Data Efficiency and Domain Robustness in Speech-Based Biomarking of Health.
Väitös Aalto-yliopiston sähkötekniikan korkeakoulusta, informaatio- ja tietoliikennetekniikan laitokselta.
Kuvitus puhujakorokkeesta ja sen yläpuolella olevasta tohtorinhatusta.

Data Efficiency and Domain Robustness in Speech-Based Biomarking of Health

Väittelijä: Saska Tirronen
Vastaväittäjä: Prof. Juan Ignacio Godino-Llorente, Universidad Politécnica de Madrid (UPM), Espanja
Kustos: Prof. Paavo Alku, Aalto-yliopiston sähkötekniikan korkeakoulu

Puheesta välittyy sanojen lisäksi tietoa myös puhujan äänestä ja puheen tuottamisesta. Äänen ja puheen muutokset voivat kertoa terveydentilan muutoksista. Siksi puhetta voidaan hyödyntää sairauksien havaitsemisessa ja seurannassa edullisesti ja ei-invasiivisesti, esimerkiksi älypuhelinäänitteiden avulla.

Tässä väitöskirjassa tutkittiin, miten koneoppimisjärjestelmät voivat tunnistaa puheesta terveyteen liittyvää tietoa luotettavammin tilanteissa, joissa lääketieteellisesti luokiteltua puhedataa on vähän ja äänitteet vaihtelevat terveyteen liittymättömistä syistä. Työ keskittyi luokittelutehtäviin: esimerkiksi terveiden puhujien erottamiseen ääni- tai puhehäiriöisistä puhujista sekä häiriötyyppien tai vaikeusasteiden tunnistamiseen. Kun opetusdataa on niukasti, malli voi oppia muitakin kuin terveyteen liittyviä puhesignaalin piirteitä. Ongelma korostuu, jos opetus- ja testausäänitteet eroavat toisistaan esimerkiksi laitteen, äänitysympäristön tai puhelinkanavan vuoksi. Väitöskirjassa kehitettiin ja arvioitiin menetelmiä, jotka auttavat käyttämään pientä dataa tehokkaammin ja säilyttämään suorituskyvyn muuttuvissa olosuhteissa.

Tulokset osoittavat, että puheeseen perustuvaa terveysluokittelua voidaan parantaa kolmella tavalla. Ensinnäkin tarkkuus parani, kun järjestelmät käyttivät puheen esitystapoja, jotka vähentävät terveyteen liittymättömän vaihtelun vaikutusta. Erityisen hyödyllisiä olivat suurista puheaineistoista opitut esitystavat, jotka yleistyivät perinteisiä puhepiirteitä paremmin. Toiseksi monimutkaisia luokittelutehtäviä voitiin helpottaa jakamalla ne kliinisesti mielekkäisiin osatehtäviin. Hierarkkinen luokittelija erotti ensin terveen ja häiriöisen puheen ja sen jälkeen häiriötyypit, ja se päihitti tavanomaiset moniluokkaiset menetelmät. Kolmanneksi menetelmät vähensivät suorituskyvyn heikkenemistä tilanteissa, joissa opetus- ja testiaineistot poikkesivat toisistaan. Puhelinkanavakokeissa esikäsittelymenetelmä palautti suorituskyvyn lähelle korkealaatuisilla äänitteillä saavutettua tasoa.

Päätulos on, että puheeseen perustuvasta terveysteknologiasta voidaan tehdä tarkempaa ja luotettavampaa, kun järjestelmä ei opi tarpeettoman paljon puhujasta, laitteesta tai ympäristöstä johtuvaa vaihtelua. Tulokset tukevat puheeseen perustuvien terveydenhuollon työkalujen kehittämistä. Samalla ne osoittavat, että lisätutkimusta tarvitaan ennen kuin tällaiset järjestelmät ovat valmiita luotettavaan käyttöön terveydenhuollossa.

Avainsanat: puhesignaaliin perustuvat terveysbiomarkkerit, datatehokkuus, robustisuus eri toimintaympäristöissä, ympäristöolosuhteiden vaihtelu

Linkki väitöskirjan sähköiseen esittelykappaleeseen (esillä 7 päivää ennen väitöstä): Aalto-yliopiston riiputussivu

Yhteystiedot: saska.tirronen@aalto.fi 

Sähkötekniikan korkeakoulun väitöskirjat

Suuri valkoinen 'A!' veistos Otaniemen Kandidaattikeskuksen katolla. Taustalla puu ja muita rakennuksia.

Sähkötekniikan korkeakoulun väitöskirjat Aaltodoc-julkaisuarkistossa (ulkoinen linkki)

Sähkötekniikan korkeakoulun väitöskirjat ovat saatavilla yliopiston ylläpitämässä avoimessa Aaltodoc-julkaisuarkistossa.

Zoom pikaopas
  • Päivitetty:
  • Julkaistu:
Jaa
URL kopioitu