Tapahtumat

Väitös akustiikan ja puhetekniikan alalta, M.Sc. Dejan Porjazovski

Väitös Aalto-yliopiston sähkötekniikan korkeakoulusta, informaatio- ja tietoliikennetekniikan laitokselta
Robotti kuuntelee ääntä ja yrittää vastata kysymyksiin kuten ”kuka”, ”milloin”, ”miten”, ”mitä”, ”missä” ja ”miksi”.
tekijänoikeuden haltija: Dejan Porjazovski

Väitöskirjan nimi Spoken Language Understanding: Deep Neural Network Approaches for Low-Resource Languages

Väittelijä: Dejan Porjazovski
Vastaväittäjä: Prof. Yannick Estève, Avignon University, France
Kustos: Prof. Mikko Kurimo, Aalto-yliopiston sähkötekniikan korkeakoulu

Puhutun kielen ymmärtäminen kattaa joukon työkaluja, joiden avulla tietokoneet voivat ymmärtää ihmisen puhetta. Vaikka nämä työkalut toimivat kohtuullisen hyvin runsasresurssisilla kielillä, kuten englannin kielellä, niiden suorituskyky heikkenee merkittävästi vähäresurssisilla kielillä, kuten suomen kielellä. 

Tässä väitöskirjassa tarkastellaan aluksi, mikä olisi äänisignaalin optimaalinen esitystapa, jotta malli pystyisi helpommin erottamaan siitä semanttista informaatiota. Koska äänisignaalin voi muuntaa monin eri tavoin merkitykselliseen vektorimuotoon, niin kutsutuksi upotukseksi (embedding), tutkitaan väitöskirjassa, mikä lähestymistapa on optimaalinen eri skenaarioissa. Tulokset osoittavat, että jotkut upotusmenetelmät ovat parempia monikielisissä tehtävissä kuin toiset. Lisäksi pienemmät mallit, joissa on huomattavasti vähemmän parametreja, voivat vastata suurempien mallien suorituskykyä tai jopa ylittää sen. 

Toinen väitöskirjan tutkimusalue on se, voiko kokonaismalli ylittää perinteisen modulaarisen lähestymistavan, jossa järjestelmä jaetaan useisiin erikseen koulutettaviin osiin. Tätä varten väitöskirjassa vertaillaan suoraan modulaarisia ja end-to-end -järjestelmiä eri puhutun kielen ymmärtämiseen liittyvissä tehtävissä, kuten nimientunnistuksessa ja aiheen tunnistuksessa. Tulokset osoittavat, että end-to-end -järjestelmät, jotka optimoivat kaikki komponentit samanaikaisesti, ovat lupaava suunta tulevaisuudessa. 

Väitöskirjan viimeinen osa käsittelee kokonaismallien yleistämiskykyä. Tulokset osoittavat, etteivät nämä mallit täytä väitöskirjassa esitettyjä yleistämiskriteerejä. Lisäksi väitöskirja esittää syitä mallien rajoittuneelle yleistymiselle, jotka tulisi ottaa huomioon mallien jatkokehityksessä. 

Puhutun kielen ymmärtämiseen perustuvat järjestelmät ovat tärkeitä esimerkiksi hands-free -käyttöliittymissä, kuten virtuaaliavustajissa. Kun nämä teknologiat yleistyvät arjessamme, on tärkeää kehittää luotettavia malleja, jotka tukevat vähäresurssisia kieliä. Tämä turvaa kielellisen monimuotoisuuden säilymisen ja estää englantia syrjäyttämästä muita kieliä tekniikan alalla. 

Avainsanat: puhutun kielen ymmärtäminen, vähäiset resurssit, kokonaismalli

Linkki väitöskirjan sähköiseen esittelykappaleeseen (esillä 10 päivää ennen väitöstä): Aaltodoc 

Yhteystiedot: dejan.porjazovski@aalto.fi

Sähkötekniikan korkeakoulun väitöskirjat

Suuri valkoinen 'A!' veistos Otaniemen Kandidaattikeskuksen katolla. Taustalla puu ja muita rakennuksia.

Sähkötekniikan korkeakoulun väitöskirjat Aaltodoc-julkaisuarkistossa (ulkoinen linkki)

Sähkötekniikan korkeakoulun väitöskirjat ovat saatavilla yliopiston ylläpitämässä avoimessa Aaltodoc-julkaisuarkistossa.

Zoom pikaopas
  • Päivitetty:
  • Julkaistu:
Jaa
URL kopioitu