Tapahtumat

Väitös akustiikan ja puhetekniikan alalta, M.Sc. Dejan Porjazovski

Väitöstilaisuudet

Väitös Aalto-yliopiston sähkötekniikan korkeakoulusta, informaatio- ja tietoliikennetekniikan laitokselta

Milloin

9.5.2025 12:00 – 15:00 (UTC +3)

Missä

Maarintie 8 & Verkossa

Sali TU1

Tapahtuman kieli

englanti

Väitöskirjan nimi Spoken Language Understanding: Deep Neural Network Approaches for Low-Resource Languages

Väittelijä: Dejan Porjazovski
Vastaväittäjä: Prof. Yannick Estève, Avignon University, France
Kustos: Prof. Mikko Kurimo, Aalto-yliopiston sähkötekniikan korkeakoulu

Puhutun kielen ymmärtäminen kattaa joukon työkaluja, joiden avulla tietokoneet voivat ymmärtää ihmisen puhetta. Vaikka nämä työkalut toimivat kohtuullisen hyvin runsasresurssisilla kielillä, kuten englannin kielellä, niiden suorituskyky heikkenee merkittävästi vähäresurssisilla kielillä, kuten suomen kielellä.

Tässä väitöskirjassa tarkastellaan aluksi, mikä olisi äänisignaalin optimaalinen esitystapa, jotta malli pystyisi helpommin erottamaan siitä semanttista informaatiota. Koska äänisignaalin voi muuntaa monin eri tavoin merkitykselliseen vektorimuotoon, niin kutsutuksi upotukseksi (embedding), tutkitaan väitöskirjassa, mikä lähestymistapa on optimaalinen eri skenaarioissa. Tulokset osoittavat, että jotkut upotusmenetelmät ovat parempia monikielisissä tehtävissä kuin toiset. Lisäksi pienemmät mallit, joissa on huomattavasti vähemmän parametreja, voivat vastata suurempien mallien suorituskykyä tai jopa ylittää sen.

Toinen väitöskirjan tutkimusalue on se, voiko kokonaismalli ylittää perinteisen modulaarisen lähestymistavan, jossa järjestelmä jaetaan useisiin erikseen koulutettaviin osiin. Tätä varten väitöskirjassa vertaillaan suoraan modulaarisia ja end-to-end -järjestelmiä eri puhutun kielen ymmärtämiseen liittyvissä tehtävissä, kuten nimientunnistuksessa ja aiheen tunnistuksessa. Tulokset osoittavat, että end-to-end -järjestelmät, jotka optimoivat kaikki komponentit samanaikaisesti, ovat lupaava suunta tulevaisuudessa.

Väitöskirjan viimeinen osa käsittelee kokonaismallien yleistämiskykyä. Tulokset osoittavat, etteivät nämä mallit täytä väitöskirjassa esitettyjä yleistämiskriteerejä. Lisäksi väitöskirja esittää syitä mallien rajoittuneelle yleistymiselle, jotka tulisi ottaa huomioon mallien jatkokehityksessä.

Puhutun kielen ymmärtämiseen perustuvat järjestelmät ovat tärkeitä esimerkiksi hands-free -käyttöliittymissä, kuten virtuaaliavustajissa. Kun nämä teknologiat yleistyvät arjessamme, on tärkeää kehittää luotettavia malleja, jotka tukevat vähäresurssisia kieliä. Tämä turvaa kielellisen monimuotoisuuden säilymisen ja estää englantia syrjäyttämästä muita kieliä tekniikan alalla.

Avainsanat: puhutun kielen ymmärtäminen, vähäiset resurssit, kokonaismalli

Linkki väitöskirjan sähköiseen esittelykappaleeseen (esillä 10 päivää ennen väitöstä): Aaltodoc

Yhteystiedot: dejan.porjazovski@aalto.fi

Sähkötekniikan korkeakoulun väitöskirjat ovat saatavilla yliopiston ylläpitämässä avoimessa Aaltodoc-julkaisuarkistossa.

Pikaoppaaseen

Päivitetty: 24.4.2025
Julkaistu: 22.4.2025

Väitös akustiikan ja puhetekniikan alalta, M.Sc. Dejan Porjazovski

Milloin

Missä

Tapahtuman kieli

Sähkötekniikan korkeakoulun väitöskirjat

Sähkötekniikan korkeakoulun väitöskirjat Aaltodoc-julkaisuarkistossa (ulkoinen linkki)