Tapahtumat

Väitös akustiikan ja puhetekniikan alalta, M.Sc. Eloi Moliner Juanpere

Väitöstilaisuudet

Väitös Aalto-yliopiston sähkötekniikan korkeakoulusta, informaatio- ja tietoliikennetekniikan laitokselta

Kuvitus puhujakorokkeesta ja sen yläpuolella olevasta tohtorinhatusta.

Milloin

22.8.2025 12:00 – 15:00 (UTC +3)

Missä

A Grid

Sali Jeti

Tapahtuman kieli

englanti

Väitöskirjan nimi: Unsupervised Audio Enhancement with Diffusion-Based Generative Models

Väittelijä: Eloi Moliner Juanpere
Vastaväittäjä: Prof. Bozena Kostek, Gdansk University of Technology, Puola
Kustos: Prof. Vesa Välimäki, Aalto-yliopiston sähkötekniikan korkeakoulu

Äänitteet kärsivät usein kohinasta, kaiunnasta ja muista vääristymistä, jotka heikentävät niiden selkeyttä ja laatua. Tätä tapahtuu esimerkiksi historiallisissa musiikkiäänitteissä, jotka ovat vaurioituneet analogisen median ikääntymisen myötä, sekä puheäänitteissä, joissa kaiku vaikeuttaa puheen ymmärtämistä. Tämä väitöskirja esittelee uusia menetelmiä tällaisten äänitteiden palauttamiseen hyödyntämällä ohjaamatonta äänitteiden parannusta diffuusiopohjaisilla generatiivisilla malleilla – tehokkailla tekoälyjärjestelmillä, jotka pystyvät tuottamaan puhdasta ja luonnollista ääntä ilman, että niitä on koulutettu tiettyihin restaurointitehtäviin.

Väitöskirja kokoaa yhteen joukon tutkimuksia, joissa selvitetään, miten pelkästään virheettömällä äänellä koulutettua generatiivista mallia voidaan soveltaa monenlaisiin restaurointiongelmiin suoraan käytön yhteydessä. Ensimmäisessä osassa tätä lähestymistapaa sovelletaan musiikin taajuuskaistan laajennukseen, aukkojen paikkaamiseen ja särön poistoon. Toisessa osassa käsitellään sokeaa restaurointia, jossa vaurion tyyppi ei ole ennakkoon tiedossa, ja esitellään menetelmiä, joilla voidaan arvioida ja korjata historiallisten gramofoniäänitteiden spektrimuutoksia sekä palauttaa puuttuvaa sisältöä. Viimeinen osa keskittyy yksikanavaiseen sokeaan puheen kaiunpoistoon, jossa diffuusiomalli yhdistetään parametriseen huoneakustiikan malliin puhtaan puheen palauttamiseksi ja samalla tallennustilan akustisten ominaisuuksien arvioimiseksi.

Tutkimustulokset osoittavat, että diffuusiopohjaiset generatiiviset mallit voivat yltää erikoistuneiden ohjatun oppimisen järjestelmien tasolle tai jopa ylittää ne, erityisesti tilanteissa, jotka poikkeavat harjoitusdatasta. Tulokset avaavat uusia mahdollisuuksia kulttuuriperintöäänitteiden restaurointiin, puheen selkeyden parantamiseen haastavissa olosuhteissa sekä monipuolisten, mukautuvien työkalujen kehittämiseen äänenkäsittelyyn media-alalla, yleisradiotoiminnassa ja forensiikassa.

Linkki väitöskirjan sähköiseen esittelykappaleeseen (esillä 10 päivää ennen väitöstä): Aaltodoc

Sähkötekniikan korkeakoulun väitöskirjat ovat saatavilla yliopiston ylläpitämässä avoimessa Aaltodoc-julkaisuarkistossa.

Pikaoppaaseen

Päivitetty: 18.8.2025
Julkaistu: 9.6.2025

Väitös akustiikan ja puhetekniikan alalta, M.Sc. Eloi Moliner Juanpere

Milloin

Missä

Tapahtuman kieli

Sähkötekniikan korkeakoulun väitöskirjat

Sähkötekniikan korkeakoulun väitöskirjat Aaltodoc-julkaisuarkistossa (ulkoinen linkki)