Informaatio- ja tietoliikennetekniikan laitos

Puhesynteesi

Puhesynteesin tutkimusryhmä tutkii syviä generatiivisia malleja ja differentioituvia signaalinkäsittelymenetelmiä sovellettuna puheeseen ja ääneen. Lisäksi tutkimusintresseihin kuuluvat äänikloonaus, deepfake-tunnistus ja generoidun puheen vesileimaaminen.

Puhuvat koneet ovat pitkään olleet puheenkäsittelyn ja koneoppimisen keskeisiä tutkimusaiheita. Puhesynteesiä käyttäviä teknologita ovat esimerkiksi henkilökohtaiset digitaaliset avustajat (kuten Siri ja Alexa), äänikirjat, sekä apuvälineet, kuten näytönlukuohjelmat ja ääniproteesit. Nykyaikaiset puhesynteesimenetelmät kuulostavat lähes yhtä luonnollisilta kuin ihmispuhujat. Tämä saavutetaan käyttämällä syviä generatiivisia malleja, kuten WaveNet, GANit, diffuusiomallit ja Transformer-kielimallit.

Nykyiset tekniset haasteet puheen synteesissä liittyvät tehokkuuteen, hallittavuuteen ja tulkittavuuteen. Parhaat nykymenetelmät käyttävät suuria neuroverkkomalleja, jotka ovat laskennallisesti kalliita mustia laatikoita. Aalto-yliopiston puhesynteesiryhmän tutkimus rakentaa tehokasta ja tulkittavaa puhesynteesiä yhdistämällä perinteisiä digitaalisen signaalinkäsittelyn menetelmiä differentioituvan laskennan kanssa.

Äänikloonaus on hiljattain paljon huomiota saanut puhesynteesin sovellus. Äänikloonauksessa uusi ääni voidaan luoda vain muutaman sekunnin äänitallenteesta, mikä mahdollistaa monia sovelluksia, mutta luo samalla kasvavan tarpeen synteettisen puheen tunnistukselle. Aallon puhesynteesin tutkimusryhmä pyrkii rakentamaan vastuullista puhesynteesiä ja tutkii generoidun puheen vesileimaamista osana synteesiprosessia.

Lue lisää aiheesta YLE:n artikkelista: https://yle.fi/a/74-20027151

Aalto-yliopiston puhesynteesin tutkimusryhmä tekee aktiivisesti yhteistyötä kansainvälisesti, yheistyökumppaneihin lukeutuvat mm. KTH Royal Institute of Technology, Tukholmassa; ja National Institute of Informatics (NII), Tokiossa

Tutkimusaiheita

Puhesynteesin generatiiviset mallit: GANit, WaveNet, diffuusiomallit, representaatio-oppiminen ja kielimallit äänelle
Differentioituva DSP: digitaalinen signaalinkasittely rakennusaineena tehokkaille teköälypohjaisille puhesynteesijärjestelmille
Generatiivisten mallien vesileimaus; Deepfake-tunnistus puheessa, vastatoimet ja yleinen tietoisuus aiheesta

Puhesynteesin tutkimusryhmää johtaa professori Lauri Juvela

Julkaistu: 27.9.2023
Päivitetty: 27.9.2023