Informaatio- ja tietoliikennetekniikan laitos

Puheentunnistus

Tavoitteemme on parantaa automaattisen puheentunnistuksen menetelmiä Aalto-yliopistossa kehitettävien uusien algoritmien avulla.
Speech_Recognition_Aalto_University

Puheentunnistus tarjoaa haastavia benchmark-tehtäviä tehokkaille algoritmeille, jotka prosessoivat suuria datamassoja ja oppivat mallintamaan niistä olennaiset piirteet.  Akustisten foneemimallien parantamisen lisäksi tähtäämme uusien oppivien ja tilastollisten kielimallien kehittämiseen vaativiin tunnistustehtäviin, joissa käsitellään rajoittamattoman sanaston jatkuvaa puhetta.  Ryhmällemme relevantteihin pilotointisovelluksiin kuuluvat eri kielten sanelun lisäksi audioindeksointi, adaptiivinen puhesynteesi ja puheesta puheeseen käännös.

Lue lisää tutkimuksesta

Software & Demonstrations

Software produced as part of our research is available on our GitHub

Demonstration videos of our research work can be watched on our YouTube Channel

Viimeisimmät julkaisut

A transformer-based spelling error correction framework for Bangla and resource scarce Indic languages

Mehedi Hasan Bijoy, Nahid Hossain, Salekul Islam, Swakkhar Shatabda 2025 Computer Speech and Language

Multi-Teacher Language-Aware Knowledge Distillation for Multilingual Speech Emotion Recognition

Mehedi Hasan Bijoy, Dejan Porjazovski, Tamás Grósz, Mikko Kurimo 2025 Proceedings of the Interspeech

Is your model big enough? Training and interpreting large-scale monolingual speech foundation models

Yaroslav Getman, Tamás Grósz, Tommi Lehtonen, Mikko Kurimo 2025 Proceedings of the Interspeech

Non-Native Children's Automatic Speech Assessment Challenge (NOCASA)

Yaroslav Getman, Tamás Grósz, Mikko Kurimo, Giampiero Salvi 2025 35th IEEE International Workshop on Machine Learning for Signal Processing

Towards large-scale speech foundation models for a low-resource minority language

Yaroslav Getman, Tamás Grósz, Katri Hiovain-Asikainen, Tommi Lehtonen, Mikko Kurimo 2025 Proceedings of the Joint 25th Nordic Conference on Computational Linguistics and 11th Baltic Conference on Human Language Technologies

Pronunciation Editing for Finnish Speech using Phonetic Posteriorgrams

Zirui Li, Lauri Juvela, Mikko Kurimo 2025 13th edition of the Speech Synthesis Workshop

Mispronunciation Detection Without L2 Pronunciation Dataset in Low-Resource Setting: A Case Study in Finland Swedish

Nhan Phan, Mikko Kuronen, Maria Kautonen, Anna von Zansen, Yaroslav Getman, Ekaterina Voskoboinik, Tamás Grósz, Mikko Kurimo 2025 Proceedings of the Interspeech 2025

One Whisper to Grade Them All

Nhan Phan, Anusha Porwal, Yaroslav Getman, Ekaterina Voskoboinik, Tamás Grósz, Mikko Kurimo 2025 Proceedings of 10th Workshop on Speech and Language Technology in Education (SLaTE)

Exploring Ordinal Classification for Spoken Language Assessment

Anusha Porwal, Nhan Phan, Yaroslav Getman, Tamás Grósz, Mikko Kurimo 2025 Proceedings of 10th Workshop on Speech and Language Technology in Education (SLaTE)
Lisää tietoa tutkimuksestamme löytyy Aallon tutkimusportaalista.
Tutkimusportaali
  • Päivitetty:
  • Julkaistu:
Jaa
URL kopioitu