Signaalinkäsittelyn ja akustiikan laitos

Puheentunnistus

Tavoitteemme on parantaa automaattisen puheentunnistuksen menetelmiä Aalto-yliopistossa kehitettävien uusien algoritmien avulla.
Speech_Recognition_Aalto_University

Puheentunnistus tarjoaa haastavia benchmark-tehtäviä tehokkaille algoritmeille, jotka prosessoivat suuria datamassoja ja oppivat mallintamaan niistä olennaiset piirteet.  Akustisten foneemimallien parantamisen lisäksi tähtäämme uusien oppivien ja tilastollisten kielimallien kehittämiseen vaativiin tunnistustehtäviin, joissa käsitellään rajoittamattoman sanaston jatkuvaa puhetta.  Ryhmällemme relevantteihin pilotointisovelluksiin kuuluvat eri kielten sanelun lisäksi audioindeksointi, adaptiivinen puhesynteesi ja puheesta puheeseen käännös.

Lue lisää tutkimuksesta

Software & Demonstrations

Software produced as part of our research is available on our GitHub

Demonstration videos of our research work can be watched on our YouTube Channel

Viimeisimmät julkaisut

Principled Comparisons for End-to-End Speech Recognition: Attention vs Hybrid at the 1000-hour Scale

Aku Rouhe, Tamás Grósz, Mikko Kurimo 2024 IEEE/ACM Transactions on Audio, Speech, and Language Processing

Automatic Rating of Spontaneous Speech for Low-Resource Languages

Ragheb Al-Ghezi, Yaroslav Getman, Ekaterina Voskoboinik, Mittul Singh, Mikko Kurimo 2023 2022 IEEE Spoken Language Technology Workshop, SLT 2022 - Proceedings

Automatic Speaking Assessment of Spontaneous L2 Finnish and Swedish

Ragheb Al-Ghezi, Ekaterina Voskoboinik, Yaroslav Getman, Anna Von Zansen, Heini Kallio, Mikko Kurimo, Ari Huhta, Raili Hildén 2023 Language Assessment Quarterly

Developing an AI-assisted Low-resource Spoken Language Learning App for Children

Yaroslav Getman, Nhan Phan, Ragheb Al-Ghezi, Ekaterina Voskoboinik, Mittul Singh, Tamas Grosz, Mikko Kurimo, Giampiero Salvi, Torbjorn Svendsen, Sofia Strombergsson, Anna Smolander, Sari Ylinen 2023 IEEE Access

Multi-task wav2vec2 Serving as a Pronunciation Training System for Children

Yaroslav Getman, Ragheb Al-Ghezi, Tamas Grosz, Mikko Kurimo 2023 9th Workshop on Speech and Language Technology in Education (SLaTE)

Investigating wav2vec2 context representations and the effects of fine-tuning, a case-study of a Finnish model

Tamas Grosz, Yaroslav Getman, Ragheb Al-Ghezi, Aku Rouhe, Mikko Kurimo 2023 Proceedings of Interspeech 2023

Discovering Relevant Sub-spaces of BERT, Wav2Vec 2.0, ELECTRA and ViT Embeddings for Humor and Mimicked Emotion Recognition with Integrated Gradients

Tamás Grósz, Anja Virkkunen, Dejan Porjazovski, Mikko Kurimo 2023 MuSe '23: Proceedings of the 4th on Multimodal Sentiment Analysis Challenge and Workshop: Mimicked Emotions, Humour and Personalisation

Non-game like training benefits spoken foreign-language processing in children with dyslexia

Katja Junttila, Anna Riikka Smolander, Reima Karhila, Mikko Kurimo, Sari Ylinen 2023 FRONTIERS IN HUMAN NEUROSCIENCE

Multilingual TTS Accent Impressions for Accented ASR

Georgios Karakasidis, Nathaniel Robinson, Yaroslav Getman, Atieno Ogayo, Ragheb Al-Ghezi, Ananya Ayasi, Shinji Watanabe, David R. Mortensen, Mikko Kurimo 2023 Text, Speech, and Dialogue - 26th International Conference, TSD 2023, Proceedings
Lisää tietoa tutkimuksestamme löytyy Aallon tutkimusportaalista.
Tutkimusportaali
  • Julkaistu:
  • Päivitetty: