Christodoulides, George
[UCL]
Didirkova, Ivana
[UCL]
Résumé L’alignement automatique permet de relier les unités (mots, syllabes...) de transcription avec le signal sonore. Les systèmes actuels ne répondent pas aux besoins des chercheurs travaillant en parole pathologique. Les algorithmes usuels se heurtent aux spécificités de la parole bègue (blocages, prolongations). Notre approche consiste à détecter les régions de disfluences à partir d’indices acoustiques ([1] pour une revue de systèmes développées pour d’autres langues et [2] pour une application en parole dysarthrique) et d’adapter la stratégie d’alignement pour les régions disfluentes en gardant les stratégies existantes pour la parole fluente. À partir d’un corpus de parole bègue de 2h30 (16 locuteurs francophones), nous avons extrait l’ensemble des paramètres acoustiques proposés par openSMILE [3], et utilisé des systèmes de classification supervisée (SVN, Random Forest) pour créer un modèle statistique de détection des régions disfluentes. Nous discuterons les résultats préliminaires en fonction des paramètres les plus robustes. Références [1] Chee, L. S. ; Ai, O. C.; Yaacob, S. “Overview of automatic stuttering recognition system”, Proc. International Conference on Man-Machine Systems, Batu Ferringhi, Penang Malaysia, 2009, pp. 1–6. [2] Oue, S.; Marxer, R.; Rudzicz, F. (2015). “Automatic dysfluency detection in dysarthric speech using deep belief networks”, Proc. SLPAT 2015, 6th Workshop on Speech and Language Processing for Assistive Technologies, Dresden, Germany, pp. 60–64. [3] Eyben, F.; Wellmer, M.; Schuller, B (2010). “openSMILE - The Munich Versatile and Fast Open-Source Audio Feature Extractor”, Proc. ACM Multimedia (MM), ACM, Florence, Italy, ISBN 978-1-60558-933-6, pp. 1459-1462.
(eng)
Abstract Forced alignment is the process of determining the time intervals of each linguistic unit (syllable, word etc.) in a speech signal, on the basis of its transcription. Current systems often fall short of the expectations of researchers working on pathological speech; their algorithms are foiled by the particular characteristics of stuttered speech, such as blocks and lengthening. We propose a two-step system, which consists of detecting disfluent regions in the speech signal on the basis of acoustic features (see [1] for a review of similar systems developed of other languages and [2] for an application on dysarthria), and subsequently using an adapted alignment strategy for disfluent regions and conventional algorithms for fluent regions. A corpus of stuttered speech (16 native speakers of French, 2h30 in total) was used to extract the full set of acoustic features of openSMILE [3]. Supervised classification methods (SVNs, Random Forests) were then used to train statistical models for the detection of disfluent regions. Our presentation will focus on selecting the most robust features for detecting regions of stuttered disfluency. References [1] Chee, L. S. ; Ai, O. C.; Yaacob, S. “Overview of automatic stuttering recognition system”, Proc. International Conference on Man-Machine Systems, Batu Ferringhi, Penang Malaysia, 2009, pp. 1–6. [2] Oue, S.; Marxer, R.; Rudzicz, F. (2015). “Automatic dysfluency detection in dysarthric speech using deep belief networks”, Proc. SLPAT 2015, 6th Workshop on Speech and Language Processing for Assistive Technologies, Dresden, Germany, pp. 60–64. [3] Eyben, F.; Wellmer, M.; Schuller, B (2010). “openSMILE - The Munich Versatile and Fast Open-Source Audio Feature Extractor”, Proc. ACM Multimedia (MM), ACM, Florence, Italy, ISBN 978-1-60558-933-6, pp. 1459-1462.
Bibliographic reference |
Christodoulides, George ; Didirkova, Ivana. Vers un système d’alignement automatique pour la parole bègue à partir de la détection automatique des régions disfluentes.Bégaiement et Disfluences : de la théorie à la clinique (Louvain-la-Neuve, Belgium, du 27/04/2017 au 28/04/2017). |
Permanent URL |
http://hdl.handle.net/2078.1/184372 |