Can you read tongue movements Evaluation of the contribution of tongue display to speech understandingReport as inadecuate




Can you read tongue movements Evaluation of the contribution of tongue display to speech understanding - Download this document for free, or read online. Document in PDF available to download.

1 GIPSA-MPACIF - MPACIF GIPSA-DPC - Département Parole et Cognition 2 GIPSA-Services - GIPSA-Services GIPSA-lab - Grenoble Images Parole Signal Automatique

Abstract : A large number of studies has established that the vision of typically visible articulators lips, jaw, face, tongue tip, teeth eases speech understanding by humans, and significantly increases the detection and identification performance of words in noise. However, everything cannot necessarily be -read- without ambiguity from the mere vision of face. -Cued Speech-, a language used by an increasing number of hearing impaired speakers, aims precisely to complement the lip information by means of a set of hand shapes and positions in relation to the face that provides most of the missing phonetic information, in particular related to tongue articulation. This coding system, although efficient in terms of information theory, is arbitrary and is not directly related to tongue movements. Therefore, we have attempted to determine if direct and full vision of the tongue - information presumably more intuitive - can be used. We have therefore exploited the virtual audiovisual talking head available at the laboratory that can display all speech articulators, including the tongue. The augmented reality condition chosen is a cutaway profile view. We have elaborated a set of audiovisual VCV stimuli by determining the talking head control parameters though inversion from the positions of the coils of an electromagnetic articulograph glued on the tongue, the jaw and the lips of the subject from which the talking head had been modelled. These stimuli have been played in a audiovisual perception test in four different conditions: audio signal alone AU, audio signal + cutaway view of the virtual head along the sagittal plane without tongue AVJ, audio signal + cutaway view with Tongue AVT, audio signal + complete Face with skin texture AVF. Each condition was played at four different Signal to Noise Ratios SNRs of white noise added to the sound: -oo i.e. no audio, 9 dB, +3 dB, +oo i.e. no noise. For each stimulus, the subject was forced to make a choice between eight consonants. In order to assess the learning effects, 12 subjects group I have transcribed the stimuli presented with decreasing SNRs for each condition, while 11 other subjects group II have identified the stimuli with increasing SNRs which opened the possibility of learning the relation between audio and video when the audio signal was clear at the beginning of the test for a given condition. Another set of VCV stimuli AVT condition, SNR = -9 dB has finally been used at the end of the test in order to assess the generalisation abilities of the subjects in both groups. A series of analyses lead to the following results. The identification scores of the group II are significantly higher than those of the group I, which supports the idea that group II has benefited from a stronger implicit learning. All the video presentation conditions give better scores than the audio alone. The scores for all SNRs rank, for each group, with statistically significant differences, in the decreasing order: AVF, AVT, AVJ, AU. For each SNR, AVF is significantly better decoded than AVJ: the subjects prefer an ecological rendering of the movements to a cutaway view. The AVT condition is not significantly better perceived than the AVJ condition except when the audio signal is absent, for the group II, who has benefited from a stronger implicit learning: in this case the AVT score is higher by 18% than the AVJ score. This result suggests that -tongue reading- can take over for the audio informa¬tion when this latter is not sufficient any longer to complement lip reading. Moreover, the fairly high identification score of a generalisation test proposed at the end of the session with different VCV stimuli, and the global difference of performance between the two groups seem to demonstrate that fast learning can be achieved. These very preliminary results need to be complemented by more systematic tests implying notably visual attention measurements, in order to confirm that natural human tongue reading abilities are weak, or that they are simply dominated by the lip reading ones. However, we envisage elaborating protocols to show that tongue reading learning is fast and easy. Our future goal is thus to use the augmented speech abilities of our virtual talking head for applications in the domain of speech therapy for speech retarded children, perception and production rehabilitation of hearing impaired children, and pronunciation training for second language learners.

Résumé : De nombreux travaux ont établi que la vision des articulateurs typiquement visibles lèvres, mâchoire, visage, partie antérieure de la langue, dents facilite la compréhension de la parole par les humains, et augmente significativement le taux de détection de l-activité vocale et d-identification des mots. Pour autant, tout ne peut être -lu- sans ambiguïté avec la seule vue du visage. En particulier, la langue porte une part importante de l-information articulatoire mais n-est généralement pas visible. La Langue française Parlée Complétée LPC utilisée par une partie de la communauté des malentendants vise justement à compléter l-information labiale à l-aide d-un code qui normalise un ensemble de formes de la main et de positions par rapport au visage. Ainsi, les utilisateurs du LPC s-échangent des informations indirectes en particulier sur l-articulation de la langue. Ce codage, même s-il est efficace selon la théorie de l-information, est arbitraire et sans lien naturel avec la forme de la langue. Nous avons donc voulu tester l-hypothèse que la vision directe et complète de la langue - information a priori plus intuitive - peut être utilisée. Pour cela, nous avons mis en oeuvre la tête parlante virtuelle audiovisuelle du laboratoire, qui permet d-afficher tous les articulateurs de la parole, y compris la langue. Le mode de réalité augmentée choisi est un écorché de profil. Nous avons construit un ensemble de stimuli audiovisuels VCV en déterminant les paramètres de contrôle de la tête parlante par inversion à partir des positions des bobines d-un articulographe électromagnétique fixées sur la langue, la mâchoire et les lèvres du sujet à partir duquel la tête parlante a été modélisée clonage virtuel. Ces stimuli ont été présentés dans un test de perception audiovisuelle suivant quatre conditions: audio seul AU, audiovisuel avec intérieur du visage sans langue AVJ, avec intérieur du visage avec langue AVT et avec visage complet vu de l-extérieur AVF. Chaque condition était présentée avec quatre niveaux RSB de bruit blanc ajouté au son: -oo vidéo seule -9 dB, +3 dB, +oo signal sans bruit. Pour chaque stimulus, une réponse à choix forcé entre les huit consonnes était demandée. Pour tester les effets d-apprentissage, 12 sujets groupe I ont transcrit les stimuli avec des niveaux de bruits décroissants dans chaque condition, tandis que 11 autres sujets groupe II ont identifié les stimuli avec un bruit croissant ce qui permettait un éventuel apprentissage de la relation entre audio et vidéo lorsque le signal audio était clair en début de test pour une condition donnée. Enfin, un autre ensemble de stimuli VCV mode AVT, RSB = -9 dB a été utilisé en fin de test pour évaluer les capacités de généralisation des sujets des deux groupes. Une série d-analyses a permis de dégager les résultats suivants. Les scores de reconnaissance du groupe II sont significativement plus élevés que ceux du groupe I, ce qui conforte l-idée que le groupe II a bénéficié d-un apprentissage implicite plus fort. Toutes les conditions de présentation vidéo améliorent la compréhension de parole par rapport à l-audio seul. Les scores pour l-ensemble des niveaux RSB se classent, pour chaque groupe, avec des différences statistiquement significatives, dans l-ordre décroissant : AVF, AVT, AVJ, AU. Pour chaque RSB, AVF est significativement mieux décodé que AVJ : les sujets préfèrent un rendu écologique des mouvements à un écorché. La condition AVT n-est pas significativement mieux perçue que la condition AVJ sauf lorsque le signal audio est absent, pour le groupe II, qui a bénéficié d-un apprentissage implicite plus fort : dans ce cas le score AVT est supérieur de 18% au score AVJ. Ce résultat sug¬gère que la lecture -linguale- peut prendre le relais de l-information audio lorsque cette dernière n-est plus suffisante pour compléter la lecture labiale. Le taux de reconnaissance relativement élevé du test de généralisation, ainsi que la différence globale de performance entre les deux groupes semble montrer par ailleurs qu-un apprentissage rapide peut être réalisé. Ces résultats très préliminaires sont à compléter par des tests plus systématiques impliquant notamment des mesures d-attention visuelle, pour confirmer que nos capacités naturelles de lecture linguale sont faibles, ou qu-elles sont simplement dominées par celles en lecture labiale. Nous envisageons cependant d-élaborer des protocoles pour montrer que l-apprentissage de la lecture linguale est rapide et facile. Notre objectif futur est donc d-utiliser les capacités de parole augmentée de notre tête parlante virtuelle pour des applications dans les domaines de l-orthophonie pour les enfants atteints de troubles de parole, de la réhabilitation en perception et production pour les enfants handicapés auditifs, et de la correction phonétique pour les apprenants de langue seconde.

Keywords : -





Author: Yuliya Tarabalka - Pierre Badin - Frédéric Elisei - Gérard Bailly -

Source: https://hal.archives-ouvertes.fr/



DOWNLOAD PDF




Related documents