Nicolas Audibert

Post-doctorant au Laboratoire d'Informatique d'Avignon
339, chemin des Meinajaries
Agroparc BP 1228
84911 AVIGNON Cedex 9
FRANCE
Tél : +33 (0) 4 90 84 35 09
Fax : +33 (0) 4 90 84 35 01
Mobile : +33 (0)6 89 74 27 64

nicolas.audibertuniv-avignon.fr


Homepage in English

Publications

CV


Thématiques de recherche :


Docteur de Grenoble INP en Ingénierie de la Cognition, de la Création et des Apprentissages (anciennement spécialité Sciences Cognitives)

Thèse soutenue le mardi 2 décembre 2008 (Maison Jean Kuntzmann, campus de Grenoble)

Titre de la thèse : Prosodie de la parole expressive : dimensionnalité d'énoncés méthodologiquement contrôlés authentiques et actés

Résumé : Les récents progrès de la synthèse de la parole ont redéfini les enjeux majeurs de la communication personne-machine, qui s'articulent désormais autour du concept de pertinence du clone parlant à travers son expressivité. Nous défendons une hypothèse selon laquelle la dynamique des contours prosodiques serait porteuse d'information affective, en séparant les affects dont l'expression est contrôlée volontairement vs. involontairement. Pour cela a été développé E-Wiz, une plateforme dédiée à la capture de corpus multimodaux de parole expressive spontanée par des scénarios de Magicien d'Oz. 17 locuteurs francophones (dont 7 acteurs qui ont rejoué immédiatement après les affects ressentis) ont été capturés dans une tâche prétexte d'apprentissage des langues, le scénario Sound Teacher, visant l'induction d'états émotionnels de valence plutôt positive puis négative exprimés principalement sur des énoncés monosyllabiques isolés. Ils ont ensuite annoté eux-mêmes les affects exprimés. Nous avons identifié des contours de F0 distincts pour différentes expressions émotionnelles. Une évaluation perceptive en conditions audio et audiovisuelle des affects actés par un locuteur a montré que les monosyllabes étaient aussi bien reconnues que les énoncés plus longs. Deux expériences perceptives de projection dimensionnelle de stimuli expressifs sur des stimuli neutres ont montré qu'aucune dimension ne pouvait être liée directement à une classe particulière d'émotions. L'intensité et la typicalité d'expressions actées et spontanées produites par 6 locuteurs ont été mesurées, préalablement à une tâche de discrimination audio, visuelle et audiovisuelle de paires de stimuli actés vs. spontanés. Cette expérience a montré que des sujets naïfs étaient capables de discriminer les énoncés actés vs. spontanés sans différence notable entre classes d'émotion mais avec une importante variabilité interindividuelle, et sans que les différences entre intensités d'émotion perçues n'expliquent entièrement les scores de discrimination.

Mots-clés : Prosodie ; Emotions ; Affects ; Cognition ; Synthèse vocale ; Qualité de voix ; Contours ; Multimodalité ; Agents Conversationnels Animés

Composition du jury :





Dernière mise à jour : 3 juin 2010