STAGE Conversion neuronale de l'expressivité vocale guidée par la perception

Date de mise à jour de l’offre

Association de droit privé :

Institut de Recherche et Coordination Acoustique Musique

Description de la mission

La conversion d’attributs expressifs de la voix (VC) tels que l’émotion a connu de grandes avancées ces dernières années, notamment grâce a l’émergence des réseaux neuronaux et a la constitution de grandes bases de données d’enregistrements de voix sur lesquelles ces réseaux sont entraînés [1]. Diverses architectures comme les réseaux adversariaux [2, 3, 4], les auto encodeurs [5, 6, 7], les transformers [8, 9] ou des architectures hybrides [10, 11, 12, 13] ont constitue des avancées importantes permettant d’obtenir des conversions de plus en plus naturelles et conformes a l’expressivite de la voix humaine. Pourtant, même les méthodes les plus efficaces échouent encore a produire des conversions perceptivement comparables a d’authentiques voix expressives humaines. L’apprentissage neuronal d’une définition implicite satisfaisante de l'expressivite demeure une question ouverte et un domaine de recherche actif. A l’IRCAM, le projet MoVE (Modélisation de l’Expressivite de la Voix humaine) se base sur les dernières avancées en apprentissage machine et traitement automatique de la parole pour élaborer un système neuronal de transformation réaliste de l’expressivité. Pour satisfaire cet objectif, une base de données dédiée aux attitudes vocales [14] nommée Att-HACK [15] a éte construite a l’IRCAM - elle comporte une vingtaine d’acteurs jouant en français 100 phrases dans 4 attitudes (amicale, distante, dominante et séductrice).

Le travail effectue durant ce stage consistera a implémenter et entraîner un système de conversion des attitudes vocales de l’état de l’art, et a le modifier afin qu’il puisse être informe par les données récoltées a l’issue de l’étude actuellement menée sur Att-HACK. Les contributions attendues sont :
- l’implémentation d’un système de VC de l'état de l’art.
- son adaptation en vue d’un apprentissage informe par les données perceptives recueillies a l’issue de la BWS sur Att-HACK.
- une participation a la phase II de la validation perceptive de la base Att- HACK qui se déroulera au printemps 2022 au Centre Multidisciplinaire des Sciences Comportementales (INSEAD-Sorbonne) et qui interrogera les interactions entre attitudes.
- la validation perceptive du modèle de VC élabore au cours du stage.

Profil recherché

Etudiant en Master 2 ou équivalent dans les domaines de l'informatique ou des sciences de l'ingénieur

- Compétences en programmation python et maîtrise de l'environnement TensorFlow
- Maîtrise de l'apprentissage machine et en particulier des réseaux de neurones profonds
- Compétences en traitement numériques des signaux et traitement automatique de la parole
- Autonomie, rigueur, créativité, communication, travail en équipe

Niveau de qualification requis

Bac + 4/5 et +
  • Employeur
    Association de droit privé
  • Secteur d’activité de la structure
    Emploi - Economie - Innovation - Numérique
  • Effectif de la structure
    De 51 à 250 salariés
  • Site internet de la structure
    https://www.ircam.fr
  • Type de stage ou contrat
    Stage pour lycéens et étudiants en formation initiale
  • Date prévisionnelle de démarrage
  • Durée du stage ou contrat
    Plus de 4 mois et jusqu'à 6 mois
  • Le stage est-il rémunéré ?
    Oui
  • Niveau de qualification requis

    Bac + 4/5 et +
  • Lieu du stage
    IRCAM 1, place Igor Stravinsky
    75004 PARIS 4E ARRONDISSEMENT
  • Accès et transports
    Métros et RERs