STAGE Conversion neuronale des attributs de la voix par apprentissage de représentations structurées - Application à la manipulation de l’expressivité

Date de mise à jour de l’offre

Association à but non lucratif reconnue d'utilité publique :

L'Ircam, Institut de Recherche et Coordination Acoustique/Musique est aujourd'hui l'un des plus grands centres de recherche publique au monde se consacrant à la création musicale et à la recherche scientifique.

Description de la mission

La tâche de conversion de la voix s’est largement popularisée ces dernières années avec l’apparition des « deep fakes » et les avancées spectaculaires réalisées par les réseaux de neurones profonds. Les attributs de la voix manipulables concernent potentiellement l’ensemble des informations véhiculées par la voix : de l’identité d’un individu, son âge et son genre, son expressivité, jusqu’au sens du message prononcé. Les recherches actuelles en conversion neuronale reposent sur des architectures d’encodeur/décodeur, visant à apprendre un encodage du signal de parole dans un espace latent, à la fois interprétable et manipulable. A cette fin, il est souhaité que les attributs d’une voix puissent être représentés par des codes linéairement séparable dans l’espace latent. La conversion consiste alors à manipuler un ou plusieurs des attributs tout en préservant le reste des codes correspondant à un enregistrement source. Pour permettre cette manipulation, des recherches récentes ont proposé des architectures basées sur le conditionnement d’auto-encodeurs, et la séparation des informations portées par la voix dans les représentations latentes.

Le travail effectué dans ce stage concernera l’extension du système de conversion neuronal de la voix actuellement réalisé au sein de l’équipe Analyse et Synthèse des Sons du laboratoire STMS. L’objectif du stage sera de prolonger les travaux récemment réalisés au sein de l’équipe sur l’apprentissage de représentations démêlées pour la conversion neuronale de la voix. En particulier, le stage portera sur :

- L’extension de l’algorithme de conversion neuronal basé sur une représentation de la voix dans un espace linguistique et un espace locuteur, à une représentation incluant une représentation latente de l’expressivité de la voix.
- L’apprentissage de ces représentations sur des bases de données expressives en français, enregistrées à l’Ircam (émotion et attitudes sociales).
- L’évaluation des résultats obtenus par comparaison à des algorithmes de l’état de l’art.

Le stage s’appuiera sur les connaissances de l’équipe Analyse et Synthèse des Sons du laboratoire STMS (IRCAM/CNRS/Sorbonne Université) en traitement du signal de parole et en apprentissage de réseaux de neurones, et sur une grande expérience en transformation de la voix. Le stage se déroulera dans le cadre du projet MoVE financé par le programme doctoral Ph2D de la région IDF.

Profil recherché

Master 2 avec des connaissances poussées en traitement du signal audio, apprentissage machine, réseaux de neurones profonds, programmation Python et environnements PyTorch et TensorFlow

Niveau de qualification requis

Bac + 4/5 et +
  • Employeur
    Association à but non lucratif reconnue d'utilité publique
  • Secteur d’activité de la structure
    Enseignement - Formation - Recherche
  • Effectif de la structure
    De 51 à 250 salariés
  • Site internet de la structure
    https://www.ircam.fr
  • Type de stage ou contrat
    Stage pour lycéens et étudiants en formation initiale
  • Date prévisionnelle de démarrage
  • Durée du stage ou contrat
    Plus de 4 mois et jusqu'à 6 mois
  • Le stage est-il rémunéré ?
    Oui
  • Niveau de qualification requis

    Bac + 4/5 et +
  • Lieu du stage
    IRCAM
    1, place Igor Stravinsky
    75004 PARIS 4E ARRONDISSEMENT
  • Accès et transports
    Stations Châtelet - Les Halles et Hôtel de Ville