STAGE Segmentation et détection automatique des situations conflictuelles en interview politique

Date de mise à jour de l’offre

CNRS :

Administrativement, le LIMSI (UPR3251) est une unité propre du CNRS, rattachée à titre principal à l’Institut des Sciences de l'Information et de leurs Interactions du CNRS (INS2I). Le LIMSI est également associé par convention avec l'Université Paris-Sud, avec laquelle l'Unité entretient des liens anciens et étroits. Le LIMSI développe de nombreuses collaborations avec des laboratoires universitaires ainsi qu'avec des unités de recherche associées à des écoles d'ingénieurs au sein des départements des Sciences et Technologies de l'Information et de la Communication (STIC) et Mécanique Energétique et Procédés (MEP) de l'IDEX Paris-Saclay et participe aux actions des laboratoires d'excellence DIGICOSME et LASIPS, de l'Equipex DIGISCOPE et de l'Institut de Convergence DATAIA. Le LIMSI a été créé en 1972 sous l'impulsion de Lucien Malavard pour développer des recherches en mécanique des fluides numérique, en acoustique et en traitement du signal. Le spectre des travaux conduits au labora

Description de la mission

Le stage vise principalement à l’amélioration de la segmentation automatique d’interviews politiques pour assister les travaux de recherche en science politique. Dans ce cadre, nous nous intéresserons notamment à la détection du brouhaha (parole superposée). De manière plus fine, nous aimerions pouvoir extraire des descripteurs du signal de parole [Eyben et al, 2015] corrélés au niveau de conflictualité des échanges, basés, par exemple, sur le niveau d’activation (niveau intermédiaire entre le signal et l’expressivité [Rilliard et al, 2018]) ou l’effort vocal [Liénard, 2019].
Le stage pourra s’appuyer initialement sur deux corpus totalisant 30 interviews politiques annotés finement en tours de paroles dans le cadre du projet OOPAIP. Il débutera par la réalisation d’un état de l’art de la diarization (segmentation et regroupement en locuteurs [Bredin et al., 2020]) et de la détection de la parole superposée [Chowdhury et al, 2019]. Il s’agira ensuite de proposer des solutions basées sur des frameworks récents pour améliorer la localisation des frontières de tours de parole, notamment lorsque la fréquence des changements de locuteurs est importante le cas limite étant la situation du brouhaha.
La seconde partie du stage se penchera sur une mesure plus fine du niveau conflictuel des échanges, via la recherche des descripteurs les plus pertinents et par la mise au point d’architecture d’apprentissage pour sa modélisation.
Le langage de programmation utilisé dans le cadre de ce stage sera Python. Le stagiaire aura accès aux ressources de calcul du LIMSI (serveurs et cluster avec GPU de génération récente).

Valorisation du stage
Différentes stratégies de valorisation des travaux du·de la stagiaire seront envisagées, en fonction du degré de maturité des travaux réalisés :
● Diffusion des outils d’analyse réalisés sous licence open-source
● Rédaction de publications scientifiques

Profil recherché

● Étudiant·e en dernière année d’un bac +5 dans le domaine de l’informatique et de l'IA
● Compétence en langage Python et expérience dans l’utilisation de bibliothèques de ML (Scikit-learn, TensorFlow, PyTorch)
● Vif intérêt dans les SHS, les humanités numériques et les sciences politiques en particulier
● Une expérience en traitement automatique de la parole est préférable
● Capacité à réaliser une étude bibliographique à partir d’articles scientifiques rédigés en anglais

Niveau de qualification requis

Bac + 4/5 et +
  • Employeur
    CNRS
  • Secteur d’activité de la structure
    Enseignement - Formation - Recherche
  • Effectif de la structure
    Plus de 250 salariés
  • Site internet de la structure
    https://www.limsi.fr
  • Type de stage ou contrat
    Stage pour lycéens et étudiants en formation initiale
  • Date prévisionnelle de démarrage
  • Durée du stage ou contrat
    Plus de 4 mois et jusqu'à 6 mois
  • Le stage est-il rémunéré ?
    Oui
  • Niveau de qualification requis

    Bac + 4/5 et +
  • Lieu du stage
    LIMSI groupe TLP Bat 507
    rue du Belvédère
    91405 ORSAY
  • Accès et transports
    RER Guichet puis à pied ou bus 9 arrêt Université Paris Saclay OU RER B Orsay Ville puis bus 7 arrêt De Broglie OU RER B Massy-Palaiseau : lignes 91-06 ou 91-10 via Moulon, arrêt Univ Paris Saclay