Partagez sur
STAGE Segmentation et détection automatique des situations conflictuelles en interview politique
Date de mise à jour de l’offre
SORBONNE UNIVERSITE (via partenaire CNRS 18008901303720) :
Administrativement, le LIMSI (UPR3251) est une unité propre du CNRS, rattachée à titre principal à l’Institut des Sciences de l'Information et de leurs Interactions du CNRS (INS2I). Le LIMSI est également associé par convention avec l'Université Paris-Sud, avec laquelle l'Unité entretient des liens anciens et étroits. Le LIMSI développe de nombreuses collaborations avec des laboratoires universitaires ainsi qu'avec des unités de recherche associées à des écoles d'ingénieurs au sein des départements des Sciences et Technologies de l'Information et de la Communication (STIC) et Mécanique Energétique et Procédés (MEP) de l'IDEX Paris-Saclay et participe aux actions des laboratoires d'excellence DIGICOSME et LASIPS, de l'Equipex DIGISCOPE et de l'Institut de Convergence DATAIA.
Le LIMSI a été créé en 1972 sous l'impulsion de Lucien Malavard pour développer des recherches en mécanique des fluides numérique, en acoustique et en traitement du signal. Le spectre des travaux conduits au labora
Description de la mission
Le stage vise principalement à l’amélioration de la segmentation automatique d’interviews politiques pour assister les travaux de recherche en science politique. Dans ce cadre, nous nous intéresserons notamment à la détection du brouhaha (parole superposée). De manière plus fine, nous aimerions pouvoir extraire des descripteurs du signal de parole [Eyben et al, 2015] corrélés au niveau de conflictualité des échanges, basés, par exemple, sur le niveau d’activation (niveau intermédiaire entre le signal et l’expressivité [Rilliard et al, 2018]) ou l’effort vocal [Liénard, 2019].
Le stage pourra s’appuyer initialement sur deux corpus totalisant 30 interviews politiques annotés finement en tours de paroles dans le cadre du projet OOPAIP. Il débutera par la réalisation d’un état de l’art de la diarization (segmentation et regroupement en locuteurs [Bredin et al., 2020]) et de la détection de la parole superposée [Chowdhury et al, 2019]. Il s’agira ensuite de proposer des solutions basées sur des frameworks récents pour améliorer la localisation des frontières de tours de parole, notamment lorsque la fréquence des changements de locuteurs est importante le cas limite étant la situation du brouhaha.
La seconde partie du stage se penchera sur une mesure plus fine du niveau conflictuel des échanges, via la recherche des descripteurs les plus pertinents et par la mise au point d’architecture d’apprentissage pour sa modélisation.
Le langage de programmation utilisé dans le cadre de ce stage sera Python. Le stagiaire aura accès aux ressources de calcul du LIMSI (serveurs et cluster avec GPU de génération récente).
Valorisation du stage
Différentes stratégies de valorisation des travaux du·de la stagiaire seront envisagées, en fonction du degré de maturité des travaux réalisés :
● Diffusion des outils d’analyse réalisés sous licence open-source
● Rédaction de publications scientifiques
Le stage pourra s’appuyer initialement sur deux corpus totalisant 30 interviews politiques annotés finement en tours de paroles dans le cadre du projet OOPAIP. Il débutera par la réalisation d’un état de l’art de la diarization (segmentation et regroupement en locuteurs [Bredin et al., 2020]) et de la détection de la parole superposée [Chowdhury et al, 2019]. Il s’agira ensuite de proposer des solutions basées sur des frameworks récents pour améliorer la localisation des frontières de tours de parole, notamment lorsque la fréquence des changements de locuteurs est importante le cas limite étant la situation du brouhaha.
La seconde partie du stage se penchera sur une mesure plus fine du niveau conflictuel des échanges, via la recherche des descripteurs les plus pertinents et par la mise au point d’architecture d’apprentissage pour sa modélisation.
Le langage de programmation utilisé dans le cadre de ce stage sera Python. Le stagiaire aura accès aux ressources de calcul du LIMSI (serveurs et cluster avec GPU de génération récente).
Valorisation du stage
Différentes stratégies de valorisation des travaux du·de la stagiaire seront envisagées, en fonction du degré de maturité des travaux réalisés :
● Diffusion des outils d’analyse réalisés sous licence open-source
● Rédaction de publications scientifiques
Profil recherché
● Étudiant·e en dernière année d’un bac +5 dans le domaine de l’informatique et de l'IA
● Compétence en langage Python et expérience dans l’utilisation de bibliothèques de ML (Scikit-learn, TensorFlow, PyTorch)
● Vif intérêt dans les SHS, les humanités numériques et les sciences politiques en particulier
● Une expérience en traitement automatique de la parole est préférable
● Capacité à réaliser une étude bibliographique à partir d’articles scientifiques rédigés en anglais
● Compétence en langage Python et expérience dans l’utilisation de bibliothèques de ML (Scikit-learn, TensorFlow, PyTorch)
● Vif intérêt dans les SHS, les humanités numériques et les sciences politiques en particulier
● Une expérience en traitement automatique de la parole est préférable
● Capacité à réaliser une étude bibliographique à partir d’articles scientifiques rédigés en anglais
Niveau de qualification requis
Bac + 4/5 et +
Les offres de stage ou de contrat sont définies par les recruteurs eux-mêmes.
En sa qualité d’hébergeur dans le cadre du dispositif des « 100 000 stages », la Région Île-de-France est soumise à un régime de responsabilité atténuée prévu aux articles 6.I.2 et suivants de la loi n°2204-575 du 21 juin 2004 sur la confiance dans l’économie numérique.
La Région Île-de-France ne saurait être tenue responsable du contenu des offres.
Néanmoins, si vous détectez une offre frauduleuse, abusive ou discriminatoire vous pouvez la signaler
en cliquant sur ce lien.
-
EmployeurSORBONNE UNIVERSITE (via partenaire CNRS 18008901303720)
-
Secteur d’activité de la structureEnseignement - Formation - Recherche
-
Effectif de la structurePlus de 250 salariés
-
Site internet de la structurehttps://www.limsi.fr
-
Type de stage ou contratStage pour lycéens et étudiants en formation initiale
-
Date prévisionnelle de démarrage
-
Durée du stage ou contratPlus de 4 mois et jusqu'à 6 mois
-
Le stage est-il rémunéré ?Oui
-
Niveau de qualification requis
Bac + 4/5 et + -
Lieu du stageLIMSI groupe TLP Bat 507
rue du Belvédère
91405 ORSAY -
Accès et transportsRER Guichet puis à pied ou bus 9 arrêt Université Paris Saclay OU RER B Orsay Ville puis bus 7 arrêt De Broglie OU RER B Massy-Palaiseau : lignes 91-06 ou 91-10 via Moulon, arrêt Univ Paris Saclay