STAGE Étude des visualisations de réseaux de neurones pour la traduction automatique neuronale

Date de mise à jour de l’offre

Établissement public à caractère scientifique, culturelle et professionnel :

Université

Description de la mission

Contexte du stage

Ce stage est proposé dans le cadre d’un projet financé par le Réseau Francilien des Sciences Informatiques. Ce projet a pour objectif de mieux comprendre le fonctionnement des réseaux de neurones au cœur des systèmes de traduction automatique neuronale. Associant deux laboratoires d’informatique et deux laboratoires de linguistique, ce projet propose une approche originale reposant sur l’utilisation de connaissances en traductologie pour analyser de manière qualitative les effets de structures linguistiques et des représentations neuronales sur la qualité des traductions prédites et expliquer, dans une certaine mesure, le « raisonnement » permettant d’obtenir celles-ci.
Ce stage vise à expérimenter des techniques de visualisation des différents niveaux d’activation comme celles mises en œuvre par [Montavon et al., 2018] pour la classification d’images. En s’appuyant sur des outils comme seq2seq-Vis [Strobelt et al. 2018] ou NeuroX [Dalvi et al. 2019], nous essayerons, en comparant les activations des neurones en fonction des propriétés linguistiques des énoncés a traduire, de comprendre comment s’effectue la division du travail dans la traduction neuronale et de dresser une cartographie de l’activation des réseaux de neurones en fonction des propriétés linguistiques et des types de tâches.

Objectifs du stage
L’objectif de ce stage est tout d’abord pratique et consiste à l’implémentation d’un système d visualisation pour la traduction neuronale . Le stage a aussi des retombées technologiques dans le domaine de la visualisation des réseaux de neurones.

Méthodologie
À partir d’outils tels que NeuroX, appliqués aux différentes architectures transformers proposées par OpenNMT [Klein et al, 2015] nous cartographierons les activations des neurones lorsque les systèmes de TA traduisent les énoncés spécifiques établis à partir de critères linguistiques précis (Isabelle et al, 2017). Des expériences d’ablation et de manipulation de neurones [Dalvi et al, 2019] nous permettront d’identifier les différents phénomènes capturés par les différentes parties du réseau.
On cherchera en particulier à obtenir des corrélations entre les différents types d’activation des neurones et les propriétés textuelles des énoncés à traduire.

Profil recherché

- En cours de formation en Informatique, linguistique informatique, science des données, Sciences de l'ingénieur
- Bonne maîtrise du français et de l’anglais
- Bonne capacité d’organisation et de travail en autonomie comme en équipe
- Une expérience en python est nécessaire, des connaissances en Java ou en R seraient un plus

Niveau de qualification requis

Bac + 4/5 et +
  • Employeur
    Établissement public à caractère scientifique, culturelle et professionnel
  • Secteur d’activité de la structure
    Enseignement - Formation - Recherche
  • Effectif de la structure
    Plus de 250 salariés
  • Type de stage ou contrat
    Stage d'immersion en milieu professionnel dans le cadre de la formation professionnelle continue
  • Date prévisionnelle de démarrage
  • Durée du stage ou contrat
    Plus de 4 mois et jusqu'à 6 mois
  • Le stage est-il rémunéré ?
    Oui
  • Niveau de qualification requis

    Bac + 4/5 et +
  • Lieu du stage
    Bât. Olympe de Gouges
    8 Rue Albert Einstein
    75013 PARIS 13E ARRONDISSEMENT
  • Accès et transports
    Métro ligne 14 : arrêt « Bibliothèque François Mitterrand » Tram T3A : arrêt « Avenue de France » Bus n°89 et 62 : arrêt « Porte de France »