Partagez sur
STAGE Étude des visualisations de réseaux de neurones pour la traduction automatique neuronale
Date de mise à jour de l’offre
Établissement public à caractère scientifique, culturelle et professionnel :
Université
Description de la mission
Contexte du stage
Ce stage est proposé dans le cadre d’un projet financé par le Réseau Francilien des Sciences Informatiques. Ce projet a pour objectif de mieux comprendre le fonctionnement des réseaux de neurones au cœur des systèmes de traduction automatique neuronale. Associant deux laboratoires d’informatique et deux laboratoires de linguistique, ce projet propose une approche originale reposant sur l’utilisation de connaissances en traductologie pour analyser de manière qualitative les effets de structures linguistiques et des représentations neuronales sur la qualité des traductions prédites et expliquer, dans une certaine mesure, le « raisonnement » permettant d’obtenir celles-ci.
Ce stage vise à expérimenter des techniques de visualisation des différents niveaux d’activation comme celles mises en œuvre par [Montavon et al., 2018] pour la classification d’images. En s’appuyant sur des outils comme seq2seq-Vis [Strobelt et al. 2018] ou NeuroX [Dalvi et al. 2019], nous essayerons, en comparant les activations des neurones en fonction des propriétés linguistiques des énoncés a traduire, de comprendre comment s’effectue la division du travail dans la traduction neuronale et de dresser une cartographie de l’activation des réseaux de neurones en fonction des propriétés linguistiques et des types de tâches.
Objectifs du stage
L’objectif de ce stage est tout d’abord pratique et consiste à l’implémentation d’un système d visualisation pour la traduction neuronale . Le stage a aussi des retombées technologiques dans le domaine de la visualisation des réseaux de neurones.
Méthodologie
À partir d’outils tels que NeuroX, appliqués aux différentes architectures transformers proposées par OpenNMT [Klein et al, 2015] nous cartographierons les activations des neurones lorsque les systèmes de TA traduisent les énoncés spécifiques établis à partir de critères linguistiques précis (Isabelle et al, 2017). Des expériences d’ablation et de manipulation de neurones [Dalvi et al, 2019] nous permettront d’identifier les différents phénomènes capturés par les différentes parties du réseau.
On cherchera en particulier à obtenir des corrélations entre les différents types d’activation des neurones et les propriétés textuelles des énoncés à traduire.
Ce stage est proposé dans le cadre d’un projet financé par le Réseau Francilien des Sciences Informatiques. Ce projet a pour objectif de mieux comprendre le fonctionnement des réseaux de neurones au cœur des systèmes de traduction automatique neuronale. Associant deux laboratoires d’informatique et deux laboratoires de linguistique, ce projet propose une approche originale reposant sur l’utilisation de connaissances en traductologie pour analyser de manière qualitative les effets de structures linguistiques et des représentations neuronales sur la qualité des traductions prédites et expliquer, dans une certaine mesure, le « raisonnement » permettant d’obtenir celles-ci.
Ce stage vise à expérimenter des techniques de visualisation des différents niveaux d’activation comme celles mises en œuvre par [Montavon et al., 2018] pour la classification d’images. En s’appuyant sur des outils comme seq2seq-Vis [Strobelt et al. 2018] ou NeuroX [Dalvi et al. 2019], nous essayerons, en comparant les activations des neurones en fonction des propriétés linguistiques des énoncés a traduire, de comprendre comment s’effectue la division du travail dans la traduction neuronale et de dresser une cartographie de l’activation des réseaux de neurones en fonction des propriétés linguistiques et des types de tâches.
Objectifs du stage
L’objectif de ce stage est tout d’abord pratique et consiste à l’implémentation d’un système d visualisation pour la traduction neuronale . Le stage a aussi des retombées technologiques dans le domaine de la visualisation des réseaux de neurones.
Méthodologie
À partir d’outils tels que NeuroX, appliqués aux différentes architectures transformers proposées par OpenNMT [Klein et al, 2015] nous cartographierons les activations des neurones lorsque les systèmes de TA traduisent les énoncés spécifiques établis à partir de critères linguistiques précis (Isabelle et al, 2017). Des expériences d’ablation et de manipulation de neurones [Dalvi et al, 2019] nous permettront d’identifier les différents phénomènes capturés par les différentes parties du réseau.
On cherchera en particulier à obtenir des corrélations entre les différents types d’activation des neurones et les propriétés textuelles des énoncés à traduire.
Profil recherché
- En cours de formation en Informatique, linguistique informatique, science des données, Sciences de l'ingénieur
- Bonne maîtrise du français et de l’anglais
- Bonne capacité d’organisation et de travail en autonomie comme en équipe
- Une expérience en python est nécessaire, des connaissances en Java ou en R seraient un plus
- Bonne maîtrise du français et de l’anglais
- Bonne capacité d’organisation et de travail en autonomie comme en équipe
- Une expérience en python est nécessaire, des connaissances en Java ou en R seraient un plus
Niveau de qualification requis
Bac + 4/5 et +
Les offres de stage ou de contrat sont définies par les recruteurs eux-mêmes.
En sa qualité d’hébergeur dans le cadre du dispositif des « 100 000 stages », la Région Île-de-France est soumise à un régime de responsabilité atténuée prévu aux articles 6.I.2 et suivants de la loi n°2204-575 du 21 juin 2004 sur la confiance dans l’économie numérique.
La Région Île-de-France ne saurait être tenue responsable du contenu des offres.
Néanmoins, si vous détectez une offre frauduleuse, abusive ou discriminatoire vous pouvez la signaler
en cliquant sur ce lien.
-
EmployeurÉtablissement public à caractère scientifique, culturelle et professionnel
-
Secteur d’activité de la structureEnseignement - Formation - Recherche
-
Effectif de la structurePlus de 250 salariés
-
Type de stage ou contratStage d'immersion en milieu professionnel dans le cadre de la formation professionnelle continue
-
Date prévisionnelle de démarrage
-
Durée du stage ou contratPlus de 4 mois et jusqu'à 6 mois
-
Le stage est-il rémunéré ?Oui
-
Niveau de qualification requis
Bac + 4/5 et + -
Lieu du stageBât. Olympe de Gouges
8 Rue Albert Einstein
75013 PARIS 13E ARRONDISSEMENT -
Accès et transportsMétro ligne 14 : arrêt « Bibliothèque François Mitterrand » Tram T3A : arrêt « Avenue de France » Bus n°89 et 62 : arrêt « Porte de France »