STAGE Comparaison de résultats d’outils de Détection d’Entités Nommées

Date de mise à jour de l’offre

Sorbonne Université - Faculté des Lettres :

Héritière du Collège fondé en 1257 par Robert de Sorbon, la Faculté des Lettres est aujourd’hui l’une des facultés les plus complètes et des plus importantes, en France et dans le monde, dans le domaine des arts, langues, lettres, sciences humaines et sociales. Bénéficiant d’une très forte notoriété internationale, la Faculté des Lettres a noué de nombreux partenariats avec les meilleures universités étrangères. Elle permet à ses étudiantes et étudiants d’enrichir leur parcours de formation par une ouverture sur le monde. Elle développe également des collaborations de formation et de recherche avec des universités de renom en Europe, en Amérique latine, en Chine Enfin, elle est la première université française à être implantée dans la capitale des Emirats arabes unis, à Abu Dhabi. De même à Suzhou, près de Shanghai, elle assure l’enseignement des sciences humaines à l’Institut franco-chinois (IFC) Renmin, dont elle est partenaire.

Description de la mission

- L’extraction d’entités nommées (NER) est un domaine très actif du traitement Automatique des Langues en particulier pour la reconnaissance d’entités de lieux ou de personnes. Seulement, les progrès affichés par les systèmes concernent principalement des cas très spécifiques en terme de langues d’application, de bruitage des données (données standard ou non …) ou encore de types de données utilisées (registres de langue, genre textuels…). Dès lors, il est difficile pour les utilisateurs finaux, notamment dans le domaine des humanités numériques, de trouver l’outil approprié sans devoir sacrifier leurs besoins aux limites des systèmes considérées surtout que les scores affichés par les systèmes sont souvent obtenus sur des données d’évaluation très spécifiques, en “conditions de laboratoire”. Nombre de systèmes ne font que fournir des mentions d’entités nommées dans un texte déjà formaté, rares sont les outils capables de prendre un texte non normalisé et de le traiter de bout en bout, jusqu’à la production d’un résultat structuré selon un format normé en passant par l’analyse. Divers systèmes ont été conçus sur les même données ou sur des données similaires, quelques études comparent différentes approches (Augenstein et al. 2017, Dupont 2017), mais assez peu étudient l’intersection des outils et, à l’inverse, leur complémentarité.
- Les systèmes existants sont souvent appris sur du texte bien formé (domaine sources) comme les articles de journaux (Sagot et al. 2012). Avec l'arrivée du Web 2.0 et les contenus générés par les utilisateurs, de plus en plus de tâches (dont la reconnaissance d’entités nommées) portent attention sur ces données bruitées et souvent mal formées (Ritter et al. 2012). L’utilisation d’un tel système (de reconnaissance d’entités nommées par exemple) sur ces données bruitées (domaine cible) nécessite donc une adaptation au domaine (Xiao et al. 2015, Tian et al. 2016). Aucune définition des entités nommées ne fait à l’heure actuelle consensus, malgré divers efforts pour proposer un cadre général (Ehrmann 2008, Sekine & Ranchlod 2009, Grouin et al. 2011). Bien souvent, ces types génériques ne correspondent pas exactement à des types d’entités d’intérêt, où une couche supplémentaire de sémantique est souvent nécessaire. Bien souvent, de nouveaux systèmes sont créés depuis zéro pour répondre à cette demande. Au meilleur de notre connaissance, aucune étude n’a été montré sur l’adaptation d’un schéma d’annotation général ou d’outils.

Profil recherché

L'objectif est de fusionner et comparer sur des corpus variés les résultats d’outils existants pour deux langues autres que l’anglais (Allemand, Français, Chinois ...). Ceci ne nécessite pas d’être un locuteur des langues considérées même si ça peut être un plus.
Master 1 ou master 2 Traitement Automatique des langues , Humanités Numériques ou profil équivalent
- Langage de script (Python, Perl …).
- Notions en Traitement Automatique du Langage (TAL).
- Connaissance en apprentissage Automatique.
- Connaissance d’un ou plusieurs outils d’extraction d’Entités Nommées.

Niveau de qualification requis

Bac + 4/5 et +
  • Employeur
    Sorbonne Université - Faculté des Lettres
  • Secteur d’activité de la structure
    Enseignement - Formation - Recherche
  • Effectif de la structure
    Plus de 250 salariés
  • Site internet de la structure
    http://lettres.sorbonne-universite.fr
  • Type de stage ou contrat
    Stage pour lycéens et étudiants en formation initiale
  • Date prévisionnelle de démarrage
  • Durée du stage ou contrat
    Plus de 4 mois et jusqu'à 6 mois
  • Le stage est-il rémunéré ?
    Oui
  • Niveau de qualification requis

    Bac + 4/5 et +
  • Lieu du stage
    Laboratoire STIH, Sens Texte Informatique Histoire, équipe de Linguistique Computationnelle Maison de la Recherche
    28 rue Serpente
    75006 PARIS 6E ARRONDISSEMENT
  • Accès et transports
    Cluny - La Sorbonne (ligne 10) Odéon (lignes 4 et 10) St Michel Notre Dame (RER B et C)