STAGE Imprimés de la première modernité, constitution de corpus

Date de mise à jour de l’offre

Sorbonne Université :

Sorbonne Université est une université pluridisciplinaire, de recherche intensive et de rang mondial. Située au cœur de Paris, présente en région, elle est engagée pour la réussite de ses étudiants et s’attache à relever les défis scientifiques du 21e siècle. Grâce aux 55 300 étudiants, 6 400 enseignants-chercheurs et chercheurs et 3 600 personnels administratifs et techniques qui la font vivre au quotidien, Sorbonne Université promeut la diversité, la créativité, l’innovation et l’ouverture sur le monde.

Description de la mission

L'étudiant.e constituera une vérité de terrain pour permettre l’entraînement des outils d’OCR (segmentation, alignement, et transcription à partir de sorties automatiques d’outils comme Kraken). Les documents nécessitant ce passage de l’image au texte sont une sélection d’un corpus de « mazarinades » (imprimés français datant de la Fronde, XVIIe siècle)
- L’étudiant.e pourra ensuite mener une étude exploratoire de ce corpus océrisé bruité en utilisant des outils de TAL ou des algorithmes de classification (SVM ou arbres de décision par exemple).
- On proposera des tests sur d’autres corpus imprimés de la première modernité (XVIe-XVIIIe siècles), ainsi que sur des données d’apprentissage augmentées (ajout de flou, de tâches, etc.)
- Plusieurs tâches de traitement et d’annotation seront proposées (normalisation-modernisation, lemmatisation, etc.) dans l’optique d’une FAIRisation de ces données.
- Enfin, il sera demandé de prendre en main Nakala pour le stockage et l’exposition des premières données obtenues.

À acquérir au cours du stage :
· Mise à niveau en OCR (Optical Character Recognition)
· Informatique et programmation Python
· Packaging des programmes et versionning avec git
· Outils de Traitement Automatiques des Langues (T.A.L.) : TXM, gate, Spacy
· Machine Learning : sklearn (librairie Python)
· Consolidation des connaissances en langue et littérature du XVIIe siècle.

Profil recherché

· Connaissances de base en TAL et en langage de programmation Python
· Appétence pour le livre ancien et éventuellement connaissances sur les spécificités ortho- et typographiques du français de la première modernité (XVIe-XVIIIe siècle)
· Connaissances basiques en HTML/XML et en TEI

Niveau de qualification requis

Bac + 4/5 et +
  • Employeur
    Sorbonne Université
  • Secteur d’activité de la structure
    Enseignement - Formation - Recherche
  • Effectif de la structure
    Plus de 250 salariés
  • Site internet de la structure
    https://www.sorbonne-universite.fr
  • Type de stage ou contrat
    Stage pour lycéens et étudiants en formation initiale
  • Date prévisionnelle de démarrage
  • Durée du stage ou contrat
    Plus de 4 mois et jusqu'à 6 mois
  • Le stage est-il rémunéré ?
    Oui
  • Niveau de qualification requis

    Bac + 4/5 et +
  • Lieu du stage
    Maison de la recherche - Sorbonne Université
    28 rue serpente
    75006 PARIS 6E ARRONDISSEMENT
  • Accès et transports
    metro : ligne 4, arrêt Odéon ligne 10, arrêt Maubert Mutualité ou Cluny la Sorbonne / RER : ligne B, arrêt Luxembourg