Partagez sur
STAGE Imprimés de la première modernité, constitution de corpus
Date de mise à jour de l’offre
Sorbonne Université :
Sorbonne Université est une université pluridisciplinaire, de recherche intensive et de rang mondial. Située au cœur de Paris, présente en région, elle est engagée pour la réussite de ses étudiants et s’attache à relever les défis scientifiques du 21e siècle. Grâce aux 55 300 étudiants, 6 400 enseignants-chercheurs et chercheurs et 3 600 personnels administratifs et techniques qui la font vivre au quotidien, Sorbonne Université promeut la diversité, la créativité, l’innovation et l’ouverture sur le monde.
Description de la mission
L'étudiant.e constituera une vérité de terrain pour permettre l’entraînement des outils d’OCR (segmentation, alignement, et transcription à partir de sorties automatiques d’outils comme Kraken). Les documents nécessitant ce passage de l’image au texte sont une sélection d’un corpus de « mazarinades » (imprimés français datant de la Fronde, XVIIe siècle)
- L’étudiant.e pourra ensuite mener une étude exploratoire de ce corpus océrisé bruité en utilisant des outils de TAL ou des algorithmes de classification (SVM ou arbres de décision par exemple).
- On proposera des tests sur d’autres corpus imprimés de la première modernité (XVIe-XVIIIe siècles), ainsi que sur des données d’apprentissage augmentées (ajout de flou, de tâches, etc.)
- Plusieurs tâches de traitement et d’annotation seront proposées (normalisation-modernisation, lemmatisation, etc.) dans l’optique d’une FAIRisation de ces données.
- Enfin, il sera demandé de prendre en main Nakala pour le stockage et l’exposition des premières données obtenues.
À acquérir au cours du stage :
· Mise à niveau en OCR (Optical Character Recognition)
· Informatique et programmation Python
· Packaging des programmes et versionning avec git
· Outils de Traitement Automatiques des Langues (T.A.L.) : TXM, gate, Spacy
· Machine Learning : sklearn (librairie Python)
· Consolidation des connaissances en langue et littérature du XVIIe siècle.
- L’étudiant.e pourra ensuite mener une étude exploratoire de ce corpus océrisé bruité en utilisant des outils de TAL ou des algorithmes de classification (SVM ou arbres de décision par exemple).
- On proposera des tests sur d’autres corpus imprimés de la première modernité (XVIe-XVIIIe siècles), ainsi que sur des données d’apprentissage augmentées (ajout de flou, de tâches, etc.)
- Plusieurs tâches de traitement et d’annotation seront proposées (normalisation-modernisation, lemmatisation, etc.) dans l’optique d’une FAIRisation de ces données.
- Enfin, il sera demandé de prendre en main Nakala pour le stockage et l’exposition des premières données obtenues.
À acquérir au cours du stage :
· Mise à niveau en OCR (Optical Character Recognition)
· Informatique et programmation Python
· Packaging des programmes et versionning avec git
· Outils de Traitement Automatiques des Langues (T.A.L.) : TXM, gate, Spacy
· Machine Learning : sklearn (librairie Python)
· Consolidation des connaissances en langue et littérature du XVIIe siècle.
Profil recherché
· Connaissances de base en TAL et en langage de programmation Python
· Appétence pour le livre ancien et éventuellement connaissances sur les spécificités ortho- et typographiques du français de la première modernité (XVIe-XVIIIe siècle)
· Connaissances basiques en HTML/XML et en TEI
· Appétence pour le livre ancien et éventuellement connaissances sur les spécificités ortho- et typographiques du français de la première modernité (XVIe-XVIIIe siècle)
· Connaissances basiques en HTML/XML et en TEI
Niveau de qualification requis
Bac + 4/5 et +
Les offres de stage ou de contrat sont définies par les recruteurs eux-mêmes.
En sa qualité d’hébergeur dans le cadre du dispositif des « 100 000 stages », la Région Île-de-France est soumise à un régime de responsabilité atténuée prévu aux articles 6.I.2 et suivants de la loi n°2204-575 du 21 juin 2004 sur la confiance dans l’économie numérique.
La Région Île-de-France ne saurait être tenue responsable du contenu des offres.
Néanmoins, si vous détectez une offre frauduleuse, abusive ou discriminatoire vous pouvez la signaler
en cliquant sur ce lien.
-
EmployeurSorbonne Université
-
Secteur d’activité de la structureEnseignement - Formation - Recherche
-
Effectif de la structurePlus de 250 salariés
-
Site internet de la structurehttps://www.sorbonne-universite.fr
-
Type de stage ou contratStage pour lycéens et étudiants en formation initiale
-
Date prévisionnelle de démarrage
-
Durée du stage ou contratPlus de 4 mois et jusqu'à 6 mois
-
Le stage est-il rémunéré ?Oui
-
Niveau de qualification requis
Bac + 4/5 et + -
Lieu du stageMaison de la recherche - Sorbonne Université
28 rue serpente
75006 PARIS 6E ARRONDISSEMENT -
Accès et transportsmetro : ligne 4, arrêt Odéon ligne 10, arrêt Maubert Mutualité ou Cluny la Sorbonne / RER : ligne B, arrêt Luxembourg