STAGE Analyse et segmentation automatique de la mise en page de manuscrits astronomiques médiévaux (arabe et latin) par apprentissage profond

Date de mise à jour de l’offre

CNRS pour Sorbonne Université :

Le laboratoire SYRTE-UMR8630 est une unité mixte du CNRS, de l’Observatoire de Paris et de Sorbonne Université, implantée sur le site parisien de l’Observatoire de Paris. L’unité comte 95 personnes, dont 57 permanents incluant 13 ITA CNRS. L’unité mène des recherches et assure des services scientifiques dans les domaines de l’astronomie fondamentale, la métrologie du temps et des fréquences et de l’histoire de l’astronomie. Les services fournis par le laboratoire sont utilisés par l’état (le CNES, la Marine, etc), l’industrie, la recherche, le grand public en France et à l’étranger. Elle dispose d’un pôle informatique important (8 informaticiens) qui travaille pour l’essentiel sur projet.

Description de la mission

Encadré par Matthieu Husson (ALFA) et Mathieu Aubry (IMAGINE), ce stage aura pour objectif d’établir un outil d’analyse et de segmentation automatique de la mise en page de manuscrits astronomiques médiévaux (arabe et latin) au moyen de méthodes d’apprentissage profond. Il s’appuiera sur une expertise établie sur ces questions au sein de l’équipe IMAGINE et sur les jeux de données construits au sein du projet ERC ALFA.
Produire avec des méthodes d’apprentissage un algorithme de segmentation fine de mise en page qui soit adapté à l’analyse de sources historiques manuscrites en arabe et en latin capable de délimiter au moins les éléments suivants : texte ; diagrammes, tables, carré astrologique. Outre qu’il s’agit d’une première étape pour de nombreuses analyses plus fines des sources (HTR, vectorialisation des diagrammes, etc.), un tel outil permettrait en lui-même de dégager de nouveaux faits sur l’histoire de l’astronomie concernant l’évolution de la structure intellectuelle des manuscrits et l’histoire de la transmission entre les traditions arabes et latines au moyen âge.

Le défi principal de ce projet tient essentiellement à la complexité du jeu de données à traiter : diversité des supports matériel et des écritures manuscrites (parchemin-papier, arabe-latin, corpus couvrant huit siècles d’histoire de l’astronomie) diversités des types d’images (numérisation directe de la source historique selon différente techniques, numérisation de microfilms…). Le succès du projet nécessitera donc de traiter le problème de la généralisation de l'algorithme à partir d'un minimum de données d'entraînement, idéalement uniquement à partir de données synthétiques, un des défis majeurs pour l'application pratique des techniques de vision artificielles.

La phase d’analyse de la diversité du jeu de donnée sera cruciale en vue d’établir la meilleure stratégie possible pour la résolution de ce problème en apprentissage. Cette analyse devra permettre notamment de mettre en place un générateur de données synthétiques en adéquation avec le modèle d’apprentissage sélectionné (Structure du réseau, fonction de cout, méthode d’optimisation) et le jeu de donnée réel auquel l’algorithme devra se généraliser.

Profil recherché

● M1 en sciences des données
● compétences sur la vision artificielle
● Python (Pytorch)
● Capacité au travail en équipe
● Anglais, lu écrit

Niveau de qualification requis

Bac + 4/5 et +
  • Employeur
    CNRS pour Sorbonne Université
  • Secteur d’activité de la structure
    Enseignement - Formation - Recherche
  • Effectif de la structure
    Plus de 250 salariés
  • Site internet de la structure
    http://www.cnrs.fr
  • Type de stage ou contrat
    Stage pour lycéens et étudiants en formation initiale
  • Date prévisionnelle de démarrage
  • Durée du stage ou contrat
    Plus de 4 mois et jusqu'à 6 mois
  • Le stage est-il rémunéré ?
    Oui
  • Niveau de qualification requis

    Bac + 4/5 et +
  • Lieu du stage
    Observatoire de Paris 77 avenue Denfert Rochereau
    75014 PARIS 14E ARRONDISSEMENT
  • Accès et transports
    Accès en bus : Lignes 38, 83 ou 91 et Lignes 38, 68 ou 88 - Accès en métro : Lignes 4 et 6 : Station Denfert-Rochereau - Accès en RER B : Stations Denfert-Rochereau ou Port-Royal