Présentation

Ouvrir les données de recherche est un travail chronophage et encore peu reconnu dans l’évaluation individuelle des scientifiques, même si cette tendance s’inverse progressivement. Il est légitime de s’interroger sur le devenir des données de recherche mises à disposition publiquement et sur leur utilité pour d’autres scientifiques. Trois lauréats et lauréates du prix Science Ouverte des données de la recherche, mention « réutilisation de données » reviennent sur leur projet et sur la manière dont la mise à disposition de jeux de données ouverts par d’autres ont permis de donner naissance à de nouveaux projets de recherche.

Ce webinaire est préparé par Laetitia Bracco (Université de Lorraine), Delphine Du Pasquier (École des Ponts ParisTech), Cyril Heude (Sciences Po Paris), Doriane Lemeltier (CEA Saclay), Caroline-Sophie Donati (MSH SUD / Université Paul Valéry Montpellier 3), Ling Li (Université Lyon 2), Cynthia Pedroja (Campus Condorcet) et Jozefina Sadowska (INRIA).

 Jeudi 28 mars 2024 de 14h à 16h

 INSCRIPTION

  Ce webinaire sera enregistré puis diffusé sur la chaine Youtube du GTSO-Données.

Programme

Le projet HTR-United - partager des données pour la reconnaissance de texte automatique, Thibault Clérice - co-lauréat du Prix 2023

Le projet HTR-United est un catalogue permettant le partage et la découverte de données d’entrainement pour la transcription et la segmentation automatique de documents, dont les manuscrits. Ce projet met à disposition de nombreux supports avec des jeux variés de données d’entrainement, mais également les codes et modèles validés (Machine Learning pour la reconnaissance de texte) résultant de l’entrainement sur ces mêmes jeux de données. Il favorise la reconnaissance et la réutilisation de ces données répondant à tous les principes FAIR (Facile à trouver, Accessible, Interopérable, Réutilisable).

 

Le projet Richelieu - Histoire du quartier, Charlotte Duvette, lauréate 2023

Récompensé en 2023 par le prix Science ouverte du ministère de l'Enseignement supérieur et de la recherche, le projet Richelieu. Histoire du quartier consiste à étudier le patrimoine matériel et immatériel d’un quartier parisien (1750-1950). Le volet numérique du projet a la particularité de porter sur une échelle spatiale réduite et sur un corpus de petites dimensions (environ 4000 images), produit manuellement. À partir de ce corpus, l'équipe élabore un protocole réplicable d’analyse de l’évolution urbaine en étudiant le quartier par ses représentations iconographiques et cartographiques. La réplicabilité de cette approche a conduit à définir rigoureusement une politique de science ouverte, dans une conception cyclique de la donnée, notamment grâce aux outils mobilisés (API, SIG, base PostgreSQL...) et aux types de données traités (texte, images, données spatiales...).

 

Le projet Écosystème TRF-GIS : un data paper pour un système d’information géographique de la Troisième République, Victor Gay, lauréat 2022

Ce projet retrace l’évolution annuelle des cartes et statistiques des structures administratives de la France de la Troisième République (1870-1940). Cette intervention propose un retour d’expérience sur les enjeux et modalités de la rédaction d’un data paper ainsi que de la mise à disposition des données de la base TRF-GIS—un système d’information géographique de la France de la Troisième République. Cette base de données met à disposition nomenclatures et shapefiles annuels correspondant aux circonscriptions administratives de France métropolitaine de 1870 à 1940. Elle décrit ses circonscriptions administratives générales (départements, arrondissements, cantons) ainsi que ses circonscriptions militaires, judiciaires, pénitentiaires, électorales, académiques et ecclésiastiques. Le jeu de données a été publié à l’initiative de Victor Gay sur data.gouv.fr.

Intervenants

 

Thibault Clérice occupe le poste de Starting Research Position au sein de l’équipe ALMAnaCH au centre Inria de Paris. D'abord ingénieur dans des projets d'humanités numériques, à Londres et à Leipzig, Thibault Clérice a ensuite dirigé pendant cinq ans le master Technologies Numériques Appliquées à l'Histoire de PSL. Il a obtenu son doctorat en lettres et civilisation ancienne en y traitant la détection automatique des métaphores sexuelles en latin par réseaux neuronnaux. Depuis 2017, il travaille par ailleurs sur la questions de la reconnaissance automatique de texte manuscrit, en particulier pour les documents médiévaux, à travers des projets comme CREMMA, HTRomance ou HTRogène. Depuis 2023, il a rejoint l'équipe ALMAnaCH à Inria pour y travailler sur la question de constitution de larges corpus (COLaF) et sur des questions en interface entre les humanités numériques et le traitement automatique des langues.

Charlotte Duvette est historienne de la ville et de l’architecture, dirige depuis 2021 le projet Richelieu. Histoire du quartier à l’Institut national d’histoire de l’art. Ses travaux concernent les transformations de l’habitat, les représentations et les publications dont il est l’objet, entre le XVIIIe et le XIXe siècle. Sa thèse Les transformations de Paris étudiées à travers l’évolution de la maison urbaine de 1780 à 1810 : projets, publications et réalité́ bâtie, soutenue en 2022 à l’université Paris 1 Panthéon-Sorbonne a reçu en 2023 le Prix Lambert et le second prix de la recherche de l’Académie d’Architecture. Elle participe également à l’enseignement de l’histoire de l’art et des humanités numériques dans plusieurs universités et a notamment co-dirigé le catalogue et  l’exposition Napoléon et Paris : rêves d’une capitale, Paris Musées (2015) et le livre Intérieurs parisiens, du Moyen Âge à nos jours, Parigramme (2016).

Victor Gay est enseignant-chercheur au département de sciences sociales et comportementales de l’école d’économie de Toulouse, Université Toulouse 1 Capitole.

Personnes connectées : 1 Vie privée
Chargement...