Conjuguer corpus et base de données pour donner accès aux comptabilités urbaines ligériennes
Didier Boisseuil (université de Tours, CeTHiS) et Clément Plancq (MSH Val de Loire)
Journée de l’axe 3 du CeTHiS – 7 décembre 2022 Bases de données : de la conception à l’usage en ligne
Contenu de l’exposé
projet Cormécouli
objectifs
données
résultats
étapes et choix de traitements informatiques
CorMéCoULi
Corpus médiéval des Comptabilités urbaines ligériennes
projet APR IR (2019-2022)
porté par Didier Boisseuil (CeTHiS, Tours), co-porté par Pascal Chareille (CeTHiS, Tours)
inscrit au CeTHiS avec les partenaires suivants : Citeres, Polen, Iramat et MSH VdL
colloque de clôture du 23 au 25 mars 2023
Cormécouli
avec la collaboration de :
Marc Bompaire (IRAMAT, Orléans)
Juliette Dumasy (Polen, Orléans)
Samuel Leturcq (CITERES, Tours)
Thomas Roy (CeTHiS, Tours)
ingénieurs de l’atelier numérique de la MSH VdL :
Marouan Alioui jusqu’au début 2022
Clément Plancq depuis juillet 2021
Cormécouli
Le projet entend faire connaître et valoriser un patrimoine régional méconnu : les comptabilités médiévales des villes ligériennes (Orléans, Tours, Amboise) conservées en Région Centre-Val de Loire, pour les années 1350-1500.
Cormécouli
Le projet vise à numériser ces pièces comptables, les analyser et produire une base de données destinée à faciliter leur consultation, grâce au travail collectif des équipes d’archivistes municipaux et des laboratoires rattachés aux deux universités régionales.
numériser ces pièces comptables
les analyser
produire une base de données destinée à faciliter leur consultation
produire une base de données destinée à faciliter leur consultation
proposer un accès unique aux archives numérisées des trois villes
pouvoir opérer une sélection sur le contenu des pages
Les données
Ville
pièces
pages
Amboise
58
3010
Orléans
67
8154
Tours
61
17 754
Total
186
28 918
Les données
Les données du projet sont des pages numérisées, des fichiers images
proposer un accès unique aux archives numérisées des trois villes
les images doivent être documentées pour pouvoir être accessibles
pouvoir opérer une sélection sur le contenu des pages
pas de recherche possible sur le texte contenu dans ces pages
Comment représenter l’information contenue dans ces manuscrits ?
Modélisation
Il faut en particulier bien garder à l’esprit que lorsqu’on simplifie la réalité, ce qui est inhérent à la modélisation, on fait des choix sur lesquels on doit rester sans cesse vigilant et modeste. — Marion Créhange, Les apports réciproques entre informatique et sciences humaines, 17 juin 2005
Modélisation
documenter à l’aide de métadonnées les pièces d’archives et les pages
pas de transcription in extenso du contenu :
pas de solution de type HTR performante en 2019 sur ce type de document
transcription manuelle trop coûteuse en raison du volume des données
➡️ annotation partielle du contenu
Métadonnées
Sur les pièces d’archive :
cote d’archive (CC565)
ville (Amboise / Orléans / Tours)
boîte / volume
type de pièce (codex / liasse / feuillet / …)
matière (parchemin / papier)
➕ numéro de page
Métadonnées
Un jeu de métadonnées unique pour documenter des pièces d’archive différentes par leur matérialité, leur localisation
Vers un corpus ?
Objectif : permetter un accès unique aux archives des trois villes et les analyser
Annotation du contenu
transcription
relevé des dates
des pièces
celles mentionnées dans le contenu des pages
relevé des chapitres mentionnés dans le contenu
indexation du contenu par mot-clé
vocabulaire libre / vocabulaire contrôlé
par page / paragraphe
Relevé des chapitres
Couverture contemporaine
Incipit
Recepte
Apetissement
Despense
Achat de pierre
Escriptures et proces
Gaiges d’officiers et pensions
Cloture du compte
➡️ Table des matières
Annotation, des choix contraints
La modélisation, comme d’ailleurs les autres étapes du travail des informaticiens, est une démarche progressive : chaque étape peut entraîner une remise en cause ou un recalibrage du modèle ; la démarche revêt ainsi la forme d’un cycle. — Marion Créhange, Les apports réciproques entre informatique et sciences humaines, 17 juin 2005
Indexation du contenu par mot-clé
vocabulaire libre / vocabulaire contrôlé
paragraphe / par pages
« recalibrage » du modèle, de l’outil d’annotation
Indexation du contenu par mot-clé
pas de recherche plein texte possible
mais le vocabulaire contrôlé neutralise les variations de forme (despence/despense)
Stratégies d’annotation
Élaboration d’un jeu de 28 mots-clés
annotation manuelle
annotation semi-automatique
élicitation des régularités d’appariement entre chapitre et mot-clé