Conjuguer corpus et base de données pour donner accès aux comptabilités urbaines ligériennes

Didier Boisseuil (université de Tours, CeTHiS) et Clément Plancq (MSH Val de Loire)

Journée de l’axe 3 du CeTHiS – 7 décembre 2022
Bases de données : de la conception à l’usage en ligne

Contenu de l’exposé

  • projet Cormécouli
  • objectifs
  • données
  • résultats
  • étapes et choix de traitements informatiques

CorMéCoULi

Corpus médiéval des Comptabilités urbaines ligériennes

  • projet APR IR (2019-2022)
  • porté par Didier Boisseuil (CeTHiS, Tours), co-porté par Pascal Chareille (CeTHiS, Tours)
  • inscrit au CeTHiS avec les partenaires suivants : Citeres, Polen, Iramat et MSH VdL
  • colloque de clôture du 23 au 25 mars 2023

Cormécouli

  • avec la collaboration de : 
    • Marc Bompaire (IRAMAT, Orléans)
    • Juliette Dumasy (Polen, Orléans)
    • Samuel Leturcq (CITERES, Tours)
    • Thomas Roy (CeTHiS, Tours)
  • ingénieurs de l’atelier numérique de la MSH VdL :
    • Marouan Alioui jusqu’au début 2022
    • Clément Plancq depuis juillet 2021

Cormécouli

Le projet entend faire connaître et valoriser un patrimoine régional méconnu : les comptabilités médiévales des villes ligériennes (Orléans, Tours, Amboise) conservées en Région Centre-Val de Loire, pour les années 1350-1500.

Cormécouli

Le projet vise à numériser ces pièces comptables, les analyser et produire une base de données destinée à faciliter leur consultation, grâce au travail collectif des équipes d’archivistes municipaux et des laboratoires rattachés aux deux universités régionales.

  1. numériser ces pièces comptables
  2. les analyser
  3. produire une base de données destinée à faciliter leur consultation

produire une base de données destinée à faciliter leur consultation

  • proposer un accès unique aux archives numérisées des trois villes
  • pouvoir opérer une sélection sur le contenu des pages

Les données

Ville pièces pages
Amboise 58 3010
Orléans 67 8154
Tours 61 17 754
Total 186 28 918

CC198, p.7
CCL025, p.1

Les données

Les données du projet sont des pages numérisées, des fichiers images

  • proposer un accès unique aux archives numérisées des trois villes
    • les images doivent être documentées pour pouvoir être accessibles
  • pouvoir opérer une sélection sur le contenu des pages
    • pas de recherche possible sur le texte contenu dans ces pages

Comment représenter l’information contenue dans ces manuscrits ?

Modélisation

Il faut en particulier bien garder à l’esprit que lorsqu’on simplifie la réalité, ce qui est inhérent à la modélisation, on fait des choix sur lesquels on doit rester sans cesse vigilant et modeste.
Marion Créhange, Les apports réciproques entre informatique et sciences humaines, 17 juin 2005

Modélisation

  • documenter à l’aide de métadonnées les pièces d’archives et les pages
  • pas de transcription in extenso du contenu :
    • pas de solution de type HTR performante en 2019 sur ce type de document
    • transcription manuelle trop coûteuse en raison du volume des données

➡️ annotation partielle du contenu

Métadonnées

Sur les pièces d’archive :

  • cote d’archive (CC565)
  • ville (Amboise / Orléans / Tours)
  • boîte / volume
  • type de pièce (codex / liasse / feuillet / …)
  • matière (parchemin / papier)

➕ numéro de page

Métadonnées

Un jeu de métadonnées unique pour documenter des pièces d’archive différentes par leur matérialité, leur localisation

Vers un corpus ?

Objectif : permetter un accès unique aux archives des trois villes et les analyser

Annotation du contenu

  • transcription
  • relevé des dates
    • des pièces
    • celles mentionnées dans le contenu des pages
  • relevé des chapitres mentionnés dans le contenu
  • indexation du contenu par mot-clé
    • vocabulaire libre / vocabulaire contrôlé
    • par page / paragraphe

Relevé des chapitres

  • Couverture contemporaine
  • Incipit
  • Recepte
    • Apetissement
  • Despense
    • Achat de pierre
    • Escriptures et proces
    • Gaiges d’officiers et pensions
  • Cloture du compte

➡️ Table des matières

Annotation, des choix contraints

La modélisation, comme d’ailleurs les autres étapes du travail des informaticiens, est une démarche progressive : chaque étape peut entraîner une remise en cause ou un recalibrage du modèle ; la démarche revêt ainsi la forme d’un cycle.
Marion Créhange, Les apports réciproques entre informatique et sciences humaines, 17 juin 2005

Indexation du contenu par mot-clé

  • vocabulaire libre / vocabulaire contrôlé
  • paragraphe / par pages

« recalibrage » du modèle, de l’outil d’annotation

Indexation du contenu par mot-clé

  • pas de recherche plein texte possible
  • mais le vocabulaire contrôlé neutralise les variations de forme (despence/despense)

Stratégies d’annotation

Élaboration d’un jeu de 28 mots-clés

  1. annotation manuelle

  2. annotation semi-automatique
    élicitation des régularités d’appariement entre chapitre et mot-clé

    • par expertise
    • par analyse automatique

Base de données / corpus

Maquette actuelle

recherche à facettes
  • données json
  • Vue.js + IndexedDB