Paléographie numérique : plus de numérique que de paléographie ? Ou des instruments nouveaux pour s’attaquer aux questions traditionnelles d’une science déjà ancienne ?

[Màj 1-08-2011 : Version espagnole par Néstor Vigil Montes sur le blog Conscriptio]
[Màj1-09-2011 : Site de l’atelier exploratoire avec résumés et présentations]

L’atelier exploratoire Paléographie numérique (« ESF Workshop Digital Palaeography), financé par l’ESF et organisé par Malte Rehbein, s’est tenu à l’université de Wurtzbourg, où les humanités numériques connaissent une vitalité importante. Réunissant 24 chercheurs de 9 pays d’Europe et des Etats-Unis, il a été ouvert par une lumineuse intervention du Prof. Overgaauw (« Palaeography: old questions and new technology »), rejetant complètement l’idée d’une crise de la paléographie : la présence de jeunes chercheurs et l’intérêt dont jouissent les études sur la culture matérielle et intellectuelle du Moyen Âge font de la paléographie un champ disciplinaire vivant et actif, qui a le devoir d’éclairer des chercheurs venus aux manuscrits avec d’autres questionnements.

Il rejette partiellement l’idée que les humanités numériques renouvellent les questionnements et souligne  que l’intérêt des nouvelles technologies est d’offrir l’espoir de réponses satisfaisantes à d’anciennes questions, dont la résistance à l’analyse traditionnelle est en partie la cause même des doutes des paléographes sur la pertinence et l’efficacité de leurs méthodes. Après une liste de problèmes encore insolubles (dont le premier est « comment trouver des critères fiables pour dater et localiser une écriture ? »), il dresse à traits suggestifs un panorama des progrès positifs obtenus dans les connaissances paléographiques depuis 50 ans, tant par une approche traditionnelle (création et diffusion des écritures caroline et humanistique) que par la codicologie quantitative.

Cette opposition des acquis récents et des blocages permet d’appréhender d’une part la notion de progrès en sciences humaines, avec des réponses toujours frappées d’incertitude, et d’autre part la dualité de la pratique paléographique, au croisement de l’érudition positive (scholarship) et de l’œil (connoisseurship). Ce dernier pourrait être entraîné ou suppléé par les technologies d’analyse d’image (T. Schaβan).

Dans les voies actuelles de la paléographie (paléographie statistique, analyse d’image numériques et constitution de larges bases de données), il souligne que l’emploi des technologies numériques modifie les usages de la recherche, mais surtout exige un apprentissage supplémentaire et regrette que certains chercheurs « ne retrouvent pas le chemin vers leur objet initial » pour s’enfermer dans des questions auto-référentielles sans plus essayer de répondre à des questions historiques. Il invite aussi les chercheurs à venir ouvrir les manuscrits, car tous ne sont pas numérisés et la plus grande part n’a jamais fait l’objet d’étude approfondie.

Après cette communication publique, mettant clairement en lumière les enjeux des nouvelles technologies pour la paléographie, des sessions thématiques ont suivi avec des présentations servant à présenter des projets en cours et leurs résultats, mais surtout à ouvrir le débat sur les attentes et les espoirs suscités par des analyses et méthodologies innovantes.

Lettre, texte, forme : profil graphémique et analyse d’image

Quatre contributions décrivent l’éventail des possibilités de traitement du texte et de l’image dans l’univers numérique : l’association par transcription lettre à lettre (W. Scase), l’analyse graphique des lettres et l’OCR (T. Schaβan), l’élaboration d’une base de données des formes de lettres (S. Brookes), l’analyse graphique du complexe graphique et la visualisation des grandes masses de données.

Wendy Scase (Université de Birmingham), dans une communication intitulée « New Methodologies for effective exploitation of Digital Manuscript Corpora »présente deux projets : Manuscripts of the West Midlands – A Catalogue of Vernacular Manuscript Books of the English West Midlands, c. 1300 – c. 1475 et The Vernon Manuscript Project, visant à la publication intégrale du manuscrit Oxford, Bodl. Libr., MS Eng. Poet. A.1, un « monstre » de la littérature anglaise : un grand folio de 350 ff., écrit vers 1400, pesant  22 kg et contenant 370 textes, dont la numérisation a été facturée pas moins de 25 000 €. Dans un calendrier limité, la transcription, très proche de l’original, a, comme pour Chaucer (Robinson-Solopova) renoncé à l’étude des allographes, mais permet néanmoins de réinterroger l’histoire du manuscrit en étudiant les « profils graphiques » des intervenants (e.g. emploi de Y et yogh). L’utilisation d’un format qui n’est pas la TEI et la publication sous forme de DVD ont suscité une vive discussion. La publication des pratiques d’encodage ainsi que la mise à disposition des fichiers XML bruts dans l’entrepôt de l’université de Birmingham devraient permettre aux futurs chercheurs de produire des données interopérables et de requalifier les données, notamment par l’analyse allographétique sur des passages choisis. L’intervention soulignait par ailleurs les liens à réaliser entre les nombreuses ressources disponibles et déjà numérisées, tout en soulevant le problème crucial, surtout au Royaume-Uni, des droits de réutilisation et de représentation des images de manuscrits. »

Torsten Schaßan est intervenu sur le thème « OCR for manuscripts and early prints », pour présenter les conclusions du groupe de travail sur l’OCR initié par le DBV (Deutscher Bibliotheksverband) sur un thématique liée à celle du projet européen Impact. Deux logiciels sont évoqués : Abbyy Finereader, qui obtient des résultats pertinents, mais a des difficultés à travailler avec différentes fontes (gothiques et romaines) et à apprendre, et BIT Alpha, nécessitant un long entrainement et un intense paramétrage, mais obtient au final de meilleurs résultats et ouvre la voie à une comparaison des fontes de différents imprimeurs (projet « Helmstedt imprints » couvrant 5000 impressions du 17e s.) et, si l’on étend le constat, aux écritures manuscrites régulières et non cursives.

Stewart Brookes et Peter Stokes (King’s College, Londres) ont présenté le projet « Digital Resource for Palaeography, Manuscripts and Diplomatic », DigiPal pour les intimes, financé par l’European Research Council. Posant l’accent sur les écritures vernaculaires anglaises du 11e siècle (1200 mains), la petite équipe (2 chercheurs, 1 doctorant et 1 ETP de développement) entend tout de même développer une ontologie de l’alphabet latin et de sa description et créer une infrastructure en ligne pour l’étude de l’écriture, avec des fonctionnalités de visualisation et de navigation (frise du développement des lettres, navigation d’une lettre à son contexte sur la page, etc.). L’application de méthodes computationnelles pour analyser les similarités entre les différents spécimens d’une même lettre pourra à terme être envisagée.

Matthieu Exbrayat, dans  « Spatial exploration tools in the GRAPHEM Project », a brièvement présenté le projet ANR GRAPHEM (2008-2011), qui visait à établir automatiquement une classification des écritures médiévales en alphabet latin à partir d’un ensemble de près de 10 000 spécimens photographiques, et qui s’est achevé par un grand colloque international « Paléographie fondamentale, paléographie expérimentale : l’écriture entre histoire et science » en avril 2011 à l’IRHT. Il a montré les principes et interfaces des 4 moteurs de recherche de similarité développés dans le cadre de ce projet et l’outil de visualisation des distances entre spécimens.  Cette démonstration a parfaitement mis en évidence que la visualisation des résultats est un instrument heuristique primordial vu la complexité et la masse des données à analyser.

Matériaux

Paola Errani (Biblioteca Malatestiana, Césène), dans une intervention intitulée « Parchment and Scribes in the Malatestian Scriptorium », a présenté la méthodologie et les résultats de l’étude des 343 manuscrits en parchemin de chèvre et de format in-folio commandés par Malatesta. Après plusieurs mois de travail et la mesure de l’épaisseur des peaux en 6 endroits sur chaque bifeuillet de chaque manuscrit (78360 mesures prises en compte), les conclusions sont d’une part que les observations générales sont confirmées (les bifeuillets extérieurs sont plus épais et les derniers cahiers sont plus épais et plus réguliers). Dans un ensemble où l’épaisseur moyenne varie de 125,3 microns à 181,5 microns, avec une moyenne à 158,9 et une médiane très proche à 159,5 microns, les deux principales conclusions sont que l’homogénéité diminue avec l’augmentation de la taille du manuscrit (E. Overgaauw propose deux explications : soit la bête étant plus grande, la peau est plus épaisse, soit les autres peaux ont été découpées de telle sorte que la partie extérieure – plus épaisse ?- a disparu) et que les manuscrits exécutés pour Malatesta sont globalement moins fins et moins homogènes que ceux réalisés dans le même environnement et par les mêmes scribes pour d’autres commanditaires.

Une autre étude sur le parchemin est présentée par Timothy Stinson (Université de Caroline du Nord) : « DNA Analysis and the Study of Medieval Parchment Books ». L’analyse de l’ADN mitochondrial des cellules de parchemin ouvre des perspectives nouvelles sur la datation et la localisation des parchemins, qui, jusqu’à présent, sont infiniment moins documentés que les papiers et les filigranes. En effet, le processus de transformation de la peau en parchemin n’altère pas substantiellement le matériel génétique, de sorte que les 600 000 manuscrits médiévaux constituent de loin le plus grand gisement de données génétiques des temps médiévaux et la constitution d’une grande base de données est envisageable, permettant d’étudier les parentés entre peaux et le commerce du parchemin même si, pour l’heure, les données sont trop fragmentaires pour être utilisées en ce sens, mais permettent déjà de vérifier la structure matérielle de manuscrits ou l’appartenance de fragments à une même peau. Une exploration systématique sur les manuscrits datés ou localisés serait une voie à suivre.

Technologie numérique et reconstitution des textes et manuscrits

Deux communications ont mis en lumière l’intérêt des technologies numériques pour la reconstitution des manuscrits et textes endommagés : celles de Lior Wolf (« Identifying Join Candidates in the Cairo Genizah ») et Mélanie Gau et Robert Slabatnig (« Investigation of Historic Documents with Focus on Automatic Layout and Character »). Les deux s’occupent de domaines linguistiques à l’écriture articulée et non liée : hébreu pour le premier, glagolitique pour le second. L. Wolf a montré comment l’informatique permet de repérer des fragments provenant d’un même manuscrit dans l’immense ensemble de 250 000 fragments dispersés provenant de la génizah du Caire. Le moteur de recherche de similarité est entraîné sur les identifications déjà réalisées (pour définir les critères qui permettent ou non de rapprocher des fragments) et l’analyse porte autant sur la mise en page (hauteur des fragments, hauteur de l’interligne et des lettres, largeur des colonnes, densité des lignes) que sur l’écriture. Les résultats sont très positifs : malgré un taux d’erreur encore assez élevé dans les paires proposées, l’opération de vérification rend possible un travail autrement inenvisageable et permet des découvertes d’importance pour l’histoire de la théologie juive (attribution et identification de textes). En outre, le travail sur les écritures s’effectue avec un découpage des signes graphiques en groupes graphématiques et calculs de similarité qui permet, entre autres, une comparaison lettre à lettre (ou ensemble de traits à ensemble de traits) et génère une typologie automatisée qui recoupe très largement les catégories traditionnelles (écriture carrée ashkénaze / italienne / orientale / espagnole ; semi-cursive orientale / espagnole etc.) et où les ambiguïtés demeurent pertinentes paléographiquement.

Melanie Gau et Robert Sablatnig (« Investigation of Historic Documents with Focus on Automatic Layout and Character ») ont présenté les projets Sinai I et Sinai II, dirigés par le prof. H. Miklas, et visant à la documentation, à l’analyse et à l’édition des manuscrits glagolitiques des 11e-13e s. et découverts au Mont Sinaï en 1975. Extrêmement importants d’un point de vue linguistique et culturel, ces manuscrits posent le défi d’un état de conservation dégradé, de palimpsestes et de la transformation chimique de l’encre. Pour répondre à ces défis, des techniques extrêmement élaborées ont été mises au point : chaque page est photographiée 12 fois dans différents spectres de luminosité (infra-rouge, visible, ultra-violet). Pour l’aide à la transcription, un processus de reconstruction des textes palimpsestiques grâce à l’effacement numérique du texte ajouté et à une reconstitution des traits recouverts a été développé, et, en outre, une description de chaque caractère de l’alphabet glagolitique est formalisée (avec le nombre de nœuds, traits etc.), afin de permettre à la machine de proposer une transcription à partir des fragments encore visibles de lettres. Ce procédé ne permet certes pas de reconstruire le ductus, mais ses résultats sont très satisfaisants.

Interopérabilité et open data

La communication de P. Errani a permis de mettre en lumière l’importance de protocoles de mesures comparables et de mise à disposition des informations brutes dans des entrepôts pérennes de données. Le risque existe que celles-ci soient mal interprétées et prises à tort comme comparaison et elles doivent donc être documentées (tant pour les protocoles de mesure que pour les formats, etc.)

Cet impératif a particulièrement été mis en lumière par Ségolène Tarte (« Interpreting Ancient Documents: Of Avatars, Uncertainty, and Knowledge Creation »). S’attachant au processus interprétatif à l’œuvre dans les sciences humaines et, notamment, au travail à partir de sources numériques, sa communication a mis en lumière que la numérisation comme l’édition reposent sur des choix, qui font passer une réalité d’un système de signification à un autre. D’une part l’objet numérique, loin d’être une reproduction, est une interprétation bidimensionnelle discrète d’une réalité tridimensionnelle continue et une recréation d’un objet différent, agissant à un autre niveau interprétatif (« avatar » ou « salmu »). D’autre part, la lecture elle-même procède d’une perception double d’une forme et d’un sens, avec une oscillation et une confrontation perceptive féconde. Cette complexité des processus amenant à une décision devrait inciter à créer des protocoles de documentation et d’enregistrement, permettant la création d’arbres de décision et la réévaluation des conclusions en cas de changement de modèle (e.g. identification de nouvelles morphologies dans l’ancienne cursive romaine). Elle plaide pour l’abandon d’une prétendue objectivité chiffrée pour assumer une subjectivité mesurée, formalisée dans les modèles de données.

Les mêmes questionnements sur l’incertitude et sa mesure sont apparus avec T. Schaβan, soulignant qu’il n’y a pas de mesure certaine de la qualité de l’ocr (au mot ? au caractère ? que faire des abréviations ? à quel dictionnaire confronter le résultat océrisé des textes anciens et à forte variabilité graphématique ?).

La citabilité de l’information nécessite, outre une documentation sur le processus de création et les incertitudes induites, une maîtrise de la granularité et l’insertion d’ancres et coordonnées de citation (en particulier pour le résultat d’OCR en ALTO, cf. T. Schaβan).

Questions et perspectives : humanités numériques et médiévistique, paléographie, formats et outils

Par le fait d’un heureux hasard, cinq membres du Bureau du Digital Medievalist (Malte Rehbein, Peter Stokes, Torsten Schaßan, Marjorie Burghart, Dominique Stutzmann) étaient présents. Or, l’intervention de S. Tarte l’a bien rappelé, la paléographie et les humanités numériques ne concernent pas que la période médiévale. Le dynamisme de cette approche, mais aussi le cloisonnement en champs disciplinaires et méthodologiques apparaissent.

Selon un thème cher à plusieurs d’entre nous, les formats descriptifs ont été abordés (TEI, ALTO etc.). Surtout un consensus a régné sur la nécessité d’aborder le problème de façon pragmatique : des outils doivent exister pour permettre aux chercheurs d’enregistrer les données nécessaires de façon aisée et uniforme ou pour comprendre leurs résultats.

Du côté des formats, c’est notamment un format descriptif des écritures et l’élaboration d’une ontologie qui est souhaitée. L’enregistrement formalisé de caractéristiques descriptives plus précises seraient également souhaité pour la codicologie en TEI (épaisseur du parchemin et son lieu de mesure ; codicologie matérielle et construction des cahiers).

Du côté des outils, tant de constitution des données que de leur exploitation, le besoin est criant. D’une part, ils permettraient de partager les bonnes pratiques et l’utilisation de formats communs. Mais surtout, leur absence est ce qui explique, pour s’en tenir aux projets présentés, la division en deux fichiers distincts des informations descriptives sur le manuscrit et la transcription dans le projet Vernon (W. Scase), l’absence d’exhaustivité dans la capture des graphèmes du projet DigiPal (S. Brookes — le tracé des carrés autour des lettres se fait à la main !), la fonction de comparaison du projet Genizah (L. Wolf) et l’outil d’exploration spatiale de Graphem (M. Exbrayat). Dans le cadre de Graphem, un outil permettant de mesurer les caractéristiques morphologiques des lettres a été développé (« Graphoskop »), qui répond enfin aux critiques affirmant que les mesures proposées par L. Gilissen étaient impossible à prendre avec suffisamment de précision pour être valables.

Toujours pour les outils : la discussion entamée par N. Golob a fait apparaître que les plus férus informaticiens (e.g. M. Burghart) comprenaient parfaitement le besoin d’interfaces user-friendly (et XML-less) telles que celle proposée par le projet Monasterium dans son interface de transcription et correction collaborative (Monasterium Collaborative Archive). M. Gau et R. Slabatnig ont également présenté leur plateforme NOM (http://mns.udsu.ru/index_en.html); leur « boîte à outils » n’est pas encore pleinement opérationnelle, mais pourrait être prochainement mise à disposition des chercheurs en humanités numériques.

Du point de vue des méthodes, un approfondissement est à élaborer, notamment sur l’heuristique et la validation des résultats (comparaison avec les conclusions, reconnues insuffisantes, de la paléographie traditionnelle ? comparaison croisée des résultats obtenus par des méthodes statistiques et numériques ?).

Avec ces outils, E. Overgaauw suggère de reprendre les questions toujours ouvertes de la paléographie et d’essayer d’y apporter des nouvelles réponses, qui devront néanmoins se nourrir de l’état actuel des connaissances (scholarship), c’est-à-dire des méthodes traditionnelles : qu’est-ce que la qualité d’une écriture ? sa régularité ? sa variabilité ? comment mesurer l’imitation, l’évolution progressive et les changements imperceptibles ? Et enfin : qu’est-ce qu’est une écriture, comment en définir les caractéristiques et comment la décrire… et remédier à l’absence à la fois symptomatique et cruelle de vocabulaire partagé.

Enfin se pose la question de la dissémination des méthodes, outils et résultats. Des réseaux et infrastructures comme NeDiMAH (Network for Digital Methods in the Arts and Humanities) sont évoquées, des journaux scientifiques comme celui dont T. Stinson annonce la naissance ou Digital medievalist, des plateformes communes pour partager les logiciels et les outils (même si l’exemple français de Balisez.net incite pour l’instant à la prudence). La paléographie nécessite des savoir-faire que peu possèdent, mais dont tous ont besoin. Il n’est pas certain que les méthodes et questions des humanités numériques se diffusent à partir d’elle, mais elle est en pointe et ses résultats seront nécessairement observés.

1 commentaire

  1. Pingback: On public vs private research | From Artefact to Meaning

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s