dfkv_repurposing_reaffectation

Réaffectation des bases de données : feuilleter, découvrir, modifier

Depuis l’achèvement des projets de recherche consacrés à la réception artistique franco-allemand, l’intérêt scientifique pour les revues et les textes autour de la critique d’art en Allemagne et en France n’a cessé de grandir. En complément de la publication d’articles de fond, d’anthologies ou de recherches sur le rôle des revues et des journaux, il est désormais possible d’accéder depuis la plateforme Gallica de la Bibliothèque nationale de France (BnF) et celle de la bibliothèque universitaire de Heidelberg à des versions en ligne de médias qui, jusque lors, n’étaient accessibles dans leur version originale ou sous forme de microfiches que dans un nombre limité de bibliothèques. Qui plus est, l’approche d’origine a fait place à de nouvelles perspectives. Après une première phase très prolifique au cours des années 1990 et 2000, dominée par des approches binationales et, très souvent, par des sujets de recherche franco-allemands, la recherche sur le transfert culturel dans laquelle s’inscrivait le projet se tourne désormais vers les interdépendances historiques globales et pluridimensionnelles (Middel 2016). Le Centre allemand d’histoire de l’art Paris a contribué à cette évolution et continue à la porter, ce qui s’est notamment traduit par la création en 2020 du champ de recherche Transculturalité et Mobilité.

Assurément, les usagers et usagères actuels de ces bases de données s’en servent avec des perspectives différentes de celles qui animaient les chercheurs et chercheuses à l’époque de leur lancement. Ils sont en outre confrontés à un objet informationnel qui, de par sa conception et ses contenus appartient déjà à une époque révolue. Ces bases de données ne sont littéralement plus d’actualité. De ce fait, leurs limitations ne relèvent pas de l’évidence pour leurs utilisateurs et utilisatrices mais nécessitent des explications. La motivation à les utiliser ne va pas non plus de soi, notamment parce que la formulation de la problématique de recherche se formule autrement aujourd’hui. Si, contrairement aux livres parus dans le cadre du projet, ces bases de données ne sont pas les uniques sources d’information sur la recherche de l’époque, il est nécessaire de les adapter à des usages encore inédits, dans lesquels elles pourront être découvertes, copiées, voire reliées entre elles en fonction d’autres modèles et intentions.

Feuilleter, découvrir, modifier

La réaffectation des trois bases de données de la réception artistique franco-allemande s’articule autour de trois principaux types d’interactions : feuilleter, découvrir, modifier. Les deux premiers se reflètent dans la refonte de l’outil de recherche. Il est possible de procéder à de nouveaux groupements des enregistrements grâce à un nombre réduit de manipulations, plutôt ludiques (sélection des projets via l’interface de recherche, resserrement de la sélection grâce à une flèche chronologique et filtres supplémentaires sous la forme d’étiquettes). Non seulement il est possible d’accéder à une liste de résultats, mais il est également possible de passer d’un résultat à l’autre de gauche à droite. En outre, des liens vers des versions numérisées ont pu être ajoutés pour certaines revues, permettant de continuer à feuilleter celles-ci en ligne.

Les filtres détaillés et l’ajout de marque-pages pour constituer une liste personnalisée permettent de découvrir plus aisément des liens entre les différentes revues et les auteurs et autrices ou entre une période donnée et des auteurs et autrices. Ils permettent encore d’isoler un type de textes donné, comme les annonces d’exposition. Ces fonctions de recherche sont complétées par le référencement des différentes personnes et revues dans des fichiers d’autorités ou sur Wikidata, qui s’affichent dans des fenêtres pop-up. Les résultats de ces recherches peuvent être imprimés à partir de la liste personnalisée au format pdf ou ou convertis en un fichier json.

Le fichier json fait partie du type d’interactions visant à modifier les données, ce qui inclut toutes les opérations injectant celles-ci dans d’autres environnements à des fins de visualisation ou d’analyses complémentaires. Le fichier temporaire associé à chaque liste personnalisée livre un extrait du fichier global auquel les moteurs de recherche adressent leur requête, et dont les résultats apparaissent ensuite dans l’interface web. Chaque fichier json constitue alors un récapitulatif des feuilles de calcul dans lesquels les liens et références ont été établis.   

Enrichissement sémantique et restructuration des données

En 2021, on a pu déterminer quels textes parmi l’ensemble des sources traitées avaient déjà été numérisés et étaient mis à disposition selon les normes de l’IIIF-Presentation API. Dans un second temps, on a procédé, dans la mesure où cela était possible, à une recherche manuelle des liens vers les références dans les sources. Cette étape a nécessité un élargissement des données : on a attribué aux entrées reliées à plus d’un texte et donc à plus d’un document numérisé des ID de volume supplémentaires dont la ventilation a été ajoutée à la feuille de calcul d’attributs dans DFK_master. De surcroît, des références bibliographiques erronées en termes de numéros de pages, numéros de revue ou d’année de parution ont été corrigées. Au total, 2547 entrées ont pu être reliées à des références avec une précision à la page près. Ce chiffre correspond à 47% de l’ensemble des entrées liées à des revues. D’un point de vue technique, ces liens permettent d’afficher les pages concernées dans un lecteur prévu à cet effet, le DFK Paris Mirador-Viewer (version 3).

Dans une autre étape, les noms de personnes ont fait l’objet d’un référencement grâce à Getty ULAN, la Gemeinsame Normdatei (GND) et Wikidata. Ce travail a permis de révéler un nombre important d’entrées redondantes. Celles-ci ont été réunies par l’attribution d’un nouvel et deuxième ID, sans modifier l’orthographe des différentes entrées. Le moteur de recherche permet donc de trouver toutes les orthographes utilisées dans les sources pour un même nom. Un autre enrichissement a porté sur les titres de revues qui ont fait l’objet d’un référencement à l’aide des fichiers d’autorité de la BnF et de la GND ou bien d’une entrée Wikidata. Le moteur de recherche donne accès aux trois enrichissements avec une distinction graphique claire, dans trois fenêtres de navigation distinctes. En revanche, suite aux résultats de la recherche en archéologie des données, les mots-clés ont perdu leur fonction de filtre et ont été convertis en catégories thématiques afin de souligner leur utilité dans la découverte de contenus. 

L’ensemble des données ont été intégrées dans des feuilles de calcul dont les différents champs ont été nommés dans l’objectif d’une meilleure compréhension générale (voir Datenstruktur). La relation avec la précédente version des données dans Proweb, sur laquelle repose la modélisation, n’est donc plus visible. Le moteur de recherche extrait les données d’un fichier de format json dans lequel sont regroupées les feuilles de calcul. Selon la requête, les données peuvent non seulement être téléchargées sous la forme d’un fichier pdf mais aussi d’un fichier json. De plus, les feuilles de calcul ainsi que le fichier json complet sont téléchargeables sur heiDATA.

Transparence de la saisie et de l’enrichissement des données et des données bibliographiques

Les différentes données saisies dans les bases de données peuvent être considérées comme des objets d’information qui ont connu deux événements « biographiques » : le premier correspond à leur saisie initiale, le second à leur enrichissement à l’aide d’un fichier d’autorité, par exemple. De surcroît, chacun d’entre eux renvoie à un ou plusieurs autres objets, à savoir des textes de critique d’art. Le lien avec Getty ULAN ou bien avec le catalogue numérique de la BnF permet encore d’autres renvois. Cela traduit une architecture des données très complexe de même que différents statuts d’auctorialité. Le choix, le commentaire et l’indexation par mots clés des textes ont été accomplis par des chercheuses et chercheurs dans les années 2000. En revanche, la mise en relation avec des fichiers d’autorité et la fusion des données relatives aux personnes, de même que les corrections des données bibliographiques, ont été effectuées entre 2021 et 2022 seulement, ce qui leur donne ont un autre statut en termes d’auctorialité. Quant aux métadonnées qui s’affichent dans le IIIF-Viewer, elles proviennent de la BnF ou de la UB Heidelberg, ce qui vaut également pour les données biographiques relatives à des personnes référencées dans Wikidata. Dans l’interface graphique du moteur de recherche, ces différentes provenances des informations sont signalées par l’utilisation de couleurs de fond différentes et l’ouverture de fenêtres pop-up distinctes. Afin que ces éléments sur l’origine des données puissent être transférables, un prototype a été développé sur le modèle de LinkedArt. Il est consultable sur heiDATA, de même que l’ensemble des données des feuilles de calcul.

Contexte de la réaffectation

L’ensemble de ces dispositions résulte d’un projet en recherche appliquée dont l’objet consistait à étudier les problèmes et les possibilités ouvertes par la réutilisation de bases de données héritées en histoire de l’art. Le projet s’appuyait sur l’exemple des bases de données consacrées à la réception artistique entre l’Allemagne et la France (voir projet Curation de données). Ce champ de recherche, en anglais Repurposing, encore peu exploré, permet surtout de dépasser la controverse scientifique, devenue très nourrie, sur les données « faciles à trouver, accessibles, interopérables et réutilisables (FAIR) » (Drucker 2021, 78).

Bibliographie et logiciels