DFKV_archeologie

Archéologie des données

Le volume et le degré de précision des données ont non seulement été façonnés par les problématiques et les compétences des chercheurs et chercheuses qui les ont recueillies, mais aussi par la nature même de l’équipement informatique et des logiciels utilisés. Les données ont en effet fait l’objet de plusieurs migrations qui ont conduit à des pertes et altérations dont aucun relevé spécifique n’a été établi. Elles n'ont pu être partiellement décrites qu'à l’occasion de recherches dans d’anciennes copies de sécurité, d’anciennes impressions des bases de données ou grâce à des documents de travail issus des projets de 2022. En complément, d’anciens collaborateurs et collaboratrices ainsi que certains chercheurs et chercheuses encore en poste au DFK Paris ont été consultés.

À l’origine, les données étaient collectées via trois instances configurées de manière identique au sein d' une base de données relationnelle (LIDOS vers. 4 et 5), subdivisée en 19 champs. Il était possible de remplir ceux-ci en sélectionnant par exemple les autrices ou auteurs, les personnes citées, les rubriques, les types de texte ou les titres de périodiques parmi des listes déroulantes qu’on pouvait étendre à volonté, ce qui facilitait la saisie. Les noms de personnes ont ainsi été créés sous la forme d'une chaîne de caractères constituée du nom et du prénom et d’éventuels compléments d’explication. Comme certaines de ces indications complémentaires, par exemple le fait que telle autrice n'est mentionnée dans un texte donné que par ses seules initiales (« Wescher, Herta [ici H. W.] »), n’étaient pas forcément pertinentes pour chaque entrée concernant la personne, certaines entrées de personne ont été intentionnellement créées plusieurs fois dans la base de données.

L’indexation des mots-clés, quant à elle, s’est faite via un thsauraus hiérarchisé qui ne pouvait être modifié que séparément. Les thésaurus correspondant aux trois bases de données ont été constitués par les équipes des projets. Celles-ci les ont structurés en un certain nombre de facettes thématiques englobant des termes ordonnés hiérarchiquement. Si les deux thésaurus conçus depuis Berlin l'ont été de manière très semblable, la base de données « 1870-1940 (Paris) » s'articulait, après les interventions de 2002 et 2003, autour d’un nombre réduit de facettes thématiques et d’une structure hiérarchique de mots-clés plus complexe. 

Autant qu’on puisse aujourd’hui le reconstituer, seuls les citations, les commentaires et les données bibliographiques relatives aux numéros de volumes ou de pages et aux dates de parution étaient à l’époque entrées dans un champs de texte libre. La longueur des textes n’était limitée que par la somme totale de caractères par entrée de données (Gradmann 1989).
 

 

2004 : changements structurels

À l’automne 2004, les bases de données ont été intégrées à un nouvel environnement, développé spécifiquement pour le DFK Paris et autohébergé (Proweb ; Castor 2006), et ont été simultanément restructurées. Dès lors, les trois bases de données ont été administrées au sein d'une seule instance au moyen de listes d’objets et d’attributs communes à toutes les bases. Pour cela, il a fallu procéder à une nouvelle indexation et mise en relation des objets (les entrées de données) et de leurs attributs. Dans l’interface utilisateur du site du DFK Paris, il était désormais possible de consulter chaque base de données séparément ou bien les trois simultanément, d'y effectuer des recherches et d’en imprimer les résultats.

Pour toutes les informations relatives aux types de textes, aux rubriques ou aux personnes, cela signifiait qu’il y avait systématiquement plusieurs attributions lorsqu'un terme ou un nom figurait dans plusieurs bases de données. Dans les listes déroulantes alphabétiques, ces occurrences multiples de termes ou de noms n'étaient pas réunies. Lors du filtrage de la recherche, elles n'étaient par conséquent pas toujours identifiables immédiatement par l’usager ou l'usagère. C'était le cas en particulier dès qu’une même personne apparaissait dans les textes source allemands et français avec des orthographes ou des formes de nom différentes, lesquelles avaient été enregistrées séparément dans les bases de données (par exemple « Friedrich II. von Preußen » et « Frédéric le Grand »).

La migration des thésaurus vers Proweb n’a pas permis de conserver leur structure hiérarchique préexistante. Ainsi, les termes des différents niveaux hiérarchiques se sont retrouvés sur le même plan. En raison d’un fonctionnement différent de la précédente base de données LIDOS, les entrées dans la base de données 1870-1940 (Paris) ont été assorties de couples de mots-clés englobant à la fois la facette transversale et le concept, tous deux intégrés en 2004. Pour les deux autres bases de données où seul le concept avait été saisi, la facette correspondante était automatiquement affichée par le logiciel lui-même. Cette connexion n'était cependant plus disponible dans le nouvel environnement. Il manquait par conséquent un lien sémantique entre le concept et la facette. L'ordre des mots-clés associée à chaque entrée dans Proweb a cependant repris la subdivision d'origine en facettes, qui demeure préservée jusqu’à ce jour. De cette manière, il est souvent possible de dégager les liens de fond entre des concepts aujourd'hui isolés.

 

2019 : migration des données

En 2019, avant de quitter Proweb, un logiciel âgé de 15 ans, les données ont été triées et transférées vers une nouvelle base de données MySQL afin de pouvoir être utilisées avec le nouvel outil de recherche développé. En raison de la fusion des données sur Proweb, les données des trois bases de données d’origine étaient affichées ensemble, sans aucune marque visible de subdivision. En plus d’une recherche de texte libre via les commentaires, il était possible de procéder à un filtrage des résultats par mots-clés, noms de personnes et titres de revues. Aujourd'hui, le fonctionnement de l’outil de recherche de 2019 peut être retrouvé par une capture instantanée dans les archives internet. L’horodatage précisant la date et l’auteur ou l'autrice de l'entrée ou de sa modification est ainsi accessible. Ces données n'étant pas destinées à être affichées, elles n'ont en effet pas été intégrées au document json publié sur Github.

 

Bibliographie

  • Markus Castor, « Informationstechnologien am Deutschen Forum für Kunstgeschichte », dans Rapport annuel du DFK Paris 2005/2006, 2006, p. 67–69.
  • Stefan Gradmann, Katalogisieren mit dem PC: Microrechnergestützte Datenbanksysteme für die Verarbeitung bibliothekarischer Daten, Wolfenbüttel 1989 (Tandem-Informationen, t. 1), p. 36–97.