DFKV_Datenarchäologie

Datenarchäologie

Nicht nur die Fragestellungen und die Kompetenzen der an dem Forschungsprojekt zur deutsch-französischen Kunstvermittlung beteiligten Forscher/innen haben den Umfang und die inhaltliche Tiefe der Daten bestimmt, sondern auch die Eigenschaften der Hard- und Software haben sie geformt. Die Daten sind mehrfach migriert worden, was zu Modifikationen und Verlusten führte, die nicht eigens dokumentiert sind. Teilweise sind sie erst 2022 durch die Inspektion alter Sicherheitskopien, frühen Ausdrucken der Datenbanken und Arbeitsunterlagen der Projekte beschreibbar geworden. Ergänzend wurden Befragungen ehemaliger Mitarbeiter/-innen und noch heute für das DFK Paris tätiger Forscher/-innen durchgeführt.

Ursprünglich wurden die Daten in drei gleichartig konfigurierten Instanzen einer relationalen Datenbank (LIDOS Vers. 4 und 5) erhoben, die in 19 Felder gegliedert war. Von diesen konnten unter anderem die Einträge der Autor/-innen, der genannten Personen, der Rubriken, Textarten und Zeitschriftentitel mittels frei erweiterbarer Auswahllisten befüllt werden, was die Eingabe erleichterte. Dabei sind die Personennamen jeweils in einem String aus Nach- und Vorname sowie erklärenden Zusätzen angelegt worden. Weil gerade solche Zusätze wie z. B. der Hinweis, dass die Autorin für den betreffenden Text nur mit den Initialen angegeben wurde (»Wescher, Herta [ici H. W.]«) nicht für jeden die Person betreffenden Eintrag passend sind, wurden einzelne Personen jedoch wissentlich mehrfach angesetzt.

Die Verschlagwortung erfolgte über einen nur gesondert editierbaren hierarchischen Thesaurus. Die Thesauri aller drei Datenbanken sind von den Bearbeiter/-innen aufgebaut worden. Sie haben dazu eine Gliederung in thematische Facetten vorgenommen, die hierarchisch strukturierte Begriffe umfassten. Dabei sind die beiden von Berlin aus verantworteten Thesauri recht ähnlich angelegt, während die Datenbank »1870–1940, Paris« nach der Bearbeitung 2002 bis 2003 von den Facetten her kompakter, von der hierarchischen Struktur der Begriffe komplexer war.

Soweit es sich heute noch rekonstruieren lässt, wurden wohl allein die Textzitate, die Kommentare und die bibliographischen Angaben zu Bandzahlen, Seiten und Erscheinungsdatum in Freitextfelder eingegeben. Dabei war die Länge der Texte nur durch die Gesamtsumme pro Dateneintrag begrenzt (Gradmann 1989).

 

Strukturelle Veränderungen 2004

Im Herbst 2004 wurden die Datenbanken in eine neue, für das DFK Paris entwickelte und selbst gehostete Umgebung (Proweb; Castor 2006) migriert und zugleich restrukturiert. Alle drei Datenbanken wurden von nun an über eine Instanz und innerhalb dieser in gemeinsamen Objekt- und Attributlisten verwaltet. Objekte (die Dateneinträge) und Attribute mussten dafür neu indiziert und verknüpft werden. Im Frontend, das von der Webseite des DFK Paris ausgehend aufgerufen wurde, konnten dann jeweils die einzelne Teildatenbank oder auch alle drei gemeinsam betrachtet, durchsucht und die Ergebnisse der Suchen ausgedruckt werden.

Für die Informationen zu Textarten, Rubriken und Personen bedeutete dies, dass es immer dann mehrfache Ansetzungen gab, wenn der Begriff bzw. der Name in mehr als einer Datenbank auftrat. In den alphabetischen Auswahllisten waren diese mehrfach vorkommenden Begriffe und Namen nicht zusammengeführt und für die Nutzer/-innen bei der Facettierung der Suche nicht immer unmittelbar erkennbar. Letzteres war etwa dann der Fall, wenn in den französischen und deutschen Quellentexten für eine Person unterschiedliche Schreibweisen und Namensformen verwendet und entsprechend in die Datenbanken übernommen wurden (z. B. »Friedrich II. von Preußen« und »Frederic le Grand«).

Die Überführung der Thesauri in Proweb konnte ihre hierarchische Struktur nicht berücksichtigen und die Begriffe der verschiedenen Hierarchieebenen wurden gleichgesetzt. Aufgrund einer unterschiedlichen Bedienung der vorhergehenden LIDOS-Datenbank sind die Einträge der Datenbank 1870–1940, Paris, jeweils mit Schlagwortpaaren ausgezeichnet worden, die die übergreifende Facette und den Begriff beinhalten und beide 2004 übernommen wurden. Für die beiden anderen Datenbanken war zuvor nur der einzelne Begriff eingegeben worden, während die dazugehörende Facette von der Software automatisch angezeigt wurde. Diese Verknüpfung war jedoch in der neuen Umgebung nicht verfügbar. In der Folge fehlt der semantische Zusammenhang zwischen Begriff und Facette. Die Reihenfolge der Schlagworte pro Eintrag im Proweb nahm aber die ursprüngliche Gliederung in Facetten auf und sie ist bis heute erhalten geblieben. Somit kann der inhaltliche Zusammenhang der heute vereinzelten Begriffe oft erschlossen werden.

 

Datenmigration 2019

Vor Einstellung der 15 Jahre alten Software Proweb wurden 2019 die Daten ausgelesen und zur Verwendung in einem neu gestalteten Recherche-Tool in eine MySQL-Datenbank übernommen. Entsprechend der Zusammenführung der Daten in Proweb wurden die Daten aller drei Teildatenbanken gemeinsam, ohne optische Untergliederung, angezeigt. Neben einer Freitextsuche über die Kommentare konnten die Schlagworte, Personennamen und Zeitschriftentitel als Filter genutzt werden. Die Funktionsweise des Recherche-Tools von 2019 kann über einen Schnappschuss im Internetarchiv nachvollzogen werden. Nicht zur Anzeige gedacht und daher nicht in das über Github veröffentlichte JSON-Dokument integriert waren die Zeitstempel, mit denen der Zeitpunkt und die Autorenschaft der Erzeugung und der Überarbeitungen erfasst worden sind.

 

Literatur

  • Markus A. Castor, »Informationstechnologien am Deutschen Forum für Kunstgeschichte«, in: Jahresbericht DFK Paris 2005/2006, 2006, S. 67–69.
  • Stefan Gradmann, Katalogisieren mit dem PC: Microrechnergestützte Datenbanksysteme für die Verarbeitung bibliothekarischer Daten, Wolfenbüttel 1989 (Tandem-Informationen, Bd. 1) S. 36–97.