Skip to main content
SearchLogin or Signup

Ein großer Berg Daten? Zur bibliothekswissenschaftlichen Dimension des korpusliteraturwissenschaftlichen Digital Humanities-Projekts „High Mountains – Deutschschweizer Erzählliteratur 1880–1930“

Published onApr 20, 2021
Ein großer Berg Daten? Zur bibliothekswissenschaftlichen Dimension des korpusliteraturwissenschaftlichen Digital Humanities-Projekts „High Mountains – Deutschschweizer Erzählliteratur 1880–1930“
·

Abstract

Der Beitrag schildert die intensive Zusammenarbeit zwischen Fachwissenschaftler:innen und der Universitätsbibliothek Basel in einem korpusliteraturwissenschaftlichen DH-Projekt. Mit dem Auftrag zur Erstellung eines möglichst umfassenden Metadatensatzes Deutschschweizer Werke eines bestimmten Zeitraums mit definierten Parametern und der daran anschliessenden Retrodigitalisierung ausgewählter Objekte übernahm die Bibliothek die Aufgabe, eine valide Datengrundlage für das Forschungsprojekt zu schaffen. Erreichter Meilenstein im Forschungsprojekt war die erstmalige datenbasierte Schätzung des Umfangs fiktionaler Erzählliteratur 1880–1930 von Deutschschweizer Autor:innen (7’000–10’000 Titel). Im Beitrag werden nicht nur die Methoden zur Erhebung der benötigten Daten beschrieben, sondern in der Retrospektive das Vorgehen auch kritisch hinterfragt, um abschliessend Lessons Learned und Desiderata bei der Umsetzung solcher Projekte in Kooperation mit Bibliotheken zu formulieren.

This article describes the intensive cooperation between researchers and the University Library of Basel in a corpus literary studies DH project. With the task of creating a comprehensive metadata set of Swiss-German works of a certain period with defined parameters and the subsequent retro-digitisation of selected objects, the library took on the task of creating a valid meta-data foundation for the research project. The milestone achieved in the research project was the first data-based estimate of the volume of fictional narrative literature 1880–1930 by Swiss-German authors (7,000–10,000 titles). The article not only describes the methods used to collect the necessary data, but also critically examines the procedure in retrospect in order to formulate lessons learned and desiderata for the implementation of such projects in cooperation with libraries.

1. Einleitung

Er treibt den trägen Schwarm von schwer=beleibten Kühen,
Mit freudigem Gebrüll, sich im bethauten Steg,
Sie irren langsam um, wo Klee und Muttern blühen,
Und mäh'n das zarte Gras mit scharfen Zungen weg:
Er aber setzet sich bey einem Wasser=Falle,
Und ruft mit seinem Horn dem lauten Widerhalle.
(Haller, 1762, V. 185ff)

In seinem Lehrgedicht Die Alpen zeichnet der Frühaufklärer Albrecht von Haller 1729 ein neuerdings positiv getöntes Bild der Gebirgskette. Mit Haller beginnt hier eine literarische Tradition, die die ehemals unberechenbaren Berge nun als „schönen“ Naturraum enkodiert, der, oftmals von urbanen oder gar industriell geprägten Topographien abgegrenzt, unter anderem zur positiven Bezugsgröße für nationale Identität jenseits der innerhelvetischen Sprachgrenzen wird.

Aber auch jenseits der Alpen und vordergründiger Angebote für nationale Identitätsbildung gilt, dass Literatur stets fiktionale Räume gestaltet und diese affektiv enkodiert. Dieser Zusammenhang von Gefühl und dargestelltem Raum wird mit digitalen Methoden des „High Mountains“-Projekts untersucht1, das mittels der Big Data der digitalen Kataloge, Open Linked Data und digitalen Textkorpora ganz neue Forschungsfragen und alte Forschungsfragen neu stellt.2 Im Folgenden stellen wir als Use Case die Zusammenarbeit zwischen Digitaler Literaturwissenschaft und der Universitätsbibliothek Basel (UB Basel) als „Datenlieferantin“ vor.3

Die „Korpusliteraturwissenschaft“ braucht als datengetriebene und datenintensive Wissenschaft hochskalierte, aber auch belastbare Daten (Herrmann & Lauer, 2018). Dabei geht es um vielfältige Informationstypen. Neben den digitalisierten Volltexten selbst stehen die Metadaten – Informationen über Autor:in mit Gender, Nationalität und Lebensdaten, und über die Texte, wie Gattung, Sprache, Übersetzung, sowie Einträge zu Publikations- und die Editionsgeschichte. In unserem Fall geht es um Romane, Novellen und Erzählungen, die ursprünglich von 1880-1930 auf Deutsch erschienen sind und Schweizer Autorinstanzen zugeordnet werden können.

Die datenintensive Literaturwissenschaft hat einen statistischen Blick. Sie muss dem Anspruch genügen, sich auf die Kenntnis der „Grundgesamtheit“ der publizierten literarischen Texte eines Zeitraums zu beziehen um die Reichweite ihrer Aussagen einordnen zu können. An dieser Stelle, wo Literaturwissenschaft eben auch Sammelforschung (ein alter Name der Statistik) ist, werden die wissenschaftlichen Bibliotheken in der Arbeit mit Datenbeständen zu unerlässlichen Partnern auf Augenhöhe (Meister & Veit, 2014). Als Gedächtnisinstitutionen erweitern sie ihren Auftrag vom Bewahren und Nutzbarmachen ihrer Sammlungen um das aktive Anbieten von Metadaten. Auf diese Weise wird digitale geisteswissenschaftliche Forschung insbesondere im Big-Data-Kontext überhaupt erst ermöglicht (Döhl, 2019).

Im Rahmen unserer Zusammenarbeit waren es vor allem zwei Anfragen, die vom Forschungsprojekt „High Mountains“ an die UB Basel gestellt wurden: (a.) Die Erstellung eines möglichst umfassenden Metadatensatzes Deutschschweizer Werke des beschriebenen Zeitraums mit den genannten Parametern und
(b.) die daran anschließende Retrodigitalisierung ausgewählter, bislang nur physisch vorliegender Objekte.

Im Folgenden möchten wir vor allem unsere Erfahrung zum aktiven Anbieten von Informationen in Bezug auf (a.) beschreiben: Ausgehend von der Annahme, dass ein Metadatenabzug der Deutschschweizer Literatur aus einem Bibliothekskatalog möglich sei, setzte rasch Ernüchterung ein: Weder gibt es eine umfassende Bibliographie, auf die Bezug genommen werden könnte, noch hält der Bibliothekskatalog der UB Basel dieser Frage stand. Selbst eine Linked Data-Abfrage der Gemeinsamen Normdatei (GND)4 konnte keine direkt verwertbare Liste von Deutschschweizer Autor:innen liefern. Um die Informationen anzubieten, folgte ein langer Weg, der über automatische Abfragen sowie manuelle und automatische Datenanreicherung führte. Zwischenetappen waren die händische Erstellung einer philologischen Liste und das Problem, anhand der Metadaten aus den GND-Autoritätsdateien den biographischen Bezug von Autor:innen als „Deutschschweizer:innen“ festzustellen. Das Ziel der Gesamtsicht in Form einer umfassenden Datenbank, die philologische und informationswissenschaftliche Informationstypen vereint, sowie idealerweise die Volltexte selbst vorhält, ist derzeit noch nicht erreicht. Es liegen jedoch erstmals umfassende und bereinigte Datensätze (als .csv-Tabellen) vor.

2. „Gebt uns eine Liste“. Zwischen Metadatenabzug und intellektueller Erstellung einer Bibliographie

Für das Forschungsprojekt sollte zunächst der Umfang und die Zusammensetzung der Deutschschweizer Erzählliteratur (Romane, Novellen, Erzählungen) der Jahre 1880–1930 eingeschätzt werden. Daher wurde ursprünglich ein Metadatenabzug aus dem Bibliothekskatalog bestellt („Liste deutschsprachiger CH-Belletristik“, #1, siehe Tab. 1). Da dieser Auftrag mangels vorgehaltener Metadaten nicht möglich war, wurde die Fachreferentin für Germanistik beauftragt, unter den gegebenen Bedingungen eine möglichst vollständige Bibliographie zu erstellen. Sowohl kanonische wie auch nicht kanonische Werke sollten Eingang finden und als solche ausgewiesen werden (ebenso wie bestimmte Textlängen).

Tab. 1: Stationen des Projekts „Index CH-DE-Belletristik 1880–1930“

Hierzu gab es für die European Literary Text Collection (Odebrecht, Burnard, Eder, & Schöch, 2019; Herrmann, Odebrecht, Santos, & Francois, 2020), aber auch spezifisch für das „High Mountains“-Projekt diverse Vorgaben. Da nicht viel Zeit zu Verfügung stand, lag der Fokus von Anfang an auf elektronischen Möglichkeiten der Bibliographie-Erstellung und pragmatischen Vorgehensweisen. Tab. 1 zeigt die aufeinander aufbauenden, bzw. sich auseinander ergebenden, Arbeitsschritte zur Erstellung eines Gesamt-Metadatensatzes. Aufgeführt sind die jeweiligen digitalen oder physischen Ressourcen, die Angabe, inwieweit der avisierte Arbeitsschritt erfolgreich durchgeführt werden konnte, der/die Ansprechpartner:in, sowie gegebenenfalls der Umfang des jeweiligen Datensatzes.

2.1 „Schöne“ Literatur vom Katalog?

Die Frage nach einem Datenabzug der Belletristik aus dem Bibliothekskatalog der UB Basel musste die Fachreferentin abschlägig beantworten. Belletristik wird erst seit 2017 durch eine entsprechende Codierung markiert.5 Eine Abfrage nach Belletristik hätte nur über die Namen bereits bekannter Autor:innen oder über eine Stichwortsuche nach Gattungsbegriffen wie „Roman“ oder „Novelle“ (wie sie öfter im Untertitel vorliegen) erfolgen können und  nur sehr unvollständige Ergebnisse geliefert. Ähnlich stellt sich die Situation in anderen (Schweizer) Bibliothekskatalogen dar.6

Da kein Metadatenabzug möglich war, wurde zunächst geklärt, ob bereits eine Bibliographie der sogenannten „schönen Literatur“ (sprich: der literarischen Werke, Belletristik) der deutschsprachigen Schweiz existiert – dies ist jedoch nicht der Fall, weder elektronisch noch gedruckt. Eine Bibliographie der Schweiz gibt es zwar seit 18787, die Jahrgänge bis 2006 liegen jedoch nur gedruckt vor und wurden erst ab 1916 nach Fachgebieten gegliedert (inklusive einer Abteilung „Schöne Literatur“, die jedoch nicht nur die deutschsprachige Belletristik enthält und auch nicht ausschliesslich die Belletristik von Schweizer Autor:innen8). Eine Auswertung dieser Hefte wurde daher als zu zeitintensiv verworfen. Kurz wurde die Digitalisierung der Bibliographie erwogen, aber auch dies hätte noch einiges an Bearbeitung nach sich gezogen.

Mit dem Projektteam und Kolleg:innen aus verschiedenen Bereichen der UB Basel wurden weitere Möglichkeiten eines unabhängigen elektronischen Datenabzugs für eine Deutschschweizer Autor:innen- bzw. Werkliste besprochen. Erwogen wurde ein Datenabzug via Linked-Open-Data-Schnittstellen wie Lobid und Linked Swissbib. Tests zeigten jedoch eine unzureichende Sensitivität und Spezifität für unsere Anfrage.9 In der Folge konzentrierten wir uns zunächst auf die GND.

2.2 Die GND-Liste: Autor:innen

Dank der Koordinatorin der Basler GND-Redaktion und dem Systembibliothekar IDS Basel/Bern konnte über den Metadatendienst der Deutschen Nationalbibliothek (DNB) ein Gesamtabzug der GND in MARC21-Format bezogen und in ein Tabellenformat (.csv) umgewandelt werden, um daraus eine erste, noch weit gefasste Autor:innenliste zu gewinnen (Arbeitsschritt #2). Kriterien waren der Ländercode („Schweiz“), der Beruf („Schriftsteller*“ und andere10) sowie Lebens- oder Wirkungsdaten (sehr breit gefasst: „18* OR 19*“).

Die Originalliste umfasste rund N = 7’000 Einträge. Sie wurde zunächst manuell von der Fachreferentin auf n = 1’857 Einträge reduziert, indem Personen mit  nicht zum Wirkungszeitraum 1880–1930 passenden Lebensdaten entfernt wurden.11 Anzumerken gilt, dass die Liste auch die französisch-, italienisch- und rätoromanischsprachigen Schweizer Autor:innen enthält, da die GND keine Codierung für die Schreibsprache von Autor:innen verwendet („false positives“). Daneben können zum Beispiel auch Verfasser:innen von ausschliesslich nicht-literarischen Texten oder reine Lyriker:innen enthalten sein, da die Berufsbezeichnungen nicht immer gleich konsistent in der gleichen Tiefe vergeben wurden.12 So lieferten die ausgewählten Berufsbezeichnungen13 tendenziell zu viele Treffer und werden – zusammen mit den doch breit gefassten Lebensdaten – noch einmal genauer überprüft. Umgekehrt sind auch keineswegs alle Schweizer Autor:innen auf der Liste enthalten („false negatives“). Wie spätere Stichproben ergaben, haben zwar sehr viele, aber bei weitem nicht alle Schweizer Autor:innen des Zeitraums bislang eine GND-Nummer erhalten (insbesondere im Bereich der nicht-kanonischen Autor:innen gibt es Lücken). Die Einträge weiterer Autor:innen wiederum sind nicht vollständig (das heisst Berufsbezeichnung, Ländercode oder Lebensdaten fehlen, bekommen im Datensatz ein „NA“)14 und konnten daher mit der durchgeführten Abfrage nicht gefunden werden.15

Mitextrahiert, wo vorhanden, wurde aus der GND das Feld „Geographischer Bezug“, das Geburts- und Sterbeort, sowie manchmal den Wirkungsort enthält. Von diesen Angaben wie auch den Ländercodes (oft liegen zu einer Person mehrere vor) lässt sich aber noch nicht zwingend auf den Sozialisations- beziehungsweise Wirkungsort schliessen. Gerade der Sozialisationsort der Autor:innen („Wo ist die Person aufgewachsen und zur Schule gegangen?“) wurde jedoch als massgebendes Kriterium für die Zuordnung von „Nationalität“ definiert. Auch über die Kanonizität der Autor:innen wird in dieser Liste nichts ausgesagt. Eine Nachbearbeitung der Metadaten, besonders von „Nationalität“ erwies sich daher für das Projekt als zwingend.

Zudem war die Autor:innenliste nur Mittel zum Zweck der Erstellung einer Werkliste. Daher galt es, ausgehend von den indizierten Autor:innen, die von selbigen verfassten und den Kriterien entsprechenden Werke aufzunehmen (Arbeitsschritt #4.2). Auf diese Datenanreicherung aus verschiedenen Quellen wird unter 2.4 eingegangen.

2.3 Die philologische Liste

Parallel zu diesen Arbeiten rund um elektronische Datenabzüge wurde von der Fachreferentin eine zweite Werkliste auf philologischer Basis begonnen (Arbeitsschritt #3). Ziel war die Erstellung einer möglichst detaillierten Bibliographie. Diese Grundlagenforschung war nötig, da bei den oben beschriebenen Datenabzügen Einschränkungen evident waren. Zudem sollten die Sensitivität und Spezifität der Datenabzüge eingeschätzt werden: Wie viele der relevanten Autor:innen und Werke werden gefunden, wie viele nicht relevante werden ausgeschlossen (bzw. fälschlich eingeschlossen)? Die aus unterschiedlichen Quellen erstellte philologische Liste umfasste schließlich N = 1’694 Werkeinträge von insgesamt N = 281 Autor:innen. Zunächst wurde hierfür eine Quellenbibliographie mit möglichen relevanten gedruckten wie elektronischen Quellen erstellt (Literaturgeschichten, Nachschlagewerke, Bibliographien und Verzeichnisse, Anthologien, Schriftenreihen und Zeitschriften). Aus Zeitgründen konnten nur wenige dieser Quellen systematisch ausgewertet werden und so wurde eine die COST-ELTeC-Kriterien bedienende Priorisierung unter Berücksichtigung einschlägiger und ausgewählter spezieller Ressourcen vorgenommen. Die philologische Liste nähert sich also einer vollumfänglichen ground truth auch erst einmal nur an, ist aber ein wichtiger Schritt auf diese zu.

2.3.1 Gedruckte Quellen

Als erstes wurden drei Literaturgeschichten, zwei moderne (Petzold, 2007; Rusterholz & Solbach, 2007) und eine zeitgenössische (Nadler, 1932), sowie ein zeitgenössisches Lexikon (Aellen, 1918) ausgewertet. Pezold und Rusterholz sollten dabei die auch heute noch bekannten Namen (Stichwort Kanonizität) liefern, Nadler und Aellen diejenigen der von den Zeitgenossen beachteten Autor:innen. Zusätzliche Werktitel zu den hier gefundenen Namen wurden von der Fachreferentin jeweils aus verschiedenen elektronischen Quellen ergänzt (Bibliothekskatalog, Wikipedia oder Deutsches Literatur-Lexikon).

Einen Glücksfall stellt die Spezialbibliographie „Deutschsprachige Schriftstellerinnen der Schweiz 1700–1945“ (Stump, Widmer, & Wyss, 1994) dar. In den Literaturgeschichten wie auch bei Aellen kommen die Frauen eindeutig zu kurz. Viele werden gar nicht erwähnt, andere nur in knappen Exkursen zu „Unterhaltungs-“ beziehungsweise „Kinderliteratur“ abgehandelt. Für diese Bibliographie jedoch wurden die literarischen Werke von Deutschschweizer Frauen minutiös recherchiert.16

Weitere gedruckte Quellen waren weniger ergiebig oder ihre Bearbeitung musste als zu zeitintensiv verworfen werden, so zum Beispiel bei den drei Buchhandelsverzeichnissen Schweizerischer Buchhändlerverein & Verein Schweizerischer Verlagsbuchhändler (1914), Schweizerischer Buchhändlerverein & Verein Schweizerischer Verlagsbuchhändler (1931) und Schweizerischer Buchhändlerverein & Verein Schweizerischer Verlagsbuchhändler (1939). Einerseits enthalten diese Verzeichnisse auch in Schweizer Verlagen erschienene Werke ausländischer Autor:innen sowie Übersetzungen ins Deutsche, andererseits sind auch Neuauflagen nicht immer auf den ersten Blick als solche erkennbar. Hier wäre einiges an Recherchearbeit angefallen. Umgekehrt fehlen in den Schweizer Buchhandelsverzeichnissen die in ausländischen Verlagen publizierten Werke von Schweizer Autor:innen. Insgesamt wären diese drei Verzeichnisse aber schneller auszuwerten gewesen als die Schweizer Bibliographie (die allerdings im Gegenzug auch die im Ausland erschienenen Werke Schweizer Autor:innen enthält). Insbesondere für den Bereich der nicht-kanonischen Werke hätten sie sich vermutlich als ergiebig erwiesen.

2.3.2 Digitale Quellen

Während bei Bibliographien und Verzeichnissen meist Vollständigkeit angestrebt wird, nehmen Quellen wie Literaturgeschichten und Nachschlagewerke mit der getroffenen Auswahl und Gewichtung gleichzeitig eine Wertung vor. Dies gilt natürlich nicht nur für die gedruckten Nachschlagewerke, sondern auch für ihre elektronischen Pendants. Zudem sind bei den elektronischen Quellen meist weitere Schwierigkeiten zu berücksichtigen. Die frei zugänglichen Nachschlagewerke Historisches Lexikon der Schweiz und Wikipedia17 wurden verwendet, um im ersten philologischen Zugriff die Quellenlage für deutschsprachige Schweizer Autor:innen zu sichern. Diese Arbeit lieferte zwar auf Anhieb je eine hilfreiche Seite mit namentlichen Einträgen zur Deutschschweizer Literatur, Stichproben zeigten jedoch, dass viele Autor:innen aus den Nachschlagewerken nicht über den thematischen Sucheinstieg auffindbar sind. Zudem fehlen viele Autor:innen und die Detailliertheit der Werkverzeichnisse der enthaltenen Autor:innen variieren sehr.18

Als Enttäuschung erwiesen sich in diesem Zusammenhang insbesondere diverse lizenzierte elektronische Nachschlagewerke. Eine Abfrage nach deutschsprachigen Schweizer Autor:innen war entweder nicht wirklich ergiebig, da die Schweiz nur am Rande berücksichtigt wird (zum Beispiel Kritisches Lexikon zur deutschsprachigen Gegenwartsliteratur), oder nicht möglich, da die erforderlichen Suchkriterien entweder nicht erfasst oder nicht gezielt recherchierbar sind (zum Beispiel Killy Literaturlexikon, Deutsches Literatur Lexikon Online). So weist etwa das Deutsche Literatur Lexikon Online (DLLO), welches die beiden umfangreichen gedruckten Nachschlagewerke Deutsches Literatur Lexikon (DLL) und Deutsches Literatur Lexikon. Das 20. Jahrhundert in einer Datenbank vereint, Schweizer Autor:innen sehr umfassend nach. Auch ist das Schriftenverzeichnis zu den Personeneinträgen jeweils ausführlich und enthält auch häufig Angaben zur Gattung eines Werkes. Leider wurden jedoch die Inhalte der gedruckten Bände für die Datenbank nicht standardisiert und aufbereitet19, was diese für eine komplexe Recherche leider unbrauchbar macht. Auch die elektronische Version des DLL konnte also faktisch nur als händisches Nachschlagewerk zur Ergänzung von Werktiteln genutzt werden.

2.3.3 Regionen

Da sich im Verlauf des Projekts ein Fokus auf die Erzählliteratur der Regionen Basel, Bern und Zürich herauskristallisierte, wurden abschliessend zwei Verzeichnisse regionaler Belletristik ausgewertet: das Basler Literarische Archiv (BLA) und die Literapedia Bern. Die Werktitel beider Verzeichnisse sind im Bibliothekskatalog codiert20 und konnten als Liste exportiert werden. Die Einträge des Basler Literarischen Archivs wurden systematisch überprüft und die extrahierten Werklisten durch weitere Titel aus anderen Quellen ergänzt, da das Verzeichnis insbesondere Werke vor 1915 nur punktuell nachweist. Für den Raum Zürich gibt es leider kein Pendant, wie eine Nachfrage an der Zentralbibliothek ergeben hat. Es müssten dafür die lokalen Bibliographien ausgewertet werden, die bisher nur gedruckt existieren.21

Wo bekannt, wurden in der philologischen Liste Wirkungsort und Werkgattung verzeichnet. Insbesondere die Gattung eines Werkes ist im Projekt ein entscheidendes Metadatum. Gattung wird entweder im Paratext (Untertitel) des Werkes selbst erwähnt oder von Autoritäten wie den erwähnten Literaturgeschichten und Nachschlagewerken zugeschrieben. Dass diese Genreklassifizierung letztlich hoch variabel ist (vgl. z.B. Underwood, 2019, Kapitel 2), ist eine bekannte literaturhistorische und -theoretische Problematik, die wir pragmatisch lösten, indem wir, wo verfügbar, die unterschiedlichen Informationstypen zu Gattung in den Datensatz aufnahmen. Häufig fehlen jedoch Gattungs-Angaben („NA“-Einträge), was für unseren Datensatz bedeutet, dass Gattung oftmals nur autoptisch22 festgestellt und händisch in den Datensatz eingefügt wird.

Daneben wurden für die Einschätzung der Kanonizität nützliche Hinweise zu Personen und Werken in die Liste aufgenommen (wie zum Beispiel Hinweise auf mehrere Auflagen oder Auszeichnungen).23 Der Bereich der kanonischen Literatur ist durch unser Vorgehen, das sich auf einschlägige Kompendien beruft, insgesamt gut abgedeckt. Der Bereich der nicht-kanonischen Werke stellt sich schwieriger dar, nicht zuletzt, weil hier oftmals bereichsspezifisches Expertenwissen intellektuell erhoben werden muss. Nicht-kanonische Werke wurden von uns vor allem in Bezug auf die Literatur von Frauen, sowie die regionale Literatur aus Basel und Bern erhoben. Für eine weitere Anreicherung wäre die Auswertung der Schweizer Bibliographien und Buchhandelsverzeichnisse interessant.

2.4 Maschinelle Erweiterung der Datenbasis

Ausgehend von der oben beschriebenen #2 GND-Autor:innenliste und der #3 philologischen Liste wurde nun das Ziel einer möglichst umfänglichen Metadatenbank (Erhebung der Grundgesamtheit) mit maschinellen Methoden weiterverfolgt. Zunächst sollten die Autor:innen-Einträge mit möglichst vielen relevanten Merkmalen und Identifikatoren angereichert werden (2.4.1), um dann die Werktitel der Autor:innen aufzufinden und als Metadaten abzulegen (2.4.2).

2.4.1 Anreicherung der Autor:innen-Liste

Da die philologische Liste (Schritt #2) von Hand erstellt wurde (siehe 2.3), mussten die Autor:innen zunächst mit der GND-„Personen ID“ (kurz „GND-Nummer“) ergänzt werden. Diese dient als zentraler Identifikator gewissermassen als Anker, um die Liste um weitere Identifikatoren und Metadaten anzureichern. Das Auffinden der GND-Nummer für unsere philologische Liste wird durch den Reconciliation-Service von OpenRefine24 erfreulich vereinfacht. Auf Anhieb konnten zwei Drittel der N = 281 Autor:nnen anhand der Namen zugeordnet und angereicht werden (n = 123 Autor:nnen in beiden Datensätzen). In einem zweiten Schritt wurden die unsicheren Treffer intellektuell überprüft und sichere Treffer ausgewählt.

Nun konnten in Arbeitsschritt #4.1 die beiden Datensätze (#2 GND-Autor:innenliste; die Autor:innen der #3 philologischen Liste) miteinander abgeglichen werden. Diese neue, fusionierte Autor:innenliste umfasste nun ca. N = 1’900 Einträge und bildete die Basis für eine ganze Reihe weiterer Anreicherungsprozesse. In dieser Liste werden zum gegenwärtigen Zeitpunkt einige Autor:innen aus der ursprünglichen philologischen Liste nicht berücksichtigt (n = 49). Diese müssen in einem nächsten Schritt auf die Verfügbarkeit der GND-ID überprüft werden und – samt Werken – in die LOD-Anreicherung einbezogen werden.

Bei der Anreicherung wurde die Strategie verfolgt, möglichst viele Datenquellen nacheinander auszuschöpfen, um zu einem immer kompletteren Datenset zu gelangen. Um diese Abfragen zu erleichtern, wurde die Liste zunächst mit weiteren Autor:innen-IDs angereichert (siehe Tab. 2). Über die Datenschnittstelle von swissbib konnten die zugehörigen VIAF25- und Wikidata26-Identifikatoren für die Autor:innen gezogen werden.27 Unsere lokale Quellenangabe zeigt, ob ein Item sowohl in der GND-Liste und der philologischen Liste („sgu#gnd“) oder bislang nur in der philologischen Liste („sgu“) vorhanden war.

Tab. 2: Ausschnitt aus der unbereinigten erweiterten Liste CH-DE-AutorInnen

Aus VIAF wurden die Identifikationsnummer und die Werte des Attributs dbo:notableWorks für die Autor:innen bezogen.28 Aus Wikidata wurde die Identifikationsnummer wdt:P80029 und das Geschlecht wdt:P21 angereichert. Via lobid30 wurde schliesslich die GND nochmals abgefragt, um weitere Merkmale wie Geschlecht, Geburts- und Sterbedatum sowie -ort zu ergänzen. Externe Daten wurden nur berücksichtigt, wenn diese nicht bereits vorhanden waren. Die lokalen Daten hatten also immer Vorrang. Ebenfalls wurde die Identifikationsnummer des swissbib Linked-Data-Datensatzes ergänzt.31 Diese Identifikationsnummer ist wichtig, denn über sie werden die Werktitel aus dem swissbib Katalog abgefragt.

2.4.2 Werke finden

Zuerst wurden die Werke, welche in den Notable Works-Attributen aus VIAF und Wikidata referenziert wurden, geholt und mit weiteren relevanten Metadaten ergänzt. Dieser Prozess war nicht sehr ergiebig. Aus VIAF konnten so n = 1’910 Werke extrahiert werden und aus Wikidata nur n = 130 Werke. Die VIAF-Werke enthalten neben dem Metadatum „Titel“ nur das Metadatum „Sprache des Texts“. Die Metadaten-Bandbreite ist hier also sehr schmal, dafür sind diese aber fast komplett. Bei Wikidata konnte neben „Titel“ und „Sprache“ auch der „Typ des Werkes“32 (entspricht in etwa „Gattung“) extrahiert werden.

Um die Anzahl der Werke zu erweitern, wurden auch solche aus dem Bibliothekskatalog swissbib ausgewertet. Leider ist auch diese Liste nicht vollständig, da nur Datensätze gefunden wurden, die im Katalog mit der GND (oder einer anderen Autoritätsidentifikationsnummer) verknüpft sind. Insgesamt konnten aber über N = 56’000 Katalogeinträge identifiziert werden. Allen gemeinsam ist, dass eine Person aus dem Autor:innen-Datensatz (#4.1) in irgendeiner Form, sei es beispielsweise als Herausgeber, zum Werk beigetragen hat.

Dieser grosse Datensatz musste jedoch noch nachbearbeitet werden, um Dubletten und nichtrelevante Einträge zu entfernen. Die meisten Werke sind in mehreren Bibliotheken vorhanden und erhalten so jeweils einen eigenen Eintrag in unserem Datensatz. Um den Datensatz zu verkleinern, konnte ein Wert genutzt werden, welcher solche Dubletten zumindest teilweise zusammenführt. Zusätzlich kommen in dieser Liste auch Übersetzungen vor (die nicht relevant sind, da das Projekt nur auf Deutsch verfasste Werke berücksichtigt). Mit diesen beiden Kriterien konnte der Datensatz auf N = 25’410 Einträge reduziert werden.33

Ein Filtern nach den Datenwerten „1880“–„1930“ ergab eine Liste von n = 7’963 Werken von n = 868 Autor:innen. Jedoch sind im Feld „Datum“ insgesamt n = 2’184 NAs oder andere nicht-verwendbare Codes enthalten, die zumindest potenziell weitere relevante Werke (und Autor:innen) enthalten.

Unser work in progress berichtet also konservativ rund 11’000 literarische Werke von circa 850 Autor:innen Deutschschweizer literarischer Prosa für 1880–1930. Da hier noch einige irrelevante Items, zum Beispiel nichtliterarische Gattungen und nichtdeutschsprachige Texte, enthalten sind, handelt es sich um eine sicherlich noch „aufgeblähte“ Zahl. Unsere definitive Annäherung an die Grundgesamtheit erfordert einige weiteren Schritte, u.a. mit Filtern, an die sich eine intellektuelle Überprüfung anschließt. Dubletten können über Suchanfragen nach Metadaten (wie Titel, Sprache, Publikationsjahr, Publikationsort, und in manchen Fällen auch über das Thema) relativ rasch identifizieren werden. Wie erwähnt müssen insbesondere in den Feldern „Publikationsdatum“ und „Gattung“ fehlende Werte auch händisch ergänzt werden, um den Datensatz anschliessend aufräumen zu können.

Die Vorstellung, mit maschinellen Abfragen auch nur ein annähernd vollständiges Datenset direkt erstellen zu können, hat sich für unser Projekt zur Deutschschweizer Literatur noch als Utopie erwiesen. Hingegen wurde für unsere Fragestellung klar, dass die manuelle philologische Erhebung weiter eine unumgängliche „Grundlagenforschung“ darstellt, und zwar nicht nur bezüglich der nicht-kanonischen Werke, sondern auch weit in den kanonischen Bereich hinein.

Die Vorteile des maschinellen Ansatzes, dessen Potenzial auch andere Projekte im Bereich der Literaturwissenschaften erkannt haben34, liegen aber auf der Hand. Was er auch in unserem Projekt bereits leisten konnte, ist eine effiziente Anreicherung der philologischen Liste mit verschiedenen LOD-Identifikatoren und das schrittweise Anreichern des Datensatzes um Namen, Werke und weitere Metadaten, die sich in der finalen Bereinigungsarbeit als nützlich erweisen werden. Zudem sind forschungsrelevante Metadaten zu Autor:innen (wie Gender, biographische Daten) und Werken (Publikationsjahr, Gattung, Seiten-Umfang und Kanonizität) zumindest in Teilen systematisch vorhanden. Lücken und Inkonsistenzen sollen hier in einigen Folgeschritten sukzessive ausgeglichen werden.35

Die gemeinsame Arbeit hat uns dem Ziel, die Schweizer Erzählliteratur für den Zeitraum um 1900 präzise zu beschreiben, um ein sehr großes Stück angenähert. Nicht nur für unser Projekt, sondern auch angesichts einer wachsenden Nachfrage aus literatur-, kultur- und datenwissenschaftlichen Disziplinen sind vollständigere, korrektere und einheitlichere Metadaten ein Desiderat.

Jedoch sind gänzlich saubere, einheitliche und vollständige Metadaten wohl noch länger nicht erreichbar, vereint doch swissbib insgesamt 900 Katalogsysteme aus der Schweiz. Es sind nicht nur die unterschiedlichen Erfassungsstandards, die sich in der Datenqualität niederschlagen, sondern auch die historische Gewachsenheit der Datenbestände, die zu je unterschiedlichen Zeitpunkten mit unterschiedlichen Regelwerken erfasst wurden. Doch für die Verbesserung der Datenlage und die Erprobung neuer Vorgehensweise bedarf es eben Projekten wie dem unseren.

Für unser Projekt kann konstatiert werden, dass wir nach Abschluss der Bereinigung mit einer für den Bereich der digitalen Literaturwissenschaft vergleichsweise hohen36 Abbildgenauigkeit der Daten rechnen können. Die maschinell verlinkte Datensuche eröffnet uns auch dank der philologischen Liste, sowie Gender und Region als Balancefaktoren für nichtkanonische Werke, einen Überblick der Erzählliteratur, der zwar sicherlich nicht die Grundgesamtheit selbst darstellt, aber unseres Wissens nach erstmalig einen quantitativen Zugriff auf das ideelle Gesamtkorpus erlaubt. Für unsere weitere Forschung stellt es also eine wertvolle Grundlage für das wohlinformierte Sampling repräsentativer Volltexte dar, um in der Folge Emotionsrepräsentationen in erzählten Räumen der Literatur quantitativ zu untersuchen.

3. Die Retrodigitalisierung

Für das affektive und räumliche Textmining der Deutschschweizer Literatur werden derzeit möglichst viele der Werke unseres Datensatzes als digitale Volltexte gesammelt und in Auswahl auch retrodigitalisiert.37

Die Komplexität des Vorhabens der quantitativen Konzeptualisierung wurde nochmals deutlich, als es konkret darum ging, diejenigen Werke, die noch nicht digital vorlagen, für die Digitalisierung zu beschaffen. Obwohl der Begriff „Schweizer Literatur“ eine gewisse Selbstverständlichkeit besitzt, zeigte sich, dass die Deutschschweizer Literatur weder listenförmig noch in physischen Ausgaben leicht verfügbar ist. Rund 40% der Werke waren nicht oder nicht in der gewünschten Ausgabe in der UB Basel vorhanden und mussten aus anderen Bibliotheken beschafft werden – teils sogar aus Bibliotheken, zu denen die UB Basel keinen Kurierdienst besitzt. Dies war eine neue Erfahrung für die UB Basel, die mit ihrer Digitalisierungsstrategie auf die Verfügbarmachung ihrer eigenen Bestände fokussiert.

Auch beim Digitalisierungsworkflow musste sich die Bibliothek an die konkreten Anforderungen des Projekts anpassen. In erster Linie betraf dies das Ausgabeformat der Textdaten und die Organisation der fortlaufenden Datenübergabe an das Projekt. Auch weicht das Projekt in der Arbeitsweise vom klassischen Digitalisierungsauftrag ab, indem es nicht mit einer fertigen Titelliste mit Signaturen begann, sondern eine Kollaboration im Sinne eines Work in Progress war, bei der unter anderem auch die Abklärung des Urheberrechts virulent wurde, etwa, wo ein Roman von 1912 noch nicht in die Public Domain fällt, da die Autorin zum Publikationszeitpunkt sehr jung war und erst 1969 verstarb.

Eine zentrale Sorge betraf die Qualität der OCR-Lesung bei den Frakturschriften. Da das Projekt an den Erstausgaben der Werke interessiert ist, liegt ein Großteil noch in Frakturschrift vor. Glücklicherweise wiesen die meisten Werke einen guten physischen Erhaltungszustand auf und verfügten über eine gute Druckqualität. Dank der hohen Scanqualität konnte eine insgesamt sehr gute OCR-Qualität erzielt werden, eine systematische Überprüfung der Character- und Word-Error Rate war daher nicht nötig. Allerdings gab es dabei auch Ausnahmen: Bei Erzählungen, die umfangreiche Passagen in Mundart enthalten, schlug die OCR-Lesung systematisch fehl. Solche Texte mussten in der post correction manuell berichtigt oder gar ausgesondert werden. An dieser wie auch an vielen anderen Stellen zeigte sich, wie wichtig die Kooperation zwischen Forschungsprojekt und Bibliothek ist. So prüft das Bibliothekspersonal beispielsweise in der Digitalisierungsvorbereitung die Werke, um wirklich sicherzustellen, dass keine Lyrikbände oder reine Mundartwerke digitalisiert werden.

Da diese projektspezifische Digitalisierung in  manchen Punkten von der bibliotheksinternen Routine abwich, war eine fortlaufende Abstimmung zwischen Digitalisierung und Projekt notwendig, was eine hohe Flexibilität beider Seiten erforderte. Durch das gezielte Mitdenken der Voraussetzungen und Ziele des anderen konnten Synergieeffekte ausgeschöpft werden. So schlug die Bibliothek den Projektverantwortlichen die zusätzliche Publikation der gemeinfreien Werke auf der digitalen Bibliothek e-rara38 vor. Dies war nicht nur ein Gewinn für die Bibliothek, die so die Sichtbarkeit ihrer Bestände erhöhen kann, sondern kommt auch dem Projekt zugute, indem dieser Teil der Forschungsdaten bereits  kostenlos dauerhaft gesichert und verfügbar ist.

4. Fazit

Die beschriebene Kooperation hat uns dem Ziel, den Zusammenhang von Gefühl und dargestelltem Raum während fünf Dekaden der Deutschschweizer Literatur zu erforschen, ein grosses Stück nähergebracht. Die gemeinsame Arbeit war eine heutzutage noch recht seltene, aber lohnende Investition, weil es für die datenintensive und datengetriebene Forschung hochskalierte, aber eben auch belastbare Daten braucht. Im Unterschied zu vielen anderen Projekten gingen wir also nicht von einer rein pragmatischen Sammlung bereits digitalisierter Volltexte aus, sondern starteten mit dem Meilenstein eines möglichst kompletten Index der relevanten Werke: Der Index wird bereits vor Akquise der Volltexte erstellt, um einschätzen zu können, an welchen Stellen gezielte Retrodigitalisierung erfolgen soll, um eine möglichst gute Repräsentativität der „wahren“ Population der Texte zu erzielen.

Ausgehend von unserer Datenbasis liegt die tatsächliche Anzahl Deutschschweizer literarischer Prosawerke 1880–1930 zwischen 7’000 und 10’000 Titeln. Dass diese Schätzung in einem engen Sinne datenbasiert ist, ist nicht trivial, sondern ein Novum. Dem Kriterium der Hochskalierung ist die Arbeit also bereits gerecht geworden: bei dieser literaturwissenschaftlichen Form der „big data“ geht nicht mehr um einige wenige exemplarische Titel, sondern um die tatsächliche Grundgesamtheit der gedruckten Werke.39 Wie beschrieben, müssen unsere Daten aber noch weiter bereinigt werden, um auch belastbar zu sein. Dazu muss die Spezifität (Precision)40 des Datensatzes erhöht werden, vor allem durch die Entfernung von irrtümlich eingeschlossenen Werken (false positives).

Es ist klar, dass auch die gesäuberte Liste nur eine Annäherung an den wahren Umfang und die Variabilität des fokussierten Publikationszeitraums und -genres sein kann. Zur weiteren Erhöhung der Sensitivität (Recall), besonders zur Entfernung eines Kanonizitätsbias, ist also die Ergänzung der Liste um bislang nicht berücksichtigte Titel (false negatives) erforderlich. Diese Arbeit ist aufgrund des erhöhten intellektuellen Aufwands und des benötigten Expertenwissens nicht trivial. Sie sollte daher Sache eines kollaborativen Sammel- und Dokumentationsauftrags sein, der sich als Aufruf an spezialisierte Forschungsprojekte ganz unterschiedlicher Couleur wendet. Zur Kommunikation dieses Auftrags sind verschiedene Szenarien vorstellbar, so etwa der Einbezug der Akademien (SAGW, ÖAW, Akademienunion) sowie der zentralen Forschungsförderungsinstitutionen (SNF, DFG und FWF) und weiterer Institutionen über die Ländergrenzen hinweg.

Ein anderes Desiderat ist die Interoperabilität bestehender linked data Ressourcen in Echtzeit, unter automatischer Aktualisierung der Datensätze aus mehreren unabhängigen Repositorien zugleich. Alassi (2020, Kapitel 7) legt einen generischen Workflow für über RDF Triplette flexibel durchsuchbare digitale Editionen vor, der auch für andere Typen von linked data nutzbar wäre.

Doch zurück zu unserem Projekt: Hätte es im Nachhinein andere, gegebenenfalls einfachere Wege gegeben? Wir meinen: wohl kaum, oder aber nur in Nuancen. Unsere Hauptentscheidungen betrafen

  • Grundgesamtheit vor Textkorpus: Wir verfolgen einen Ansatz, der vom Usus vieler Digital Humanities-Projekte etwas abweicht. Anstatt lediglich die bereits digital verfügbaren Werke als Textkorpus zu sammeln oder uns pragmatisch auf eine Untermenge zu verständigen, erheben wir zuerst die quantitative Grundgesamtheit der publizierten Werke. Wenn das Ziel eine quantitative Erhebung ist, sind eben (ausgehend von der in unserem Fall unerlässlichen manuellen Arbeit der „philologischen Liste“) quantitative Vorgehensweisen und digitale Ressourcen nötig.

  • Entwicklung des Workflows: Wir haben in unserer Zusammenarbeit einen Workflow zwischen den unterschiedlichen Quellen (Katalog, digitale Ressourcen, LOD, philologische Quellen) erst entwickelt und dabei die stetige Anreicherung des Datensatzes in seinen verschiedenen Versionen vollzogen.

Bezüglich des Workflows ist aus Sicht des data librarianships sicherlich erneut die Frage  zu stellen, ob die besten, funktionellen und aktuellen, LOD-Ressourcen41 genutzt und in der effizientesten Weise verknüpft wurden. So stellt sich insbesondere die Frage, ob die unterschiedlichen Arbeitsschritte #2–#4 besser hätten verzahnt werden können:

  • Wäre ein früherer Zugriff auf Wikidata oder DBPedia sinnvoll gewesen? Wir meinen nicht, brauchten wir doch den Weg über die Autor:innen-GND, den philologischen „Goldstandard“ und das schrittweise Anreichern weiterer LOD-Indices. DBPedia ist momentan weniger aktuell als Wikidata.

  • Wäre eine frühere Quellenkritik zwischen den Schritten #3 und #4, also der weiteren Anreicherung, sinnvoll gewesen, um die Datenmenge kleiner zu halten? Quellenkritik der Listen ist in jedem Fall notwendig, zum Beispiel, weil schon unser zentraler und erster LOD-Identifikator, die GND, für unsere Zwecke sehr ungenau ist. Aus den angereicherten Daten müssen die Einträge mit irrelevanten Lebensdaten, Berufsbezeichnungen (Regisseur:in und Übersetzer:in), und Sprache (Welschschweizer Autor:innen) entfernt werden. Sicher ist, dass die angereicherten Daten ausgedünnt werden müssen, unklar ist noch der optimale Zeitpunkt dieses Beschneidens: ob iterativ zwischen den Anreicherungen oder am Schluss?

Das Ausloten der Bibliothekskataloge als Forschungsinfrastruktur ist bei Weitem noch nicht abgeschlossen und weitere spezifische Vorhaben müssen hier ebenfalls Desiderata formulieren. Denn unser Projekt macht vor allem eines deutlich: datengetriebene Forschungsvorhaben wollen künftig immer häufiger mit solch präzisen Fragestellungen auf Katalogsysteme zugreifen und Katalogdaten als Forschungsdaten (oder Ausgangspunkt für Forschungsfragen) verwenden.

Aus Sicht der Bibliothek ist eine gute Metadaten-Qualität für (zukünftige) Forschungsprojekte daher ausschlaggebend. Maschinell kann aus dem Bibliothekskatalog wie auch aus Normdateien und Datenbanken aber nur abgefragt werden, was in den Daten enthalten ist. So kommt der Datenpflege und Qualitätssicherung auch unter dem Vorzeichen des Digitalen grosse Bedeutung zu. Diese klassische Bibliotheksaufgabe darf nicht unterschätzt werden. Neben einheitlichen Erfassungsstandards und Bereinigungsarbeiten (zum Beispiel nach Zusammenführung von Datenbeständen aus unterschiedlichen Katalogen) ist auch zu prüfen, ob und welche weiteren für Forschungsprojekte datenwissenschaftlicher Disziplinen relevanten Parameter neu erfasst werden könnten.

Die Bibliothek bekommt als Forschungsinfrastruktur zudem einen neuen Akzent. Ein aktives Anbieten von Informationen und eine gute Sichtbarkeit für die Wissenschaftler:innen ist nötig, die wissen müssen, dass ihre Fragen hier beantwortet werden und sie mit der Bibliothek projektorientiert zusammenarbeiten können. Ein Forschungsprojekt mit seiner konkreten Fragestellung ist ein echter Test der Bibliotheksinfrastruktur und wirft viele Fragen auf – nicht nur hinsichtlich der Qualität der Erschliessung, dem Stellenwert von Katalog, Datenbanken, Referenzwerken, Bibliographien, sondern auch hinsichtlich forschungsbezogener Bibliotheksservices. Dabei heisst „digital“ noch lange nicht nutzbar. Problempunkte sind Interoperabilität und Datenqualität: Der Zugriff auf Linked Data ist derzeit noch kein standardmäßig und leicht verfügbarer Dienst.

Wir schliessen mit einigen konkreten „learned lessons“ und Desiderata:

Korpusliteraturwissenschaftliche Forschungsprojekte sollten Arbeitspakete für die Erhebung nicht nur von Volltexten, sondern auch von Metadaten einplanen. Deren Modellierung ist, gerade wenn die Datensätze noch gar nicht oder nur in Teilen vorhanden sind, ein wichtiger Teil des Forschungsprozesses. Diese neue metadatenbasierte Literaturwissenschaft ist zwischen Fachdisziplin und Data Librarianship angesiedelt.

Daher schlagen wir vor: Forschungsbibliotheken sollten idealerweise schon vor Projektbeginn Ansprechpartner:innen für  (Literatur-)Wissenschaftler:innen sein, um Angaben über Datenlage und Datenqualität zu machen und gemeinsam den zeitlichen und personellen Aufwand abzuschätzen. Zudem sollte es auf Seiten der Bibliothek spezialisiertes Personal geben, das entweder im Rahmen des Bibliotheksdeputats mitarbeitet oder freigestellt würde, um aus Projektmitteln finanziert zu werden. Bei all diesem wäre eine zentrale Koordinationsstelle hilfreich, die Arbeitsabläufe und Kommunikationswege bereits im Vorfeld klärt und Kompetenzen bereitstellt.

Reiseführer in der Anfangszeit des Alpinismus stellten erste Handleitungen für die „rauhen Wege der Alpen, die oft jähen und gefährlichen Pfade auf denselben“ (Wyttenbach, 1777) bereit. Ganz ähnlich haben wir aufgezeigt, wie das teils unwegsame und immer hochskalierte Gelände der „(Meta-)Datenberge“ unseres korpusliteraturwissenschaftlichen Projekts begehbar werden kann. Wo Wyttenbach mindestens einen langen Bergstock und beschlagene Schuhe empfiehlt, nebst Fusseisen und Überstrümpfen gegen die Insekten, haben wir – so steht zu hoffen – konkret gezeigt, wie „Reisepartien“ aus Bibliothek und Fachwissenschaft im Datengelände erfolgreich zum Ziel kommen können. Wir enden mit der schönen Aussicht, dass in absehbarer Zeit wohl auch die Datenberge der Literaturwissenschaft nicht nur rau aufgetürmt, sondern kartographiert verheißungsvoll zum Auskundschaften bereitstehen.


Comments
0
comment

No comments here