Die Digitalisierung von Ressourcen der Geisteswissenschaften - auch E-Humanities genannt - ist bereits weit fortgeschritten - An Methoden zur effizienten Suche hapert es aber noch
Bloß darauf zu warten, dass das Pferd eines napoleonischen Offiziers über
etwas stolpert, war nie die erfolgversprechendste Recherchemethode der
Linguisten. Obwohl - die Legende um die Entdeckung des Steins von Rosetta ließe
genau diesen Schluss zu: Die Dechiffrierung der ägyptischen Hieroglyphen im 19.
Jahrhundert sei dem französischen Sprachwissenschafter Jean-François Champollion
ja deshalb gelungen, weil zuvor ein Pferdefuß an der dreisprachigen Stele hängen
blieb.
Heute, so scheint es, sind die Recherchebedingungen für Linguisten generell
umgekehrt: Ein alter Stolperstein verhindert zumeist den ganz großen Fund. So
wurden sprachliche Ressourcen von allen Kontinenten zwar schon vielfach
digitalisiert und dezentral abgelegt, aber diese ungehobenen Schätze verfügen
bis heute über kein gemeinsames Netzwerk.
Ein einfaches Beispiel: Möchte ein Linguist - oder ganz allgemein ein
Geisteswissenschafter - im 21. Jahrhundert herausfinden, in wie vielen Romanen
der Begriff "Entdeckung" von weiblichen französischen Autorinnen des 18.
Jahrhunderts verwendet wurde, scheitert er mit großer Wahrscheinlichkeit. Dafür
gibt es mehrere Gründe: Googelnden oder in Wikipedia forschenden Wissenschaftern
bleiben Primärquellen in aller Regel unzugänglich. Und wer die beschwerliche
Expeditionsreise in eine einzelne - möglicherweise sogar schon digitale -
Bibliothek überhaupt noch auf sich nimmt, kämpft meistens mit dem Kriterium der
Begrenztheit von Quellen.
Clarin auf Sprachschatzsuche
Schon seit 2008 versucht ein in seinem Anspruch auf Vollständigkeit
einzigartiges EU-Projekt genau dieses Defizit der Geisteswissenschaften
beständig auszugleichen. Mit der sogenannten Common Language Resources and
Technology Infrastructure - kurz: Clarin - sollen künftig webbasierte
Plattformen und Schnittstellen geschaffen werden, die eine praktikable
Bereitstellung von Sprachressourcen und -technologien ermöglichen. Insofern
verkennt ein einzelnes Fallbeispiel wie das vom Experten für frankophone
"Frauenliteratur" die gesamte Ambition des Vorhabens. Clarin tritt nämlich an,
die de facto weit fortgeschrittene Digitalisierung der Geisteswissenschaften
grundsätzlich besser benutzbar zu machen.
Die Wirklichkeit technischer Standards stellt aber virtuell forschende
Wissenschafter noch vor große Herausforderungen: Für das Abrufen europäischer
Sprachressourcen müssen erst einmal verschiedene Systeme untereinander
kompatibel gemacht werden.
Dabei gilt es, Nutzungsrechte ebenso zu berücksichtigen wie das Problem der
langfristigen Speicherung von Daten. Zudem stellt die per se wünschenswerte
Vielfalt an möglichen Zugängen zu Quellen gleichzeitig eine Gefahr für das
Erreichen maximaler Kompatibilität dar: An Clarin sind insgesamt 32 Partner aus
22 Ländern beteiligt. Werden dabei parallele oder doppelte Infrastrukturen
aufgebaut, scheitert die Vision der paneuropäischen "E-Humanities" an zwei
Aspekten: Die Realisierung ist zu teuer und der Nutzwert wie gehabt zu gering.
Universelle Verwertbarkeit
Gerhard Budin, Leiter des Instituts für Corpuslinguistik und Texttechnologie
an der Österreichischen Akademie der Wissenschaften, erklärt, wie Clarin hier
ansetzt: "Nationale Projekte, die als Teil der europäischen Initiative
durchgeführt werden, sind von vornherein darauf ausgelegt, in allen anderen
Ländern verwertbar zu sein." Kümmert sich demnach die Technische Universität
Wien um die Frage, wie die Texterkennung in historischen Texten automatisiert
werden kann, sollte das kein zweites europäisches Institut isoliert von diesem
Vorhaben tun. Doppelgleisigkeiten beim Aufbau von Clarin werden vermieden oder
zumindest abgeglichen.
Budin, der von Beginn an die österreichische Beteiligung an Clarin
koordiniert, erhofft sich durch diese arbeitsteilige Errichtung von
geisteswissenschaftlichen Forschungsinfrastrukturen Folgendes: "Das Ziel muss
sein, dass Datenressourcen aus verschiedenen Ländern durch kluge Vernetzung
möglichst viele, nichtredundante Ergebnisse zur selben Abfrage liefern."
Eine Roadmap für Clarin könnte dabei in etwa so aussehen: Zuerst werden die
Linguisten davon profitieren, mehr Sprachmaterial anzapfen zu können. In
weiterer Folge sollen aber generell Forscher, Studenten der
Geisteswissenschaften und letztlich alle EU-Bürger auf den multikulturellen und
vielsprachigen Content der Union auf eine Weise zugreifen können, die kein
IT-Fachwissen erfordert. Die Einbindung der breiten Öffentlichkeit in diesen
Prozess geschieht vor allem durch eine Anbindung an die Europeana. Dabei handelt
es sich um eine virtuelle Bibliothek, die das wissenschaftliche und kulturelle
Erbe Europas von der Frühgeschichte bis in die Gegenwart in Form von Bild-,
Text-, Ton- und Video-Material zugänglich macht.
Dariahs digitale Draufgaben
Eng verflochten mit Clarin wird aber noch ein zweites Werkzeugset für die
IT-basierte geisteswissenschaftliche Forschung
aufgebaut, die Digital Research Infrastructure for the Arts and Humanities -
kurz: Dariah. In Abgrenzung zu Clarin stehen dabei nicht Sprachressourcen im
Fokus, sondern digitalisierte Bestände für die interdisziplinäre Forschung. So ist unter anderem auch das Österreichische
Archäologische Institut am Aufbau dieser vernetzten Infrastruktur beteiligt.
Clarin und Dariah zusammen sollen jedenfalls dafür sorgen, dass die
geisteswissenschaftliche Recherche in Zukunft nicht mehr dem Pferdefuß der
Zufälligkeit unterliegt. (DER STANDARD, Printausgabe, 15.02.2012)