Alte Stolpersteine, neue Schnittstellen

14. Februar 2012, 19:14
posten

Die Digitalisierung von Ressourcen der Geisteswissenschaften - auch E-Humanities genannt - ist bereits weit fortgeschritten - An Methoden zur effizienten Suche hapert es aber noch

Bloß darauf zu warten, dass das Pferd eines napoleonischen Offiziers über etwas stolpert, war nie die erfolgversprechendste Recherchemethode der Linguisten. Obwohl - die Legende um die Entdeckung des Steins von Rosetta ließe genau diesen Schluss zu: Die Dechiffrierung der ägyptischen Hieroglyphen im 19. Jahrhundert sei dem französischen Sprachwissenschafter Jean-François Champollion ja deshalb gelungen, weil zuvor ein Pferdefuß an der dreisprachigen Stele hängen blieb.

Heute, so scheint es, sind die Recherchebedingungen für Linguisten generell umgekehrt: Ein alter Stolperstein verhindert zumeist den ganz großen Fund. So wurden sprachliche Ressourcen von allen Kontinenten zwar schon vielfach digitalisiert und dezentral abgelegt, aber diese ungehobenen Schätze verfügen bis heute über kein gemeinsames Netzwerk.

Ein einfaches Beispiel: Möchte ein Linguist - oder ganz allgemein ein Geisteswissenschafter - im 21. Jahrhundert herausfinden, in wie vielen Romanen der Begriff "Entdeckung" von weiblichen französischen Autorinnen des 18. Jahrhunderts verwendet wurde, scheitert er mit großer Wahrscheinlichkeit. Dafür gibt es mehrere Gründe: Googelnden oder in Wikipedia forschenden Wissenschaftern bleiben Primärquellen in aller Regel unzugänglich. Und wer die beschwerliche Expeditionsreise in eine einzelne - möglicherweise sogar schon digitale - Bibliothek überhaupt noch auf sich nimmt, kämpft meistens mit dem Kriterium der Begrenztheit von Quellen.

Clarin auf Sprachschatzsuche

Schon seit 2008 versucht ein in seinem Anspruch auf Vollständigkeit einzigartiges EU-Projekt genau dieses Defizit der Geisteswissenschaften beständig auszugleichen. Mit der sogenannten Common Language Resources and Technology Infrastructure - kurz: Clarin - sollen künftig webbasierte Plattformen und Schnittstellen geschaffen werden, die eine praktikable Bereitstellung von Sprachressourcen und -technologien ermöglichen. Insofern verkennt ein einzelnes Fallbeispiel wie das vom Experten für frankophone "Frauenliteratur" die gesamte Ambition des Vorhabens. Clarin tritt nämlich an, die de facto weit fortgeschrittene Digitalisierung der Geisteswissenschaften grundsätzlich besser benutzbar zu machen.

Die Wirklichkeit technischer Standards stellt aber virtuell forschende Wissenschafter noch vor große Herausforderungen: Für das Abrufen europäischer Sprachressourcen müssen erst einmal verschiedene Systeme untereinander kompatibel gemacht werden.

Dabei gilt es, Nutzungsrechte ebenso zu berücksichtigen wie das Problem der langfristigen Speicherung von Daten. Zudem stellt die per se wünschenswerte Vielfalt an möglichen Zugängen zu Quellen gleichzeitig eine Gefahr für das Erreichen maximaler Kompatibilität dar: An Clarin sind insgesamt 32 Partner aus 22 Ländern beteiligt. Werden dabei parallele oder doppelte Infrastrukturen aufgebaut, scheitert die Vision der paneuropäischen "E-Humanities" an zwei Aspekten: Die Realisierung ist zu teuer und der Nutzwert wie gehabt zu gering.

Universelle Verwertbarkeit

Gerhard Budin, Leiter des Instituts für Corpuslinguistik und Texttechnologie an der Österreichischen Akademie der Wissenschaften, erklärt, wie Clarin hier ansetzt: "Nationale Projekte, die als Teil der europäischen Initiative durchgeführt werden, sind von vornherein darauf ausgelegt, in allen anderen Ländern verwertbar zu sein." Kümmert sich demnach die Technische Universität Wien um die Frage, wie die Texterkennung in historischen Texten automatisiert werden kann, sollte das kein zweites europäisches Institut isoliert von diesem Vorhaben tun. Doppelgleisigkeiten beim Aufbau von Clarin werden vermieden oder zumindest abgeglichen.

Budin, der von Beginn an die österreichische Beteiligung an Clarin koordiniert, erhofft sich durch diese arbeitsteilige Errichtung von geisteswissenschaftlichen Forschungsinfrastrukturen Folgendes: "Das Ziel muss sein, dass Datenressourcen aus verschiedenen Ländern durch kluge Vernetzung möglichst viele, nichtredundante Ergebnisse zur selben Abfrage liefern."

Eine Roadmap für Clarin könnte dabei in etwa so aussehen: Zuerst werden die Linguisten davon profitieren, mehr Sprachmaterial anzapfen zu können. In weiterer Folge sollen aber generell Forscher, Studenten der Geisteswissenschaften und letztlich alle EU-Bürger auf den multikulturellen und vielsprachigen Content der Union auf eine Weise zugreifen können, die kein IT-Fachwissen erfordert. Die Einbindung der breiten Öffentlichkeit in diesen Prozess geschieht vor allem durch eine Anbindung an die Europeana. Dabei handelt es sich um eine virtuelle Bibliothek, die das wissenschaftliche und kulturelle Erbe Europas von der Frühgeschichte bis in die Gegenwart in Form von Bild-, Text-, Ton- und Video-Material zugänglich macht.

Dariahs digitale Draufgaben

Eng verflochten mit Clarin wird aber noch ein zweites Werkzeugset für die IT-basierte geisteswissenschaftliche Forschung aufgebaut, die Digital Research Infrastructure for the Arts and Humanities - kurz: Dariah. In Abgrenzung zu Clarin stehen dabei nicht Sprachressourcen im Fokus, sondern digitalisierte Bestände für die interdisziplinäre Forschung. So ist unter anderem auch das Österreichische Archäologische Institut am Aufbau dieser vernetzten Infrastruktur beteiligt. Clarin und Dariah zusammen sollen jedenfalls dafür sorgen, dass die geisteswissenschaftliche Recherche in Zukunft nicht mehr dem Pferdefuß der Zufälligkeit unterliegt. (DER STANDARD, Printausgabe, 15.02.2012)

  • Bild nicht mehr verfügbar

    Früher stolperten Forscher mitunter über ein Missing Link wie den Stein von Rosetta. Heute krankt die wissenschaftliche Recherche eher an der fehlenden Verlinkung von vorhandenem Wissen.

Share if you care.