Bücher hinterlassen einen "statistischen Fingerabdruck"

21. Juni 2015, 14:14
12 Postings

Wiener Forscher schreiten mit mathematischen Methoden zu Textanalyse

Wien – Komplexitätsforscher haben so etwas wie einen "statistischen Fingerabdruck" von Büchern entdeckt. Aus der Statistik der in einem Buch verwendeten Worte lassen sich Aussagen über den Autor oder den Texttyp machen, berichten der Physiker Stefan Thurner vom Institut für Wissenschaft komplexer Systeme an der Medizinischen Universität Wien und seine Kollegen im Fachjournal "Interface" der Royal Society.

Ausgangspunkt der Arbeit sind Vorgänge, in denen mit der Zeit die Zahl der Möglichkeiten abnimmt. Ein anschauliches Beispiel für solche in natürlichen und sozialen Systemen häufigen Prozesse ist die Satzbildung: Das erste Wort kann man noch frei wählen, bei jedem weiteren schränken Grammatik und Kontext die Wortwahl immer weiter ein.

Das Zipf'sche Gesetz

In ihrer im Fachblatt "PNAS" veröffentlichten Arbeit haben Thurner und seine Kollegen einen mathematischen Satz für solche zeitabhängigen Vorgänge bewiesen. Demnach führt jeder Prozess, der nach jedem Zeitschritt weniger Möglichkeiten hat, zum sogenannten Zipf'schen Gesetz. Dieses hat der US-Linguist George Kingsley Zipf (1902-1950) in den 1930er-Jahren formuliert.

Zipf hatte die Häufigkeit von Wörtern in einem Buch oder einer Sprache gezählt, diese gereiht und eine verblüffende Regelmäßigkeit festgestellt: Demnach kommt das zweihäufigste Wort etwa halb so oft vor wie das häufigste, das dritthäufigste Wort ein Drittel Mal so oft und das millionsthäufigste Wort ein millionstel Mal so oft. Solche Regelmäßigkeiten finden sich laut Thurner auch bei anderen Systemen, etwa der Häufigkeit von Erdbeben, der Größe von Städten oder der Einkommensverteilung.

Durch ihren Beweis, dass zeitabhängige Prozesse dem Zipf'schen Gesetz gehorchen, verstehen die Wissenschafter auf sehr allgemeine Weise solche Probleme. "Unsere aktuelle Arbeit ist jetzt eine erste Anwendung des Prinzips, das wir in PNAS vorgestellt haben", so Thurner.

Neue Möglichkeiten

Anhand von zehn berühmten englischsprachigen Büchern – von Charles Darwins "The Origin of Species", über Shakespeares "Romeo and Juliet" bis zu James Joyces "Ulysses" – zeigten die Wissenschafter, "dass es in jedem Buch ein Zipf'sches Gesetz gibt". Dieses sei nicht exakt und zeige Abweichungen, wenn man genauer hinschaue, "aber diese Abweichungen können wir nun verstehen". Auch wenn dies auf den ersten Blick vielleicht etwas "nerdig" erscheint, bietet der zweite Blick verblüffende Anwendungsmöglichkeiten.

"Es erlaubt uns, aus der Statistik der Verwendung von Worten Aussagen über den Autor oder den Texttyp machen zu können, etwa ob es sich um ein Theaterstück, einen Roman des 19. Jahrhundert oder ein Lehrbuch handelt", sagte Thurner. Es sei eine Möglichkeit, den Stil eines Autors zu quantifizieren und eigne sich dadurch als "statistischer Fingerabdruck". Man könne damit Texte klassifizieren und vergleichen, was Antworten auf Fragen ermögliche wie "Was ist das ähnlichste Buch zu Darwins 'Entstehung der Arten'?. Das könnte neue Perspektiven eröffnen, wie Maschinen Texte lesen und nach verschiedensten Gesichtspunkten 'verstehen' können – auch nach solchen, die uns als Menschen nicht zugänglich sind'', so Thurner. (APA/red, 21.6. 2015)

Share if you care.