Die Wiener Schule der Textanalyse

Verträge und juristische Texte automatisch und verlässlich analysieren? Wiener Entwickler zeigen einen praxisnahen Weg.

Ein großer Finanzdienstleister möchte Insider-Trading seiner Mitarbeiter verhindern, weil in diesen Fällen hohe Strafzahlungen drohen. Wie könnte man also ein E-Mail-System automatisch überwachen, um verdächtige Aktionen herauszufischen.

Die US-Bank JPMorgan stellte diese Frage gemeinsam mit weiteren Testfällen an eine Reihe von Tech-Unternehmen, die sich mit Artificial Intelligence (AI) beschäftigen. In einem Datensatz mit einer Million E-Mails sollten 40 "poison pills" – in dem Fall problematische Nachrichten, die auf Insiderhandel hindeuten – gefunden werden.

Die Systeme von Google, Microsoft, selbst IBMs zu einiger Bekanntheit gekommenes AI-System Watson brachten kaum brauchbare Lösungen hervor – entweder stimmte die Qualität nicht, oder die jeweiligen Vorarbeiten waren zu aufwendig, um praktikabel zu sein.

Der Mann, der von dieser Herausforderung erzählt, heißt Francisco Webber. Denn sie war einer der Ausgangspunkte, die sein Wiener Start-up Cortical.io als AI-Dienstleister für Großunternehmen etablierte. "Wir waren mit unserem Testaufbau die Ersten, die diese E-Mails finden konnten", berichtet Webber. "Nach einer Woche konnten wir acht problematische Nachrichten identifizieren. Sieben davon waren bekannte ,poison pills', eine war auch für die Aufgabensteller von JPMorgan neu."

Künstliche Intelligenz statt Anwalt

Von da an sei alles flott gegangen. Das Telefon läutete, und am anderen Ende waren Vertreter von meist großen Konzernen, die alle ein Problem eint: Sie müssen riesige Datenbestände in Textform unter gewissen Gesichtspunkten durchsuchen und analysieren. Riesen wie Cisco oder Unilever gehören nun zu den Kunden von Cortical.io.

Für die Unternehmensberater von PwC durchforstet das System etwa hundertausende Leasingverträge, damit sie den immer wieder aktualisierten Anforderungen der Marktaufsicht genügen. "Das ist eine Aufgabe, die bisher von dutzenden Anwälten erledigt werden musste. Wir konnten zeigen, dass wir sie zu 70, 80 Prozent automatisieren können", sagt Webber.

Der Erfolg des Start-ups – mit seinen 25 Mitarbeitern ein "Mikrounternehmen zwischen Elefanten" – basiert auf einer Technologie, die sich von jenen AI-Systemen der großen Tech-Konzerne grundlegend unterscheidet. "Der große AI-Zirkus bewegt sich in eine vollkommen andere Richtung", betont Webber. "Wir haben an der US-Westküste jede Menge skurriler Erlebnisse. Dort erwartet man sich, dass bei AI außerhalb von Google nichts Relevantes passiert."

Ein Ausgangspunkt für das System, das Webber und Kollegen entwickelten, sind die Theorien von Jeff Hawkins. Der Gründer des einstigen Mobilcomputer-Pioniers Palm plädiert dafür, sich in der Gestaltung jener lernfähiger neuronaler Netzwerke, die heute als AI bezeichnet werden, stärker am menschlichen Gehirn zu orientieren. Er glaubt, dass eine künstliche Nachbildung von sich wiederholenden Neuronennetzwerken, die das menschliche Denkvermögen mitbestimmen, einen großen Sprung vorwärts bedeuten könnte.

Verarbeiten von Sprachinformation

"Wir haben uns gefragt, was dieser Ansatz für das Verarbeiten von Sprachinformation bedeutet", blickt Webber zurück. Der Wiener, der eigentlich Medizin studiert hatte, beschäftigte sich bereits seit den 1980er-Jahren mit Informatiksystemen. Er organisierte Datenbanken für medizinische Forschungsgruppen und konzentrierte sich früh auf das gezielte Suchen von Informationen in großen Datenbeständen.

Als Webber auf Hawkins Theorie stieß, hatte er gerade das zweite von ihm gegründete Unternehmen verkauft – es beschäftigte sich mit dem Auffinden von Patentinformationen. Er habe "eine Art Geistesblitz" gehabt und baute darauf sein neues Start-up Cortical.io auf, das er 2011 mit Daniel Schreiber gründete. Ein von der Förderagentur FFG unterstütztes Projekt half bei der Prototyperstellung der Software, die Retina getauft wurde. Ab 2013 stießen Investoren und Mitarbeiter hinzu. Seit 2017 wird Geld verdient.

In Webbers Ansatz geht es darum, einen Begriff durch die Summe möglichst vieler Kontexte, in denen er vorkommt, darzustellen. Ein Beispiel: Das Wort "Katze" kommt etwa in biologischen Beschreibungen, in Kinderbüchern oder in Haustierforen im Internet vor. Die AI würde hier so trainiert, dass sie das Wort "Katze" in allen diesen Kontexten sammelt und eine Art Landkarte dieser Kontexte erstellt.

Analysiert das System nun einen konkreten Text, wird ein individueller Fingerabdruck der darin vorhandenen Kontexte gezeichnet – eine Art QR-Code für einen individuellen Textinhalt, der verglichen und ausgewertet werden kann. In Webbers Worten: "Wir stellen Text, Wort oder Satz durch eine numerische Repräsentation seiner Kontexte dar."

Geringe Rechenintensität

In den konkreten Anwendungsfällen wird die AI anhand von "Lehrbüchern" trainiert, um die relevanten Kontexte darstellen zu können. Der Ansatz hat laut Webber im Vergleich zu etablierten AI-Systemen den Vorteil, dass er mit vergleichsweise einfachen mathematischen Operationen auskommt: keine aufwendigen Gleitkommaberechnungen, keine statistischen Modelle.

Die geringe Rechenintensität des Ansatzes illustriert der Gründer mit einem Experiment mit Twitter: "Ich habe mithilfe unseres Systems aus allen Tweets, die zu einem Zeitpunkt erschienen, jene herausgefiltert, die in irgendeiner Form in Kontext mit dem Mobilfunkgeschäft standen. Dafür genügte ein Notebook."

Alle bisher erbrachten Errungenschaften basieren auf einer lexikalischen Semantik, es geht um Bedeutungen von Begriffen. Die Relationen zwischen ihnen, die die Grammatik eines Textes herstellt, bleiben noch unberücksichtigt. "Die Grammatik hereinzuholen könnte ein zukünftiger Schritt sein", sagt Webber. Damit würde man auch in den Bereich maschineller Übersetzungen vordringen können.

Vorerst hat das kleine Unternehmen mit großen Wachstumsaussichten aber mit der Analyse von Verträgen, Rechtstexten, Prozesshandbüchern und Ähnlichem genug zu tun. Ein Ziel soll es sein, eine Art AI-Werkzeugkiste für Menschen mit kognitiven Berufen zu bauen, eine Art Microsoft Office für digitale Arbeitsplätze, für Leute, die viel zu lesen haben. Webber: "Diese Tools wollen wir liefern." (Alois Pumhösel, 31.10.2018)

Artificial Intelligence

Die Wiener Schule der Textanalyse

Künstliche Intelligenz statt Anwalt

Verarbeiten von Sprachinformation

Geringe Rechenintensität

Forum:

Ihre Meinung zählt.