Parsey McParseface: Google gibt mächtigen Sprach-Parser frei

13. Mai 2016, 14:46
4 Postings

Für englische Sprache, Basis SyntaxNet kann aber auch auf andere Sprachen trainiert werden

Natürliche Sprache ist für Computer bis heute eine große Herausforderung, zeichnet sich diese doch durch einen großen Variantenreichtum und einen Hang zur Unschärfe aus. Das Zerlegen eines gesprochenen Satzes in seine einzelnen grammatikalischen Elemente ist allerdings Voraussetzung für eine gute Spracherkennung, also haben sich die großen Softwarehersteller mit dem Blick auf Siri, Google Now und Co. zuletzt vermehrt diesem Thema gewidmet.

Maschinenlernen

Bei Google verwendet man einen eigenen Parser namens SyntaxNet für solche Aufgaben, und diesen gibt das Unternehmen nun als Open Source frei. Die Basis bildet dabei TensorFlow, Googles eigene Lösung für Maschinenlernen, die bereits seit einigen Monaten freie Software ist.

Parsey McParseface

Wie es bei solch neuronalen Netzwerken die Regel ist, müssen sie erst trainiert werden, um ihre volle Nützlichkeit entfalten zu können. Unter dem Namen Parsey McParseface bietet Google aber zusätzlich bereits einen vortrainierten Parser für die englische Sprache an.

Trefferquote

Laut Google kommt Parsey McParseface bei einem Test mit Sätzen aus dem Penn Treebank Project auf eine Trefferquote von 94 Prozent. Zum Vergleich: Menschen erreichen beim selben Test im Schnitt einen Wert von 96 bis 97 Prozent. Die Differenz machen dabei vor allem Sätze aus, deren Sinn sich lediglich aus dem Kontext ergibt, hier tun sich die Maschinen derzeit noch schwer.

Download

Google hat den Quellcode von SyntaxNet und Parsey McParseface auf Github veröffentlicht. An dieser Stellt gibt es auch eine Anleitung, wie man selbst einen eigenen Parser auf Basis von SyntaxNet erstellen kann. (apo, 13.5.2016)

  • Spracherkennung kann ganz schön schwer sein.
    foto: matthew fearn / epa / apa

    Spracherkennung kann ganz schön schwer sein.

Share if you care.