Algorithmus blickt einige Minuten in die Zukunft

    Video14. Juni 2018, 14:22
    27 Postings

    Wissenschafter haben ein System entwickelt, das erstaunlich akkurat die Handlung eines Menschen vorhersagen kann.

    Bonn – Auf den ersten Blick mag es wie Science Fiction klingen, doch genau genommen benutzen wir im Alltag eine ganz ähnliche, wenn auch wesentlich einfachere Variante dieser lernfähigen Technologie, wenn wir Nachrichten in unsere Mobiltelefone oder Suchanfragen in Google eintippen. Während die Vorhersage von Worten mittlerweile für Programme kein Problem mehr darstellt, ist die Prognose einer menschlichen Handlung keineswegs so leicht zu errechnen. In einem "Minority Report"-ähnlichen Szenario sind wir also vorerst zumindest noch nicht gelandet – glücklicherweise, muss man fast sagen.

    Immerhin aber ist es nun Informatikern um Jürgen Gall von der Universität Bonn gelungen, eine Software zu entwickeln, die ein paar Minuten in die Zukunft blicken kann. Der Algorithmus lernt zunächst aus Videosequenzen die typische Abfolge von menschlichen Aktionen. Auf Basis dieser Erfahrungen gelingen dem System überraschend treffsichere Vorhersagen, was ein beobachteter Mensch als nächstes machen wird – fast so wie der perfekte Klischee-Butler, der die Wünsche seines Arbeitgebers vorausahnt.

    Hilfreicher Küchenroboter

    "Wir wollen Zeitpunkt und Dauer von Handlungen vorhersagen – und zwar Minuten oder sogar Stunden, bevor sie stattfinden", erklärt Gall. Ein Küchenroboter könnte dann zum Beispiel die Zutaten reichen, sobald sie gebraucht werden, rechtzeitig den Backofen vorheizen – und zwischendurch den Küchenchef warnen, wenn der einen Zubereitungsschritt zu vergessen droht.

    Während wir Menschen sehr gut darin sind, Handlungen unserer Zeitgenossen zu antizipieren, steckt bei künstlichen Intelligenzen diese Fähigkeit noch in den Kinderschuhen. Die Software der Bonner Forscher können nun aber einen entscheidenden Schritt nach vorne bedeuten. Ihr selbst lernendes System kann inzwischen Zeitpunkt und Dauer künftiger Aktionen erstaunlich genau abschätzen – und das immerhin über Zeiträume von mehreren Minuten.

    yazan abu farha
    Video: Die softwaremäßige Vorhersage menschlicher Aktivität.

    Salatzubereitung als Trainingsmaterial

    Als Trainingsdaten dienten den Wissenschaftern unter anderem 40 Videos, in denen Darsteller unterschiedliche Salate zubereiteten. Jede der Aufzeichnungen war rund 6 Minuten lang und enthielt im Schnitt 20 verschiedene Aktionen. Die Videos enthielten zudem genaue Angaben, zu welcher Zeit welche Aktion startete und wie lang sie dauerte.

    Der Algorithmus "schaute" sich diese insgesamt rund vier Stunden Salat-Videos an und erlernte so, welche Aktionen bei dieser Aufgabe typischerweise aufeinander folgen und wie lange diese dauern. Das ist alles andere als trivial: Schließlich hat jeder Koch seine individuelle Vorgehensweise. Außerdem kann die Abfolge je nach Rezept variieren. "Danach haben wir getestet, wie erfolgreich der Lernvorgang war", erklärt Gall. "Dazu haben wir die Software mit Videos konfrontiert, die sie zuvor noch nicht gesehen hatte."

    Immerhin passten die neuen Kurzfilme in den Kontext: Auch sie zeigten die Zubereitung eines Salats. Für den Test wurde dem Computer mitgeteilt, was in den ersten 20 oder 30 Prozent eines dieser neuen Videos zu sehen war. Auf dieser Basis musste er dann vorhersagen, was im restlichen Film passieren würde – und das gelang erstaunlich gut. "Die Genauigkeit lag für kurze Prognose-Zeiträume bei über 40 Prozent, sank dann aber umso mehr ab, je weiter der Algorithmus in die Zukunft blicken musste", sagt Gall.

    Je weiter in der Zukunft umso ungenauer

    Bei Handlungen, die mehr als drei Minuten in der Zukunft lagen, lag der Rechner noch in 15 Prozent der Fälle richtig. Allerdings galt die Prognose auch nur dann als korrekt, wenn sowohl die Aktion als auch ihr Zeitpunkt richtig vorhergesagt wurde.

    Gall und seine Mitarbeiter präsentierten ihre Ergebnisse auf der weltgrößten Konferenz für digitales Sehen und Mustererkennung, die vom 19. bis 21. Juni in Salt Lake City (USA) stattfand. Ihre Studie wollen sie nur als einen ersten Schritt in das neue Gebiet der Handlungspräkognition verstanden wissen. Zumal der Algorithmus spürbar schlechter abschneidet, wenn er selber erkennen muss, was sich im ersten Teil des Videos abspielt, und das nicht gesagt bekommt. Denn diese Analyse ist nie zu 100 Prozent korrekt – Gall spricht von "verrauschten" Daten. "Unser Verfahren funktioniert damit zwar auch", sagt er. "Aber leider noch längst nicht so gut." (red, 14.6.2018)

    Share if you care.