Schärfere Augen für selbstfahrende Autos

8. Mai 2016, 12:02
2 Postings

Ein CD-Labor an der TU Graz lehrt Roboter und Fahrzeuge, sich in unbekannter Umgebung zu orientieren

Graz – Wenn ein Baby lernt, sich räumlich zu orientieren, muss es auch Fehlversuche in Kauf nehmen. Wenn es ein Spielzeug, das sich vor ihm befindet, berühren will, greift es vielleicht zuerst zu weit nach hinten oder zu kurz, um es zu erreichen. Die aufgenommenen Bildinformationen richtig einzuschätzen, Gegenstände zu identifizieren, ihre wahrscheinliche Distanz, Veränderungen und Bewegungen richtig zu interpretieren, ist eine komplexe Aufgabe.

Computer stehen noch am Anfang dieses Lernprozesses, detaillierte Informationen aus Wahrnehmungen über eine beliebige Umgebung ableiten zu können. Bewegte 3-D-Bilder müssen dafür laufend analysiert werden – eine Herausforderung nicht nur an die Rechenleistungen, sondern auch an lernfähige Algorithmen.

Vincent Lepetit und Clemens Arth vom Institut für Maschinelles Sehen und Darstellen der TU Graz wollen sich mit ihren Kollegen im neuen, vom Wirtschaftsministerium geförderten Christian-Doppler-Labor "Semantische 3-D-Computer-Vision" dieser Herausforderung stellen. Die Erkenntnisse und Methoden zu einer 3-D-Bildbeschreibung, die gemeinsam mit dem Wirtschaftspartner Qualcomm Technologies gewonnen werden, sollen die Grundlagen der Wahrnehmung für künftige Roboter und autonom agierende Straßenfahrzeuge sein.

Dabei geht es nicht nur darum, das System erkennen zu lassen, was ein Auto oder wo ein Fußgänger ist. "Wie ist ein Auto orientiert? Wie verhält sich eine Person in Relation zur Straße? Bewegt sie sich auf den Zebrastreifen zu? Alle diese Informationen gilt es aus den Bilderketten herauszufiltern, um den Bildinhalten Bedeutung zu geben", erklärt Lepetit, Leiter des CD-Labors.

Berechnungen in Echtzeit

Aus 2-D-Bildern können diesbezüglich nur ungenaue Daten extrahiert werden. Für eine möglichst genaue Orientierung wollen die Wissenschafter auf verschiedene Kameratypen, auf Lageerkennungs-, Bewegungs- und Beschleunigungssensoren sowie auf Kompasse setzen und selbst Bilddatenbanken wie Google Street View für die Positionserkennung nutzen. Die Berechnungen sollen dabei in Echtzeit ablaufen, also mindestens so schnell sein, dass – für Menschen – keine Verzögerung zu bemerken ist.

Die Wege, um Position und Orientierung von Objekten aus bewegten Bildfolgen ableiten zu können, sind verschieden, erklärt Clemens Arth. "In der Vergangenheit wurde ein großer Teil der Technologie auf Basis von Regeln und cleveren statistischen Methoden geschaffen, die nach dem Schema ,wenn A, dann B' funktionieren", erklärt der Computerwissenschafter. Mit "regeldefinierten Frameworks" könne man es vielleicht schaffen, acht von zehn Objekten – wie Ampeln – zu erkennen.

Will man mit dieser Methode auf eine höhere Erfolgsquote als 80 Prozent kommen, steigt der Aufwand exponentiell. "Es ist kaum denkbar, dass ein derartiges System keine Fehler macht", so Arth. Dennoch könne man nicht zulassen, dass das selbstfahrende Auto einen Teil der roten Ampeln ignoriert, weil es sie nicht erkennt.

Künstliches neuronales Netz

Also bedient man sich Technologien, die auf künstlichen neuronalen Netzen basieren. Um mithilfe von Lernalgorithmen zusätzliche Information zu gewinnen, muss ein solches Softwaresystem mit sehr vielen Beispielen trainiert werden, um die Abstraktionsleistung zu perfektionieren.

"Das neuronale Netz muss sich an das gewünschte Ergebnis in mehreren Stufen anpassen", so Arth. Zuerst definiert man noch, dass eine Ampel auf dem Bild erkannt werden soll. Letztlich soll das System ein vollkommen unbekanntes Bild analysieren können. Lepetit: "Damit kann man Systeme bauen, deren Komplexität weit über das hinausgeht, was man mit Regeln und statistischen Methoden schaffen kann." (Alois Pumhösel, 8.5.2016)

  • Straßenverkehr aus der Sicht des selbstfahrenden Google-Autos: Künftig sollen Fahrzeuge Bilder noch genauer analysieren können.
    foto: reuters

    Straßenverkehr aus der Sicht des selbstfahrenden Google-Autos: Künftig sollen Fahrzeuge Bilder noch genauer analysieren können.

Share if you care.