"Bis zum Schluss herauskommt: Pferd, ja oder nein"

Computerwissenschafter Thomas Pock lässt Wissen über die Arbeitsweise des menschlichen Sehvermögens in seine Bildverarbeitungsalgorithmen einfließen.

STANDARD: Wenn der Computer ein Gesicht als Gesicht erkennen soll, welche Regeln muss er dabei befolgen?

Pock: Grundsätzlich muss er wissen, aus welchen Teilen ein Gesicht besteht. Augen, Nase, Mund sind charakteristische Merkmale, die der Computer recht gut erkennen kann. Wichtig ist die relative Position der Merkmale zueinander. Die Kunst ist, die große Vielfalt von Gesichtern zu erfassen. Wenn man Gesichter von älteren Personen, Kindern, größere, kleinere Gesichter, nah bei der Kamera oder weiter weg, schief gedrehte Gesichter erkennen will, wird es sehr schwierig. Die Algorithmen müssen auf der einen Seite feine Details unterscheiden und auf der anderen aber auch große Variabilität zulassen können.

STANDARD: Welche mathematischen Werkzeuge benutzen Sie, um Computern das Sehen beizubringen?

Pock: Wir stellen Objekte mit allen dazugehörigen Merkmalen als Datenpunkte in einem höherdimensionalen Raum, einem sogenannten Feature-Raum dar. Will man dem Computer beibringen, ein Gesicht zu erkennen, muss man jenen Unterraum, der aus den Gesichtern geformt wird, möglichst einfach beschreiben können. In vielen Anwendungen wird aber einfach eine sogenannte Hyperebene berechnet, die bei allen wahrgenommenen Strukturen Gesichter von Nichtgesichtern trennt. So ein ähnliches Konzept ist heutzutage praktisch in jeder Digitalkamera verbaut. Komplexere Algorithmen versuchen aber, noch viel genauere Unterscheidungen zu treffen.

STANDARD: In Ihrer Arbeit orientieren Sie sich am menschlichen Sehvermögen, um Bildverarbeitungsalgorithmen zu verbessern. Wie können Erkenntnisse aus Medizin und Psychologie nützlich sein?

Pock: In den Neurowissenschaften ist man sich noch uneinig, wieweit die Architektur des Gehirns bereits bei der Geburt vorgegeben ist. Die einen sagen, die Nervenzellen strukturieren sich erst mit den Lernprozessen zu Netzwerken. Die anderen sagen, dass viele Strukturen bereits feststehen und dass man tatsächlich relativ wenig dazulernt. Psychologische Experimente mit kleinen Kindern zeigen, dass das visuelle System des Menschen aus verschiedenen Grundelementen besteht. Bei den Design-Entscheidungen, die ich beim Aufbau eines mathematischen Bilderkennungsmodells zu treffen habe, orientiere ich mich ganz stark an diesen Grundelementen. Besonders ist hier die auf Max Wertheimer zurückgehende Gestaltpsychologie ein Vorbild. Sie untersucht, wie der Mensch Strukturen aus seinen Wahrnehmungen ableiten kann.

STANDARD: Welche Grundelemente des visuellen Systems des Menschen sind es, die Sie sich abschauen wollen?

Pock: Wenn man eine Kontur eines Objekts hat, die unterbrochen ist, dann ergänzt das menschliche Gehirn das Fehlende automatisch. Ein sehr einfaches Beispiel wäre ein Dreieck, das man auf den ersten Blick erkennt, selbst wenn nur die drei Spitzen vorgezeichnet sind. Man kann relativ komplexe Figuren erkennen, auch wenn davon nur wenige Punkte oder Kanten vorgegeben sind. Diesen Prozess kann man mathematisch sehr schön erklären.

STANDARD: Wie kann man diese Fähigkeit in einen Algorithmus fassen?

Pock: Dieses Schließen der Kontur, die das menschliche visuelle System leistet, verhält sich so, als würde man die offenen Enden mit einem elastischen Stab verbinden. Das kann man mit einer berühmten Gleichung Leonhard Eulers, der sogenannten Euler'schen Elastika, berechnen. In meinem Forschungsteam, das ich mit dem ERC Starting Grant aufbaue, geht es genau darum: Wie kann man grundlegende Designs von biologischen visuellen Systemen in mathematische Rechenmodelle umsetzen, die man auch ohne zu großen Aufwand lösen kann?

STANDARD: Es gibt zufällige Strukturen, die man fälschlicherweise als eine bestimmte Gestalt wahrnimmt. Auch das menschliche Auge täuscht sich manchmal. Wie verhindert man Fehleinschätzungen des Computerauges?

Pock: Es gibt zwei Prozesse, die beim Sehen im menschlichen Gehirn ablaufen: Zum einen ein Bottom-up-Prozess, bei dem die Einzelteile zusammengesucht werden, um eine Gestalt zu erkennen. Dann gibt es aber auch noch einen Top-down-Prozess, der mir vorgibt, was ich zu erwarten habe. Ist es realistisch, in dieser Situation ein Pferd zu sehen? Erst wenn die beiden Prozesse Übereinstimmung finden, dann sieht der Mensch ein konkretes Objekt. Um das zu illustrieren, präsentiere ich in meinen Vorlesungen den Studierenden spezielle Bilder, die auf den ersten Blick wirr erscheinen. Für viele ist ihr Inhalt erst erkennbar, wenn ich mündlich Hinweise gebe, also Kontext für den Top-down-Prozess liefere.

STANDARD: Was heißt das auf den Computer umgelegt?

Pock: Das ist die große Frage. Wie kann ich alle möglichen Inhalte, die das Computerauge sehen könnte, möglichst wenig komplex beschreiben? Wie kann ich ein Pferd in all seinen möglichen Ausformungen abspeichern? Es ist unglaublich, was das Gehirn in dieser Hinsicht leistet, und noch unklar, wie das genau funktioniert. Wahrscheinlich wird ein hierarchisches System angewandt. Das heißt, die Bildinformation wird immer wieder auf verschiedene Strukturen hin gefiltert. Die Bildinformation wird so lange reduziert, bis zum Schluss herauskommt: Pferd, ja oder nein.

STANDARD:Wie weit sind diese Prozesse bereits rekonstruierbar?

Pock: Bei der Gestaltfindung weiß man, wie es funktionieren kann. Wir arbeiten an der Umsetzung der Euler'schen Elastika für das Erkennen einer Gestalt und konnten zeigen, dass man ein Objekt viel einfacher mathematisch beschreiben kann, indem man das Bild in einen höherdimensiona- len Raum einbettet. Bildverarbeitungsprobleme kann man so viel besser lösen. In meinem ERC-Projekt geht es darum, beide Prozesse in einem Framework darstellen zu können.

STANDARD:Sie beschäftigen sich im Rahmen Ihrer Professur auch mit Mobile Vision, also Bildverarbeitung etwa am Smartphone. Welche Anwendungen könnte das bringen?

Pock: Es geht um alle Anwendungen, bei denen sich die Kamera selbst auch mitbewegt. Ein Handy kann in zehn Jahren vielleicht Szenen interpretieren. Sie schalten die Kamera ein, und das Gerät wird die Umgebung dreidimensional rekonstruieren. Es wird sagen: Das ist eine Bank, das ein Auto, das ein Mensch. Es wird auch Menschen erkennen, deren Bild Sie abgespeichert haben. Ein anderer Anwendungsfall wäre, die Fahrassistenzsysteme, die in Oberklassewagen das richtige Verhalten des Lenkers überwachen, in ein Smartphone zu packen.

STANDARD: Beschäftigen Sie sich auch mit den gesellschaftlichen Folgen der Technik, die bekanntlich auch zu unerwünschter Überwachung eingesetzt werden kann?

Pock: Ich mache mir viele Gedanken darüber. Wenn ich einmal älter werde, möchte ich persönlich nicht von einem Roboter gepflegt werden. Ich halte ein wachsames Auge darauf, dass ich nicht in eine Richtung abdrifte, mit der ich die totale Überwachung begünstige. Ich selbst sehe mich als Grundlagenforscher, der noch viel mit Papier und Bleistift arbeitet. Ich will einfach auf einer elementaren Ebene das Sehen verstehen. Die möglichen Anwendungen stehen weniger im Vordergrund. (Alois Pumhösel, DER STANDARD, 4.3.2015)

Wahrnehmung

"Bis zum Schluss herauskommt: Pferd, ja oder nein"

Forum:

Ihre Meinung zählt.