Für die Arbeit am Programm haben Anna Rohrbach und ihr Mann Marcus eine Küche eingerichtet und mit Kameras ausgestattet. Die gedrehten Kochszenen sollen dann beschrieben werden. REHACARE.de hat nachgefragt, wie genau die Software funktioniert und ob sie schon bald zu jedem Haushalt gehören könnte.
Frau Rohrbach, Sie arbeiten an einem Computerprogramm für die automatische Bilderkennung. Wie kann es den Alltag von blinden und sehbehinderten Menschen zukünftig erleichtern?
Anna Rohrbach: Ziel unserer Arbeit ist es, eine Software zu entwickeln, welche dazu in der Lage ist, automatisch zu erkennen, was gerade in einer Situation passiert. Es übermittelt diese Information dann in natürlicher Sprache an die Person. Vor allem blinde und sehbehinderte Menschen können von dieser Technologie profitieren. Eine Anwendung, die wir in unserer Arbeit verfolgen, ist die automatische Generierung von Beschreibungen von Filmen. Das würde ermöglichen, dass sehbehinderte Menschen der Geschichte folgen könnten und verstehen, was gerade in einem Film passiert, genau wie ihre nicht sehbehinderten Mitmenschen. Eine andere Richtung, die wir verfolgt haben, sind Alltagssituationen, wie zum Beispiel das Kochen. Der Computerassistent, welcher den Prozess der Zubereitung einer Mahlzeit versteht und die involvierten Gegenstände erkennt, kann ebenfalls sehr nützlich sein und blinden und sehbehinderten Menschen helfen. Neben dem Generieren von Beschreibungen von Koch-Videos kann das System auch Personen dabei helfen, Dinge zu finden oder Fragen zu beantworten. Wie zum Beispiel die Frage "Was befindet sich in dem Glas?". Vor allem in der Forschung herrscht derzeit großes Interesse daran, Computervision, maschinelles Lernen und die natürliche Sprachverarbeitung zusammenbringen. Mit den rasanten Fortschritten auf dem Gebiet ist es wahrscheinlich, dass mobile Geräte bald eine große Unterstützung für sehbehinderte Menschen beim Einkaufen oder anderen Dingen des Alltags sein können.
Wie genau funktioniert das Programm?
Rohrbach: Die Technologien, auf die wie in unserer Arbeit vertrauen, sind Methoden des maschinellen Lernens. Die grundlegende Idee ist, dass wir eine Software mit Trainingsdaten füttern, zum Beispiel ein Video mit dazugehörigen Satzbeschreibungen. Damit kann die Software lernen neue Filme zu beschreiben. Während des Lernprozesses lernt die Software, welche Bewegungen und Haltungen üblich sind bei menschlichen Handlungen. Außerdem muss sie die verwendeten Gegenstände erkennen, zum Beispiel ein Messer und eine Orange. Zum Schluss soll unser visuelles Erkennungsprogramm versuchen, aus diesen Wörtern ganze Sätze zu bilden. Dabei haben wir mit zwei verschiedenen Herangehensweisen zur Satzbildungen experimentiert. Das Erste ist eine maschinelle Übersetzung, ähnlich wie beim Übersetzen von einer Sprache in eine andere. In unserem Fall übersetzen wir standardisierte Begriffe (zum Beispiel: schneiden, Messer, Orange) in natürliche und einfache Sätze: "Die Person schneidet eine Orange". Unser zweiter Ansatz nutzt ein künstliches neuronales Netz, das aus den visuellen Merkmalen direkt einen Satz erzeugt.