Nachgefragt bei Anna Rohrbach, Wissenschaftlerin am Max-Planck-Institut für Informatik, Saarbrücken

Software soll in naher Zukunft Filmhandlungen automatisch beschreiben können

18.07.2016

Damit sie die Handlung eines Filmes nachvollziehen können, gibt es für blinde und sehbehinderte Menschen oftmals eine Hörfassung. Dafür schauen sich Autoren die Filme in voller Länge an und geben die Handlungssituation wieder. Könnte nicht aber auch ein Computerprogramm diese Arbeit übernehmen? Forscher des Max-Planck-Instituts für Informatik arbeiten daran, eine Software zu entwickeln, die Filmbeschreibungen automatisch generiert und vorliest.
Foto: Anna Rohrbach

Anna Rohrbach; © MPI-INF/MMeyer

Für die Arbeit am Programm haben Anna Rohrbach und ihr Mann Marcus eine Küche eingerichtet und mit Kameras ausgestattet. Die gedrehten Kochszenen sollen dann beschrieben werden. REHACARE.de hat nachgefragt, wie genau die Software funktioniert und ob sie schon bald zu jedem Haushalt gehören könnte.

Frau Rohrbach, Sie arbeiten an einem Computerprogramm für die automatische Bilderkennung. Wie kann es den Alltag von blinden und sehbehinderten Menschen zukünftig erleichtern?

Anna Rohrbach: Ziel unserer Arbeit ist es, eine Software zu entwickeln, welche dazu in der Lage ist, automatisch zu erkennen, was gerade in einer Situation passiert. Es übermittelt diese Information dann in natürlicher Sprache an die Person. Vor allem blinde und sehbehinderte Menschen können von dieser Technologie profitieren. Eine Anwendung, die wir in unserer Arbeit verfolgen, ist die automatische Generierung von Beschreibungen von Filmen. Das würde ermöglichen, dass sehbehinderte Menschen der Geschichte folgen könnten und verstehen, was gerade in einem Film passiert, genau wie ihre nicht sehbehinderten Mitmenschen. Eine andere Richtung, die wir verfolgt haben, sind Alltagssituationen, wie zum Beispiel das Kochen. Der Computerassistent, welcher den Prozess der Zubereitung einer Mahlzeit versteht und die involvierten Gegenstände erkennt, kann ebenfalls sehr nützlich sein und blinden und sehbehinderten Menschen helfen. Neben dem Generieren von Beschreibungen von Koch-Videos kann das System auch Personen dabei helfen, Dinge zu finden oder Fragen zu beantworten. Wie zum Beispiel die Frage "Was befindet sich in dem Glas?". Vor allem in der Forschung herrscht derzeit großes Interesse daran, Computervision, maschinelles Lernen und die natürliche Sprachverarbeitung zusammenbringen. Mit den rasanten Fortschritten auf dem Gebiet ist es wahrscheinlich, dass mobile Geräte bald eine große Unterstützung für sehbehinderte Menschen beim Einkaufen oder anderen Dingen des Alltags sein können.

Wie genau funktioniert das Programm?

Rohrbach: Die Technologien, auf die wie in unserer Arbeit vertrauen, sind Methoden des maschinellen Lernens. Die grundlegende Idee ist, dass wir eine Software mit Trainingsdaten füttern, zum Beispiel ein Video mit dazugehörigen Satzbeschreibungen. Damit kann die Software lernen neue Filme zu beschreiben. Während des Lernprozesses lernt die Software, welche Bewegungen und Haltungen üblich sind bei menschlichen Handlungen. Außerdem muss sie die verwendeten Gegenstände erkennen, zum Beispiel ein Messer und eine Orange. Zum Schluss soll unser visuelles Erkennungsprogramm versuchen, aus diesen Wörtern ganze Sätze zu bilden. Dabei haben wir mit zwei verschiedenen Herangehensweisen zur Satzbildungen experimentiert. Das Erste ist eine maschinelle Übersetzung, ähnlich wie beim Übersetzen von einer Sprache in eine andere. In unserem Fall übersetzen wir standardisierte Begriffe (zum Beispiel: schneiden, Messer, Orange) in natürliche und einfache Sätze: "Die Person schneidet eine Orange". Unser zweiter Ansatz nutzt ein künstliches neuronales Netz, das aus den visuellen Merkmalen direkt einen Satz erzeugt.

Foto: Marcus Rohrbach schneidet Obst in Küche, Kamera nimmt Szene auf, Computerbildschirm im Vordergrund

Forscher haben eine Küche eingerichtet und mit Kameras ausgestattet, um dem Programm beizubringen, Handlungen automatisch zu erkennen und wiederzugeben; © MPI-INF/MMeyer

Wann schätzen Sie könnte das Programm in jedem Haushalt angekommen sein?

Rohrbach: Unser Filmübersetzungsprojekt befindet sich gerade noch in der ersten Phase der Entwicklung. Das endgültige System hat viele visuelle Herausforderungen zu lösen, wie zum Beispiel das Verstehen der Filmhandlung. Es wird wahrscheinlich noch fünf bis zehn Jahre dauern, bis dieser Prozess vollautomatisch funktioniert. Ich kann mir vorstellen, dass der Küchen-Computer-Assistent in fünf Jahren in jedem Haushalt ankommen könnte. In den nächsten zehn Jahren dürften viele beeindruckende Technologien in unserem Alltag integriert sein.

Was bedeutet für Sie Inklusion?

Rohrbach: Für mich bedeutet Inklusion, dass jeder das gleiche Recht hat, Teil der Gesellschaft zu sein. Jedem sollte geholfen werden, der Unterstützung benötigt. Ich glaube, dass die Entwicklung von speziellen Technologien für sehbehinderte Menschen dazu beiträgt, einige tägliche Herausforderungen zu meistern. Sie können ihnen helfen, unabhängiger zu sein und ihr volles Potenzial zu entfalten.

Foto: Lorraine Dindas; Copyright: B. Frommann

© B. Frommann


Das Interview wurde geführt und aus dem Englischen übersetzt von Lorraine Dindas.
REHACARE.de