Bewegungsdetektion, Bewegungsanalyse und Objektverfolgung

Bewegungsdetektion in Bildsequenzen

Abbildung 1: Zwei Bilder einer Testsequenz, der berechnete optische Fluss und die dazugehörige Farbkodierung.

© Fraunhofer IOSB

Bewegungsdetektion in Bildsequenzen ist ein wichtiger Bestandteil für die Bildauswertung. Ist die Bewegung zwischen Bildern bekannt, kann diese Information u.a. zur Bewegungsdetektion, -Verfolgung, -Erkennung, zur Segmentierung oder 3D Rekonstruktion verwendet werden. Die geschätzten Bewegungsfelder können auch dazu verwendet werden um bestimmte Bewegungen zu analysieren, z.B. ist die Detektion von anormalem Verhalten anhand von Bewegungsfeldern möglich.

Differentielle Verfahren auf Basis des optischen Flusses zählen zu den genauesten Verfahren zur Bewegungsdetektion. Mit Hilfe des optischen Flusses kann die Veränderung von Grauwerten zwischen zwei Bildern auf Grund von Bewegung bestimmt werden. Ein Nachteil des optischen Flusses ist die Komplexität der Algorithmen, die zu einer langen Ausführungsdauer führen. Abbildung 1 zeigt zwei Bilder der Middlebury-Testsequenz „DogDance“ und den geschätzten optischen Fluss. Der optische Fluss ist farbkodiert nach der in der Abbildung 1 ganz rechts dargestellten Farbkodierung, d.h. dunkelrot bedeutet große Bewegung nach rechts, gelb bedeutet Bewegung nach unten. Es ist gut zu erkennen, dass sich das Mädchen nach rechts und der Hund nach unten links bewegt.

Aktuelle Grafikkarten (GPU) bieten die Möglichkeit parallele Anwendungen um ein Vielfaches schneller auszuführen als Standard PC’s. Daher werden Grafikkarten immer häufiger in der Bildverarbeitung eingesetzt um Anwendungen in Echtzeit ausführen zu können.

Die Abteilung ASM verfügt über unterschiedliche Methoden zur Bewegungsschätzung auf Basis des optischen Flusses. Neben Verfahren, die die Berechnung auch von größeren Bilddaten in Echtzeit erlauben, sind auch Verfahren für hohe Genauigkeit und Robustheit entwickelt worden.

Bewegungsdetektion in Echtzeit und Objektverfolgung

Abbildung 2: Eingangsbild der Testsequenz, berechneter optischer Fluss, und segmentierte Vordergrundobjekte.

© Fraunhofer IOSB


Die Bewegung in Bildfolgen liefert wertvolle Informationen bezüglich der Struktur der Szene, der Bewegung der Kamera und den Eigenschaften von Objekten. Durch Schätzen der Verschiebungsfelder zwischen zwei aufeinanderfolgenden Aufnahmen erhält man den sog. Optischen Fluss. Der Optische Fluss kann zur Segmentierung von Vorder- und Hintergrundbewegungen verwendet werden, was wiederum eine Rolle bei der Unfallprävention im Straßenverkehr spielen kann. Abbildung 2 zeigt links ein Bild einer Autosequenz, in der Mitte, das in Echtzeit berechnete Bewegungsfeld und rechts daneben das um die Eigenbewegung des Fahrzeuges korrigierte Bewegungsfeld. Die Vordergrundobjekte (eine Person und die zwei Autos) sind deutlich zu erkennen.

Auf der Grundlage von Verschiebungsvektoren im Bild lassen sich beispielsweise verwackelte Videoaufnahmen stabilisieren, Bilfdfolgenteppiche generieren oder höhere Bildauflösungen erzielen.

Da einmal detektierte Objekte insbesondere in Straßen- oder Überwachungsszenarien selten an nur einer Stelle bleiben, ist die Information der Objektbewegung maßgeblich für die Erfassung der Situation. Die Verfolgung einzelner Objekte (Tracking) ist ein wesentlicher Forschungsschwerpunkt der Abteilung VID.

Super-Resolution

In bestimmten Fällen verfügen Bilder nicht über die gewünschte Auflösung um nachfolgende Analysen durchzuführen, z.B. zur Identifikation von Personen in großer Entfernung. Mit Hilfe des optischen Flusses können mehrere Bilder einer Videosequenz zu einem höheraufgelösten Bild zusammengefügt werden. Abbildung 3 zeigt in der oberen Reihe Bilder einer Testsequenz. Das Bild links unten ist das vergrößerte Bild des ersten Bildes. Das zweite Bild ist das mit Hilfe des optischen Flusses berechnete Bild aus mehreren Eingangsbildern. Der Kontrast ist deutlich höher, so wie die Kanten ausgeprägter im Vergleich zum linken Bild.

© Fraunhofer IOSB
Abbildung 3: Oben: Eingangssequenz mit niedrigaufgelösten Bildern. Unten links: vergrößertes Bild des ersten Eingangsbildes, unten rechts: hochaufgelöstes Bild aus mehreren Eingangsbildern.

Abnormal Activity Recognition

Das Bewegungsfeld in Videos kann auch dazu verwendet werden, anormale Bewegungen, z.B. Schlägereien, zu detektieren. Dafür werden zunächst normale Bewegungsmuster gelernt. Anschließend werden die Bewegungen analysiert und verglichen, ob es sich um normale Bewegungen handelt. Ein Index gibt an, wie ungewöhnlich diese Bewegung dann ist. Abbildung 4 zeigt zwei Eingangsbilder einer Sequenz mit ungewöhnlichen Bewegungen. Der rote Punkt gibt an, dass anormale Bewegungen detektiert wurden. Das dritte Bild zeigt den berechneten optischen Fluss und das Bild ganz rechts zeigt den sog. „Abnormality“-Index. Dabei entspricht „0“ einer normalen und „1“ einer sehr ungewöhnlichen Bewegung.

Abbildung 4: Zwei Eingangsbilder einer ungewöhnlichen Sequenz, der berechnete optische Fluss und der dazugehörige „Abnormality“-Index.

© Fraunhofer IOSB

3-D Rekonstruktion und 3-D Bewegungsschätzung

Berechnet man die Bewegung zwischen unterschiedlichen Kameras, können die Bewegungsfelder zur 3-D Rekonstruktion und Bewegungsschätzung verwendet werden. Abbildung 5 zeigt ein Eingangsbild eines Arms. Daneben ist die 3-D Rekonstruktion sowie die 3-D Bewegung (Rotation) dargestellt.

 

© Fraunhofer IOSB
Abbildung 5: Eingangsbild eines rotierenden Arms und die dazugehörige 3-D Rekonstruktion und 3-D Bewegung.