Fraunhofer-Institut für Optronik, Systemtechnik und Bildauswertung IOSB

Semantische Videoanalyse

Semantische Videoanalyse

 

Im Rahmen des Projekts „semantisches Videomanagement“ entstehen „Middelware“-Funktionen, die als Basis zur Entwicklung innovativer Assistenzfunktionen in den Bereichen Archivierung, Suche und maschinelle Beobachtung dienen. Einsatzmöglichkeiten sind dabei effiziente Such- und Filterfunktionen in Videoarchiven oder auch der Einsatz in mobilen oder stationären Multikamerasystemen. Im Zentrum der Videoanalyse stehen dabei Einzelpersonen und deren Verhalten.

 

Die Basis für eine tiefergehende Analyse bildet die robuste Detektion und Verfolgung von Personen in Videoströmen (Personendetektion). Hierzu verwenden wir einen generischen, ansichtsbasierten Objekterkennungsansatz. Der resultierende Detektor ist damit auf sehr unterschiedlichen Sensoren (mobil/stationär, TV/IR) einsetzbar. Weiterhin ist der Detektor robust gegen Kompressionsartefakte, Beleuchtungsveränderungen (-> Bsp. Video), bewegliche Distraktoren (-> Bsp. Video) oder kurzzeitige Verdeckungen. Weiterhin ermöglicht der Ansatz den Aufbau von kurzzeitlichen Personenmodellen, die es erlauben, Personenidentitäten über mehrere Kameras („Multikamera-Tracking“) hinweg oder bei kurzzeitigem Verlassen des Sichtbereiches einer Kamera aufrecht zu erhalten. Die Detektion von Personen kann hierbei auch dazu dienen, nach weiteren Objekten im Personenkontext zu suchen, z.B. mitgeführten Gepäckstücken.

 

Neben der Frage, ob sich Personen in einer Szene befinden, ist die Analyse des Verhaltens von Einzelpersonen oft entscheidend. Die zeitliche Veränderung der Körperpose einer Person enthält wesentliche Informationen über die ausgeführte Handlung. Um eine Aktionsklassifikation unabhängig vom Blickpunkt zu ermöglichen, rekonstruieren wir die 3D-Pose einer Person aus monokularen Bildern. Ausgangspunkt für die 3D-Rekonstruktion ist die Detektion anatomischer Landmarken, z.B. Kopf oder Schulter, in 2D-Bildkoordinaten. Der Personendetektor wurde dahingehend weiterentwickelt, dass er neben der Position der Person im Bild auch Schätzungen über die Aufenthaltswahrscheinlichkeit anatomischer Landmarken generiert. Mit Hilfe dieses Verfahrens ist es möglich, Korrespondenzen zwischen vereinfachten 3D-Personenmodellen und 2D-Bildkoordinaten herzustellen. Die eigentliche Aktionsklassifikation erfolgt dann im 3D-Raum. Sie folgt dabei den gleichen generischen Mechanismen wie die Personenerkennung.

 

Um zu einer umfassenderen Situationsbeschreibung zu gelangen, werden in einem weiteren Schritt die aus der Bildverarbeitung gewonnenen Informationen, z.B. die Anzahl der Personen, deren Aktionen, wie auch zusätzliche Kontextinformation, in eine abstrakte begriffliche Beschreibung überführt. Neben Aktionen von Einzelpersonen umfasst die Beschreibung einer Situation demnach auch die Interaktion von Personen untereinander sowie die Interaktion von Personen mit der Umwelt. Basierend auf einer Weiterentwicklung unscharfer, temporaler Logik ist das System in der Lage, unsichere und unvollständige zeitliche Informationen zu verarbeiten. Entscheidend dabei ist die Fähigkeit, mehrere, auch partiell widersprüchliche, Hypothesen zu entwickeln und diese über die Zeit aufrecht zu erhalten. Ein weiterer Vorteil besteht darin, dass aufgrund der vorgegebenen Ableitungsregeln das System auch dann anwendbar ist, wenn nur wenige oder keine Trainingsdaten zur Verfügung stehen.