Fraunhofer-Institut für Optronik, Systemtechnik und Bildauswertung IOSB

Gesichtswiedererkennung in Videomassendaten

Die zunehmende Verfügbarkeit von Videodaten ist gleichzeitig eine Chance und eine Herausforderung für die Strafverfolgung. Die manuelle Auswertung großer Videomengen stößt dabei jedoch schnell an ihre Grenzen. Eine automatisierte strukturierte Aufbereitung mit der Extraktion relevanter Inhalte erleichtert eine Auswertung solch großer Datenmengen. Da Videodaten unstrukturiert sind, ist dafür eine Analyse des Bildinhalts nötig, um gewünschte Informationen zu extrahieren. Die Auswertung der Videodaten soll dabei meist typische Fragen beantworten. Für den Fall von Tatortvideos könnten das etwa sein: Wo kam der Tatverdächtige her? Hat er bestimmte Örtlichkeiten in der Nähe aufgesucht? Hatte er Kontakt mit Komplizen? Zur Beantwortung dieser Fragen ist es nötig den Tatverdächtigen in allen Videos aus dem Tatortumfeld aufzufinden. Die Videos können dabei nicht nur von Überwachungskameras stammen, sondern auch von Zeugen den Ermittlungsbehörden übergeben worden sein (Handyvideos).

Gesichtsbasierte Suche

Das Gesicht einer Person ist ein wichtiges biometrisches Merkmal und hinreichend individuell, dass der Mensch im Alltag sein Gegenüber dadurch erkennt. Im Kontext der forensischen Auswertung ist es darüber hinaus im Vergleich zu weiteren äußeren Erscheinungsmerkmalen, wie beispielsweise Kleidung, üblicherweise geringeren Änderungen unterworfen. Dadurch eignet sich das Gesicht insbesondere dazu Personen in Videomaterial von verschiedenen Orten oder zu verschiedenen Zeiten zu finden.

Das Fraunhofer-IOSB forscht daher an Methoden, die Ermittler bei der Suche nach Gesichtern in Videomassendaten unterstützen. Das Prinzip ist vergleichbar mit einer für Videodaten spezialisierten Suchmaschine. Als Anfrage kann dabei ein Fahndungsfoto oder eine einzelne Videosequenz vom Tatort dienen, in welcher der Tatverdächtige bereits manuell markiert wurde. Das Ergebnis besteht dann in einer Liste mit denjenigen Vorkommnissen (Gesichtern) im Videomaterial, welche die größte Ähnlichkeit zum Gesicht in der Suchanfrage aufweisen.

»Erste Seite« der Suchergebnisliste bei der Suche nach dem groß abgebildeten Gesicht in 35 Stunden Videomaterial eines IOSB-Demoszenarios. Von den 44 Vorkommnissen der gesuchten Person im Videomaterial (grün) wurde der Großteil in den hier dargestellten ersten 30 Suchergebnissen gefunden. Insgesamt enthält die Suchergebnisliste über 5000 Vorkommnisse weiterer Personen (rot). © Fraunhofer IOSB

 

Beispiele typischer Bildqualität aus Überwachungsvideos. Geringe Auflösung und Unschärfe erschweren die die bildbasierte Wiederkennung eines Gesichtes. © Fraunhofer IOSB

Schnelle Suche in Massendaten

Um eine rasche Suche zu ermöglichen, wird - ähnlich einem Buch - ein Index aufgebaut, der alle Gesichter in einer kompakten Repräsentation enthält. Damit wird eine erhebliche Datenreduzierung erreicht, sodass in einem IOSB-Demoszenario die Gesichter aus 35 Stunden Videomaterial etwa auf die Größe einer Mp3-Datei komprimiert werden konnten. Damit müssen bei jeder Suchanfrage nicht erneut alle Videodaten durchforstet werden, sondern nur der Index, wodurch eine Suchanfrage in diesem Fall in deutlich weniger als einer Sekunde bearbeitet werden kann.

Zur kompakten Repräsentation eines Gesichtes im Index werden am IOSB speziell entwickelte Varianten von künstlichen neuronalen Netzen erforscht [1], welche insbesondere auf die Kompensation der ungünstigen Aufnahmebedingungen in Videodaten zielen [2]. Darunter fallen nicht nur schräge Blickwinkel oder unzureichende Lichtverhältnisse, sondern auch kamerabedingte Effekte wie geringe Auflösung, Unschärfe oder Kompressionsartefakte (Abbildung 2).

Ein weiterer Schwerpunkt der Arbeiten liegt darin, die in Videodaten aufeinanderfolgenden Einzelbilder eines Gesichtes so zu kombinieren, dass möglichst viele unterschiedliche Ansichten erfasst werden und die Suchergebnisse dadurch verbessert werden können (Abbildung 3). Dadurch basiert die Suche nicht nur auf Frontalgesichtern, sondern erlaubt durch die Erfassung der zusätzlichen Ansichten auch das Auffinden von nicht frontalen Gesichtern der gesuchten Person.

Zielgerichtete Ergebnisse im praktischen Einsatz

Die Robustheit der Verfahren gegenüber verschieden Lichtverhältnissen, Ansichten oder auch Veränderungen der Erscheinungsform (z.B. durch Sonnenbrillen oder Hüte) (Abbildung 1) ermöglicht eine zielführende Suche im Ermittlungskontext. Die relevanten Stellen im umfassenden Videomaterial, welche die gesuchte Person zeigen, können so schnell gefunden und bei Bedarf weiter analysiert werden. Insgesamt wird die enorme ursprüngliche Videodatenmasse im Hinblick auf die Fragestellung derart reduziert, dass eine weitere manuelle Auswertung anhand des kompakten Suchergebnisses möglich wird.

 Videodaten enthalten meist verschiedene Ansichten eines Gesichtes, welche gewinnbringend fusioniert werden können. © Fraunhofer IOSB

[1] Herrmann, C.; Willersinn, D.; Beyerer, J.: “Low-Resolution Convolutional Neural Networks for Video Face Recognition”. In Proceedings of the Conference on Advanced Video and Signal Based Surveillance (AVSS), 2016.

[2] Herrmann, C.; Willersinn, D.; Beyerer, J.: “Low-Quality Video Face Recognition with Deep Networks and Polygonal Chain Distance”. In International Conference on Digital Image Computing: Techniques and Applications (DICTA), 2016.