Bachelorarbeit: Multi-person Video-To-Video Translation

Multi-person Video-To-Video Translation using Pose as an Intermediate Representation

Das Fraunhofer-Institut für Optronik, Systemtechnik und Bildauswertung IOSB ist eines der größten Institute für angewandte Forschung auf dem Gebiet der Bildgewinnung und Bildauswertung in Europa. Die Abteilung Videoauswertesysteme (VID) beschäftigt sich mit der automatischen Auswertung von Signalen bewegter bildgebender Sensorik in komplexen, ggf. nichtkooperativen Szenarien. Diese Sensorik wird beispielsweise im Aufklärungs- und Überwachungsbereich als integrierte Komponente in fliegenden, weltraumgestützten oder mobilen landgestützten Plattformen verwendet. VID entwickelt und integriert hierfür Bildauswertealgorithmen für autonome oder interaktive Systeme.

Datenschutz und Datenverarbeitung

Wir setzen zum Einbinden von Videos den Anbieter YouTube ein. Wie die meisten Websites verwendet YouTube Cookies, um Informationen über die Besucher ihrer Internetseite zu sammeln. Wenn Sie das Video starten, könnte dies Datenverarbeitungsvorgänge auslösen. Darauf haben wir keinen Einfluss. Weitere Informationen über Datenschutz bei YouTube finden Sie in deren Datenschutzerklärung unter: http://www.youtube.com/t/privacy_at_youtube

Beschreibung

Heutzutage ist das Videomaterial von Überwachungskameras ein wichtiges Instrument zur Untersuchung von Verbrechen und zur Identifizierung von Verdächtigen. Die Analyse der riesigen Datenmengen, die von zahlreichen Kameras gewonnen werden, stellt die polizeilichen Ermittlungsbehörden vor enorme Herausforderungen. Deshalb werden Systeme benötigt, die das Personal dabei unterstützen Übergriffe in Echzeit zu erkennen. Das Training von Deep-Learning basierten Video-Aktivitätserkennung-Modellen erfordert gewaltige Menge an annotierten Daten. Annotierte Überwachungssequenzen sind selten, weshalb Trainingsdatensätze künstlich erweitert werden müssen.

 

Aufgabenstellung

Im Rahmen der Bachelorarbeit soll das Verfahren aus [1] zur Single-Human Pose Translation implementiert werden. Weiterhin soll das Verfahren erweitert werden, sodass auch die Multi-Human Pose Translation möglich ist.

 

Voraussetzungen

  • Studienfach: Informatik, Mathematik, Angewandte Physik oder vergleichbar
  • Gutes Verständnis für die (theoretischen) Grundlage von Deep Learning
  • Gute Programmierkenntnisse (idealerweise Python)
  • Erfahrung mit dem Deep Learning Framework Pytorch vorteilhaft.
  • Fähigkeit zum selbstständigen Arbeiten
  • Bereitschaft, sich in neue Themengebiete einzuarbeiten und Freude am Einbringen eigener Ideen

Bei Interesse senden Sie uns bitte ihre Bewerbungsunterlagen (kurzes Anschreiben, tabellarischer Lebenslauf, Notenauszug) in elektronischer Form an Mickael Cormier.  

 

Literatur

[1] Chan, Caroline, et al. "Everybody dance now." Proceedings of the IEEE International Conference on Computer Vision. 2019.

[2] https://www.youtube.com/watch?v=mSaIrz8lM1U