Fraunhofer-Institut für Optronik, Systemtechnik und Bildauswertung IOSB

Wissensgewinnung aus großen Datenmengen

Wissensgewinnung aus großen Datenmengen

Große Datenmengen enthalten neben den expliziten Daten meist auch verborgenes Wissen in Form von Mustern (Pattern). Diese Muster können durch maschinelle Lernverfahren und insbesondere durch Data-Mining-Verfahren entdeckt werden und bei der Beantwortung spezifischer Fragestellungen unterstützen. Die Extraktion von Wissen aus großen Datenmengen kann Entscheidungsträger aus unterschiedlichen Bereichen wie der Medizin oder der Banken- und Versicherungsbranche bei der täglichen Arbeit unterstützen.

Der Prozess um aus großen Datenmengen zusätzliches Wissen zu gewinnen wird als KDD-Prozess bezeichnet (Knowledge Discovery in Databases). Das Kernstück des KDD-Prozesses ist das Data-Mining, das eine Sammlung von Verfahren zur Mustererkennung umfasst. Das Fraunhofer IOSB untersucht hier neue und bestehende Verfahren, die für die Verbesserung der Datenqualität eingesetzt werden können, beispielsweise um Fehler zu detektieren. Extrahierte Muster werden auch dazu genutzt, um maschinelle Lernverfahren zu trainieren. Die gelernten Vorhersagemodelle können dann wiederum den Nutzer beim Einpflegen neuer Daten auf Unregelmäßigkeiten hinweisen. Ein essentieller Faktor, der bei Vorhersagemodellen berücksichtigen werden muss, ist die Interpretierbarkeit. Vor allem in sensiblen Bereichen (Medizin) ist die Nachvollziehbarkeit der Vorhersageergebnisse von großer Bedeutung.

In der medizinischen Domäne können Qualitätssicherungsverfahren für Untersuchungsergebnisse wie zum Beispiel Blutwerte eingesetzt werden. Ein weiterer Anwendungsbereich ist die Entdeckung von falsch eingegebenen Daten in großen Datensätzen.

Publikationen 

 

2017
El Bekri, Nadia; Peinsipp-Byma, Elisabeth:
Data quality assistance - the use of data mining algorithms to enhance data quality. In: Journal of Telecommunication, Electronic and Computer Engineering: JTEC 9 (2017), Nr.2-3, S.155-159.
2017
El Bekri, Nadia; Peinsipp-Byma, Elisabeth:
Adaptive knowledge discovery in expert systems. In: Hu, G.; International Society for Computers and Their Applications: 30th International Conference on Computer Applications in Industry and Engineering, CAINE 2017: San Diego, California, USA, 2-4 October 2017. Red Hook, NY: Curran, 2017, S.91-96.
2016
Anneken, Matthias; Fischer, Yvonne; Beyerer, Jürgen:
Detection of conspicuous behavior in street traffic by using B-splines as feature vector. In: Ambacher, Oliver (Ed.); Wagner, Joachim (Ed.); Quay, Rüdiger (Ed.); Fraunhofer-Institut für Angewandte Festkörperphysik, Freiburg/Brsg.: Security Research Conference. 11th Future Security : Berlin, September 13-14, 2016. Proceedings Stuttgart: Fraunhofer Verlag, 2016, S.331-337.
2ß16
El Bekri, Nadia; Peinsipp-Byma, Elisabeth:
Assuring data quality by placing the user in the loop. In: Arabnia, H.R.; Institute of Electrical and Electronics Engineers: International Conference on Computational Science and Computational Intelligence, CSCI 2016. Proceedings: 15-17 December 2016, Las Vegas, Nevada, USA. Piscataway, NJ: IEEE, 2016, S.468-471.
2016
El Bekri, Nadia; Peinsipp, Byma:
Generic error identification in data sets. In: Harris, F.C.; International Society for Computers and Their Applications: 25th International Conference on Software Engineering and Data Engineering, SEDE 2016: Denver, Colorado, USA, 26-28 September 2016; Co-located with the 29th International Conference on Computer Applications in Industry and Engineering (CAINE 2016). Red Hook, NY: Curran, 2016, S.177-182.