Big Data und Data Mining

Mit dem Begriff Big Data wird auf die hohe Anzahl und Komplexität der Datensätze verwiesen, die durch elektronische Anwendungen verarbeitet und gespeichert werden. Data Mining bezieht sich auf das Filtern und Suchen relevanter Daten aus Big Data, die zu Analysezwecken weiterverabeitet werden. Voraussetzung für Data Mining ist die Klassifizierung von Daten. Passende Datenobjekte müssen in verschiedenen Entitäten (z.B. Datenbanktabellen) gefunden und in Klassen eingeordnet werden.

Herausforderungen und Restriktionen

Statistische Restriktionen

Das Problem von Big Data ist, dass uns zu viele Variablen, aber zu wenig Daten pro Variable zur Verfügung stehen. Daraus ergeben sich viele Scheinkorrelationen die nicht mit der Realität korrespondieren. In Wirklichkeit führen mehr verfügbare Informationen zu einer Art Rosinenpicken, indem Wissenschaftler und andere Anwender nur die Informationen berücksichtigen, die zu ihren Theorien oder Ansichten passen. Daher ist die Technologie nicht geeignet um Theorien oder Thesen zu bestätigen, sondern nur um diese zu widerlegen.

Technische Herausforderungen

Big Data folgt dem HACE Theorem (Heterogeneous Autonomous Complex Evolving), da die verwendeten Daten unstrukturiert sind und sich dynamisch verändern. Effizienz ist eine wichtige Voraussetzung für Data Mining, da bei vielen Anwendungen, die Real-Time Analysen ermöglichen, eine Speicherung aller Daten, aufgrund deren Fülle, nicht möglich ist. Die Architektur von Data Mining Anwendungen muss daher für die gleichzeitige Verwaltung von historischen und Real-Time Daten ausgelegt sein. Eine mögliche Lösung dieses Problems ist die Lambda Architektur mit 3 Schichten: dem batch layer, dem serving layer und dem speed layer.
Um die Erkenntnisse der Datenanalyse sichtbar zu machen, ist die Visualisierung der Daten entscheidend.

Einsatzgebiete

Data Mining bietet viele mögliche Einsatzgebiete. Es kann im Krisenmanagement (z.B. bei Ausbruch von Epidemien) eingesetzt werden. Unternehmen können personalisierte Werbung schalten, Kundeninformationen oder Gesundheitsdaten (Versicherungen, Arbeitgeber) erhalten. Die Verwaltungen speichern riesige Mengen an internen Dokumenten, E-Mails und anderer elektronischer Kommunikation ihrer Mitarbeiter, um auf mögliche Rechtststreitigkeiten vorbereitet zu sein. Das Management nutzt die Datenanalysen als Grundlage für strategischen Entscheidungen. Daher stellen Rohdaten aus Sicht der Unternehmen einen Wert an sich dar, für den sie bereit sind viel Geld zu investieren. Staaten bietet sich die Chance auf eine effizientere Verwaltung oder Informationen über Bürger zu erheben (z.B. um potentielle Bedrohungen für das Gemeinwohl zu erkennen).
Desweiteren gibt es die NGO Global Pulse die sich der weltweiten Entwicklung von Data Mining widmet.

Open Source Tools

Es existieren zahlreiche Open Source Data Mining Programme. Eine Auswahl dieser ist unten angegeben.


  • Apache Hadoop
  • GraphLab
  • Storm
  • Apache Mahout
  • MOA
  • Vowpal Wabbit


Verantwortlich: Ioannis Alexiadis


Prognosen   Künstliche Intelligenz   Chaos, Ordnung und Zufall   Überwachungstechnik   Sicherheit und Kontrolle  

Literatur:

Chen, Hongmei; et al: A decision-theoretic rough set approach for dynamic data mining. IEEE Transactions on Fuzzy Systems 23.6, S. 1958-1970, 2015.

Lu, Hongjun; Setiono, Rudy; Liu, Huan: Neurorule: A connectionist approach to data mining. arXiv preprint arXiv:1701.01358, 2017.

Fan, Wei; Bifet, Albert: Mining big data: current status, and forecast to the future. ACM sIGKDD Explorations Newsletter 14.2, S. 1-5, 2013.

Nakhaeizadeh, Gholamreza (Hrsg.): Data Mining: Theoretische Aspekte und Anwendungen. Vol. 27. Springer-Verlag, 2013.

Ohlhorst, Frank J: Big data analytics: turning big data into big money. John Wiley & Sons, 2012.

Taleb, Nassim Nicholas: Antifragilität: Anleitung für eine Welt, die wir nicht verstehen. Albrecht Knaus Verlag, 2013.

Witten, Ian H; et al: Data Mining: Practical machine learning tools and techniques. Morgan Kaufmann, 2016.

Wu, Xindong; et al: Data mining with big data. ieee transactions on knowledge and data engineering 26.1, S. 97-107, 2014.

Zanin, Massimiliano, et al: Combining complex networks and data mining: why and how. Physics Reports 635, S. 1-44, 2016.