Anstieg unstrukturierter Daten

Big Data: Nicht ohne DQM!

This post is also available in: Englisch

Sascha Kasper,  Director Solution Partners & New Businesses bei 1WorldSync, schreibt über Big Data:

Wenn über Big Data gesprochen wird, ist die Diskussion über unstrukturierte Daten nicht weit. Das hat auch die Fachtagung “Big Data im Alltag – Welchen Nutzen hat der Anwender heute und in der Zukunft?”, die am 25. Februar 2016 in der Industrie und Handelskammer (IHK) Dortmund stattfand, wieder gezeigt. Denn das Thema Datenqualität kam erwartungsgemäß nicht zu kurz. Kein Wunder, denn die Deutsche Gesellschaft für Informations- und Datenqualität e.V. (DGIQ) hat dieses Event mit veranstaltet.

Betrachtet wurden auch die Kriterien von Big Data, die sich mit vier V´s beschreiben lassen:

1) Volume: Die Menge an Daten ist hoch und sie wächst rasant.
 2) Velocity: Die Daten sind in ständiger Bewegung und ändern sich schnell.
3) Veracity: Die Daten sind mit starker Unsicherheit behaftet und es liegen viele ungenaue und schwer adressierbare Datentypen vor.

4) Variety:  Die Daten haben viele unterschiedliche Ausprägungen (strukturierte Datenbankdaten, unstrukturierte Daten, Texte in E-Mails oder Online-Zeitungen, Multimediainhalte etc.).

Den Aspekt “Variety” verdeutlicht die Graphik aus dem Vortag von Prof. Engels (Fachhochschule Dortmund). Demnach ist der Anteil von unstrukturierten Daten an der gesamten projizierten Datenexplosion der am stärksten wachsende.  So lag der geschätzte Anteil der unstrukturierten Daten im vergangen Jahr bei 226.716 Petabytes (vgl. http://www.kdnuggets.com/2012/07/data-science-and-prediction-vasant-dhar.html bzw. https://archive.nyu.edu/bitstream/2451/31553/2/Dhar-DataScience.pdf). (Zur Erinnerung: 1 Petabyte gleich 1.000.000 Gigabytes.)

Anstieg unstrukturierter Daten

 

“Big Data geht nicht ohne Strukturierung und ein vernünftiges Maß an Datenqualität”

Obwohl es sich um unstrukturierte Informationen handelt, gilt auch für diese: eine gewisse Ordnung ist von Bedeutung. Auf diese Notwendigkeit hat Christian Fürber in seinem Vortrag hingewiesen, indem er plakativ sagte: “Bevor sich ein Unternehmen mit big data beschäftigt, sollte es vorab eine saubere Datenqualität bei den operativen Daten sicherstellen.” Auf dieser sauberen Grundlage können dann die großen Datenpakete zielgerichtet verarbeitet und vor allem analysiert werden. Das heißt, selbst  Big Data geht nicht ohne Strukturierung und ein vernünftiges Maß an Datenqualität. Und wie lässt sich die gewünschte Qualität der Daten erreichen? “Natürlich”, so führt der Referent weiter aus, “mit einem vernünftigen Datenqualitätsmanagement (DQM).”

Aber nicht nur das Konzept des DQM lässt sich auf Big Data übertragen. Sogar die klassische Datenqualitätsmessung kann darauf angewendet werden. Dies verdeutlicht das Beispiel von Uwe Nadel im Zusammenhang mit Tweets. Ziel ist es, aus den Usernamen der Tweets echte Namen abzuleiten und mit diesen die Kundenstammdaten anzureichern. Allerdings enthalten Tweets meist viele irrelevante Informationen, die mit Hilfe semantischer Methoden zu extrahieren sind. Die Datenqualitätsdimension “Glaubwürdigkeit” lässt sich für diese Tweets zwar nicht genau messen, möglich ist es jedoch mit einfachen Gruppierungen wie “hoch, mittel, niedrig” allgemeine Aussagen aus den Tweets zu filtern und diese bestimmten Kundengruppen zuzuweisen.

Letztlich bedeutet dies: Die klassischen Werkzeuge zur Erreichung einer guten Datenqualität gelten auch im Zeitleiter von Big Data.

 

Sascha Kasper, Director Solution Partners & New Businesses bei 1WorldSync

Leave a Reply

Your email address will not be published.

Please see our privacy policy for how we use and store the information you provide.