Big Data, Smart Data – Begriffe, die zur Digitalisierung dazu gehören, wie die Milch zum Kaffee. Es gibt heutzutage keine wirtschaftliche Branche, die noch auf den Rohstoff Daten verzichtet. Doch was verbirgt sich eigentlich hinter den Unmengen an Daten? Volume, Veracity oder Variety sind nur einige -Dimensionen- aus der Fülle an Informationen. Ein Erklärungsversuch.
Big Data ist zweifelsohne ein Teil der uns bekannten Industrie 4.0. Die dort gesammelten und ausgewerteten Daten dienen schon jetzt als Entscheidungsträger. Sie helfen uns bei der Überprüfung von bestehenden Geschäftsprozessen, bei deren Anpassungen und zeigen den Datenanalysten sogar schon die Geschäftsfelder von Morgen. Mit Big Data können allerdings die wenigstens etwas anfangen. Klar, es handelt sich im Grunde um eine Unmenge an Daten. Doch hinter Big Data stecken sogenannte Dimensionen, die aus den unstrukturierten Daten feingranulare Informationen zaubern. Im Big-Data-Interview zeigte uns zuletzt Dunja Riehemann, Director Marketing bei der Blue Yonder GmbH aus Karlsruhe, auf, was alles zu einer Daten-Analyse gehört. Im Folgenden gehe ich auf einige ihrer Punkte, auf die einzelnen Dimensionen und die damit verknüpften Begriffe ein.
Big Data
Eine allgemein gültige Definition sucht man bisher vergebens. Liest man sich durch das Internet, studiert dazu noch Fachzeitschriften und Bücher, dürfte folgende Ausführung dem Begriff am nächsten kommen: Es handelt sich dabei um eine unstrukturierte Datenansammlung, die mit herkömmlicher IT-Infrastruktur nicht mehr zu bändigen ist. Große und komplexe Datenmengen werden in der Regel erfasst, gespeichert, durchsucht, verteilt, analysiert und visualisiert. Hierfür benötigen Unternehmen spezielle Hochleistungsrechenzentren, die darauf spezialisiert sind, diese Datenmengen zügig zu strukturieren. Mit künstlicher Intelligenz hat das meines Erachtens allerdings nichts zu tun. Ein Beispiel im Hinblick auf die Größenordnung: „Nimmt man beispielsweise die Millionen von Transaktionen, die pro Tag über Verkaufsplattformen wie Amazon oder eBay laufen, entstehen im Rahmen der Echtzeit-Vorhersagen über das Kaufverhalten der Kunden Daten von etwa 100 Petabyte. Das entspricht 100.000.000 Gigabyte oder 3.125.000 Smartphones mit 32 Gigabyte Speicherplatz“, so Digitale-Welt-Autor Christian Schön.
Und zur Info: Vor einiger Zeit haben wir zum Thema einen Big-Data-Leitfaden veröffentlicht, der noch immer aktuell ist.
Smart Data
Über Smart Data durfte ich bereits einige Male schreiben. Der Begriff beschreibt im Grunde das Endergebnis, nachdem die großen Datenmengen gesammelt, geordnet und analysiert worden sind. Es sind Datensätze, mit denen Anwender in der Regel etwas Sinnvolles anfangen können. Es gilt: Nur wer die Daten versteht, kann Mehrwert schaffen. „Künftig soll Smart Data nicht nur die Frage beantworten: Was geschieht gerade in meiner Anlage? Auch die Fragen: Warum passiert etwas oder gar was wird demnächst geschehen?“, erklärt Dr. Wolfgang Heuring, CEO der Siemens Business Unit Motion Control. Erst durch eine intelligente Verarbeitung wird Big Data zu Smart Data. Die Verwendung von sogenannten semantischer Technologien ist dabei Voraussetzung. Man stelle sich nur eine Google-Suche ohne Semantic vor; ohne strukturierte und vorab analysierte Daten. Es würden nicht viele zielführende Treffer angezeigt. Smart Data verbessert somit die Geschwindigkeit und Qualität der datengestützten Entscheidungen beziehungsweise sorgt für eine geprüfte Ansammlung von Wissen. Durch Smart Data ist es heutzutage möglich, die Realität im Detail digital darzustellen. Ein gutes Beispiel sind Kennzahlen im E-Commerce. So zeigen sie dem Händler bereits nach einer einfachen Auswertung ein ziemlich genaues Abbild vom Kunden.
Volume
Die oben bereits erwähnten Datenmengen werden in Datenkreisen auch Volume genannt. Dazu zählen natürlich auch Smart Data. Aufbereitete und fertig analysierte Datenmengen können so leicht Petaflop-Größen erreichen. Als Beispiel sei Google Maps zu nennen. Milliarden analysierte Datensätze und das damit verknüpfte visuelle Kartenmaterial spricht für sich.
Variety
Die Vielfalt der zur Verfügung stehenden Daten sowie die eigentlichen Quellen dazu werden in der Dimension Variety beschrieben. Diese Dimension stellt somit die größte Herausforderung auf dem Weg zur smarten Information. Muster und deren Zusammenhänge werden zum Beispiel bereits zu Beginn einer Big-Data-Analyse mit unterschiedlichen anderen Daten und Quellen verknüpft und verglichen. Einen Wink aus dem Bereich Social Media: 30 Milliarden Posts und mehr verschiedener Inhalte werden jeden Monat auf Facebook geteilt. Zudem gibt es über 400 Millionen tragbare medizinische Tracker und gefühlt 400 Millionen Tweets werden pro Tag von 200 Millionen aktiven Usern veröffentlicht – eine Vielfalt, die es gilt auseinander zu dividieren – um sie am Ende wieder zusammenzuführen.
Velocity
Datenmengen müssen in der Regel zügig analysiert und zur Verfügung gestellt werden. Es kommt natürlich auf die Datenmenge an, doch sind die Rechner auf spezielle Datensätze programmiert. Wir sprechen da von einer Verarbeitungsgeschwindigkeit von wenigen Stunden bis zu mehreren Tagen. Ein Manager von IBM sagte mir mal vor einigen Jahren: „Um an die Ergebnisse zu gelangen, die ein Hochleistungsrechner aus den Datenmengen an einem Tag berechnet, müssten sechs Milliarden Menschen über 1.000 Jahre lang mit Taschenrechnern rechnen.“
Veracity
Nicht erst seit Donald Trump und seinen Fake News gilt es, Informationen auf ihre Richtigkeit zu prüfen. Dazu gehören auch Zuverlässigkeit, Sinnhaftigkeit sowie die Vertrauenswürdigkeit der erhobenen Daten. Die Qualität der Daten ist dabei das Wichtigste. Sie entscheidet am Ende auch über die Dauer der Analyse und am Ende über die erwähnte Richtigkeit der smarten Informationen. Wichtig hierbei: Eine unpassende Verarbeitungsmethode liefert trotz eigentlich guter Daten ebenfalls nicht die erwünschten Ergebnisse.
Viability
Viability beantwortet die Frage, woher beziehungsweise aus was eigentlich meine Daten stammen. Handelt es sich um Informationen aus Textdateien, aus Sensoren oder sind es zusammengewürfelte Datensätze. Aber auch Informationen aus dem Internet und Mobilfunknetz fallen unter die Dimension Viability.
Visibility
Die Sichtbarkeit der Informationen ist heutzutage nicht immer anzunehmen. In Unternehmen gibt es heutzutage Milliarden Datensätze, die unter dem Begriff -Dark Data- fallen. Diese Daten sind nicht nur unanalysiert; sie sind inhaltlich wie auch wirtschaftlich nicht erfasst. Für manches Datenunternehmen ein wahrer Schatz.
Volatility
Wie lange dürfen Daten eigentlich zur Verfügung stehen. Wie lange gibt es die Originalquelle; wie lange ist diese zugänglich? Für die Beantwortung dieser Fragen ist zum einen der vorherrschende Speicherplatz von Bedeutung, aber auch die juristische Seite muss beleuchtet werden. Wie lange darf ich Kunden- beziehungsweise personalisierte Daten vorhalten? Darf ich es überhaupt?
Value
Wie wertvoll sind die vorliegenden Daten. Lohnt es sich, diese mittels Analyse auszuwerten? Es gilt: Für sich gesehen, besitzen Daten oder Informationen zunächst keinen Wert. Erst durch eine Analyse und den dazu gestellten Fragen erhält der jeweilige Datensatz eine wirtschaftliche oder wissenschaftliche Bedeutung. Sind die Daten bereits in der Masse wertvoll, können Experten auf Marktsituationen zielstrebig reagieren.
Quelle/Idee: The Missing V’s in Big Data: Viability and Value
Dieser Artikel wird fortlaufend angepasst, korrigiert und mit zusätzlichen Informationen angereichert.