Was sind Streaming-Daten?
Daten-Streaming ist, wenn ein kontinuierlicher, konstanter Datenfluss generiert und verarbeitet wird. Das wird durch die Stream-Verarbeitungstechnologie ermöglicht, bei der Datenströme in Echtzeit verwaltet, gespeichert, analysiert und anschließend bearbeitet werden können. Daten-Streaming kann auch als Event Stream Processing oder Streaming-Daten bezeichnet werden (mit denen die meisten von uns dank Netflix vertraut sind).
Um Streaming-Daten besser zu verstehen, beginnen Sie am besten mit dem Konzept des Streamings selbst. Streaming bezieht sich auf einen kontinuierlichen Datenfluss, der weder einen Start- noch einen Endpunkt hat. Dieser konstante Datenfluss kann genutzt werden, ohne dass er jemals heruntergeladen werden muss. Es ähnelt der Strömung eines Flusses. Viele kleine Bäche, Nebenflüsse und Gewässer fließen mit unterschiedlichen Geschwindigkeiten und Intensitäten zu einem einzigen Fluss zusammen, ohne Anfang oder Ende von Ihrem Standpunkt aus.
Ebenso stammen Datenströme aus einer Reihe von Quellen in zahlreichen Formaten und Volumenintensitäten. Diese Quellen können Apps, Netzwerkgeräte, Serverprotokolldateien, Online-Aktivitäten verschiedener Art sowie standortbasierte Daten sein. Alle diese Quellen können in Echtzeit gesammelt werden, um eine einzige Hauptquelle für Echtzeit-Analytik und Informationen zu bilden.
Ein Beispiel für Streaming-Daten ist eine Mitfahr-App. Wenn Sie bei Uber oder Lyft buchen, werden Sie in Echtzeit einem Fahrer zugewiesen, und die App kann Ihnen anhand von Verkehrsdaten in Echtzeit mitteilen, wie weit er von Ihnen entfernt ist und wie lange es dauern wird, bis Sie an Ihr Ziel gelangen. Weitere Beispiele für Streaming-Daten sind Aktienhandel in Echtzeit und Bestandsverwaltung im Einzelhandel.

So funktionieren Streaming-Daten
Das Konzept der Datenverarbeitung ist nicht neu. In den früheren Jahren war die veraltete Infrastruktur einfacher zu strukturieren, da Daten aus viel weniger Quellen generiert wurden. Ganze Strukturen könnten auf eine Weise erstellt werden, die an der Genauigkeit und Vereinheitlichung von Daten und Quellstrukturen arbeitet.
Moderne Daten stammen jedoch aus einer unendlichen Anzahl von Quellen, die alles sein können, einschließlich Hardware-Sensoren, Servern, persönlichen Geräten, Apps und Internetbrowsern. Dies macht es unmöglich, die Struktur von Daten zu regeln oder durchzusetzen oder die Intensität und Häufigkeit der generierten Daten zu kontrollieren.
Um den modernen Datenfluss bewältigen zu können, sind Anwendungen mit der Fähigkeit, Datenströme jeweils ein Datenpaket in einer Sequenz zu analysieren und zu verarbeiten, erforderlich. Jedes generierte Datenpaket muss auch die Quelle und den Zeitstempel enthalten, und dies hilft Anwendungen dabei, mit Datenströmen zu arbeiten.
Die Anwendungen, die für die Arbeit mit Datenströmen verwendet werden, benötigen zwei Hauptfunktionen: Speicherung und Verarbeitung. Für den Speicher müssen riesige Datenströme in einer Sequenz und auf konsistente Weise aufgezeichnet werden. Für die Verarbeitung sollte die Software in der Lage sein, die Interaktion mit dem Speicher, den Verbrauch der gespeicherten Daten, die Analyse der gespeicherten Daten und die Ausführung der erforderlichen Berechnungen für die Daten zu verarbeiten.
Beim Aufbau von Datenströmen gibt es verschiedene Überlegungen und Herausforderungen, und heute gibt es eine Reihe von Plattformen sowie Tools, mit denen Organisationen Unternehmen beim Aufbau ihrer Streaming-Dateninfrastruktur unterstützen können. Datenströme spielen bei Big Data eine wichtige Rolle und bilden die Grundlage für Echtzeit-Analysen sowie Datenintegration und Datenaufnahme.
Die Unterschiede zwischen Batch-Verarbeitung und Echtzeit-Streams
Moderne Echtzeit-Streams sehen, verglichen mit Anfängen der Batch-Datenverarbeitung, ganz anders aus. Bei der veralteten Batch-Verarbeitung werden Daten in Chargen gesammelt und anschließend je nach Bedarf verarbeitet, gespeichert oder analysiert. Bei Streaming-Daten ist der Dateneingabefluss kontinuierlich und wird in Echtzeit verarbeitet. Man muss nicht darauf warten, dass die Daten in Batch-Form eintreffen.
Daten fließen heute in konstanten Strömen und kommen in einer Vielzahl von Mengen und Formaten, von zahlreichen Standorten und aus der Cloud, On-Premise oder sogar aus einer Hybrid Cloud. Ältere Datenverarbeitungsmethoden sind heute weitestgehend überholt. Unternehmen nutzen heute Echtzeit-Datenströme, die bis auf die Millisekunde genau aktuell sind und Unternehmen eine Vielzahl von Möglichkeiten bieten, ihre Arbeitsweise zu transformieren.
Vorteile von Streaming-Daten
Hier sehen Sie, wie Streaming-Daten angewendet werden können, um reale Arbeitssituationen zu unterstützen.
Verbesserte Warnmeldungen
Der unmittelbare und offensichtlichste Vorteil der Funktionen von Streaming-Daten besteht darin, dass sie Streaming-Analytik unterstützen. Es gibt eine sofortige Rückmeldung, wenn ein Ereignis, eine Anomalie oder ein Trend auftritt. Warnmeldungen sind kein einzigartiger Aspekt des Streamings, aber die einfache Tatsache, dass diejenigen, die Warnmeldungen erhalten, sofort reagieren können, macht sie zu einem wichtigen Aspekt. Dies kann passieren, da es im Gegensatz zur Batch-Verarbeitung keine technologische Verzögerung gibt. Im Folgenden finden Sie einige Beispiele dafür, wie Warnmeldungen funktionieren können:
- Im Falle der Cybersicherheit können Streaming-Daten verwendet werden, um im Verlauf einer Untersuchung untypisches Verhalten zu kennzeichnen. In einer großen Anzahl von Cybersicherheitsumgebungen wird maschinelles Lernen eingesetzt, um potenziell verdächtige Verhaltensweisen bei ihrem Auftreten im Netzwerk zu erkennen. Die Verwendung von visuellen Warnungen zusammen mit Ergebnissen des maschinellen Lernens ist der beste Weg, damit eine breite Gruppe von Cyberanalysten Bedrohungen erkennen kann. Auf diese Weise kann ein Unternehmen sein Sicherheitsnetzwerk auf einen breiteren Personenkreis ausdehnen, anstatt es auf Sicherheitsexperten und Entwickler zu beschränken.
- Auch der Einzelhandel profitiert immens von Warnmeldungen. Jedes Geschäft priorisiert unterschiedliche Dinge, und IT-Teams sollten Prioritäten erhalten, für die der Code angepasst werden kann. Streaming-Daten können verwendet werden, um Dinge wie geringen Lagerbestände oder ungewöhnlich hohes Kundeninteresse zu erkennen. Mit Analysetools werden Warnungen an nichttechnisches Personal anstatt an das technische Personal versendet. Dies ermöglicht positive Reaktionen dort, wo es am wichtigsten ist – im Geschäft.
Gemeinsame Verwendung historischer und datenstrombasierter Analysen
Es gibt zahlreiche Situationen, in denen historische Daten zusammen mit Echtzeit-Datenanalysen verwendet werden, um Unternehmen ein umfassenderes Bild ihres Geschäfts zu vermitteln. Das beste Beispiel dafür ist ein Anwendungsfall für die Risikobewertung von Finanzinstituten. Die Prozesse berücksichtigen den gesamten Transaktionskreislauf – von der Vergangenheit, die bereits ausgeführt wurde, bis zur Gegenwart, die Änderungen, Übertragungen oder Abschlüsse beinhaltet.
Wenn Sie eine Handelsveranstaltung in einen Zusammenhang bringen, bedeutet dies, dass die Daten zu den Transaktionen der Veranstaltung den Organisatoren dabei helfen, Muster zu verstehen, die auf ihre größeren Portfolios anwendbar sind. Die Informationen, die aus einer Analyse historischer Daten und Echtzeit-Daten in dieser Situation gewonnen werden, können den Unterschied zwischen Erfolg und massivem Verlust für zukünftige Ereignisse ausmachen.
Vorteile bei der Erstellung vollständiger Aufzeichnungen
In fast allen Aspekten des täglichen Lebens, ob geschäftlich oder anderweitig, ist das Internet der Dinge (IoT) der richtige Weg und wird bereits von vielen Organisationen genutzt. Das einzige große Problem ist jedoch, dass mehrere identische Datensätze aus Streaming-Daten generiert und Informationen verdoppelt werden. Die Datenquelle zu verfolgen ist zwar wichtig, führt jedoch dazu, dass sich dieselben Informationen mehrmals wiederholen. Bei Tausenden von Quellpunkten kann dies schnell problematisch werden und einen Großteil der Daten überflüssig machen. Um die Verwendung von IoT zu einer praktikableren Möglichkeit zu machen, können alle sich wiederholenden Informationen in einer einzigen Zuordnungstabelle zusammengefasst werden. Wenn Sie den Datenstrom mit der Zuordnungstabelle verbinden, können Sie einen vollständigen Datensatz erstellen, ohne dass es zu Wiederholungen kommt.
Wir können ein Beispiel für ist der Einsatz der Lösung auf einer Bohrinsel, bei dem sich der Herstellername und Standort ständig wiederholen. Wenn Sie diese beiden Details in einer Zuordnungstabelle platzieren und sie mit einem Schlüssel wie „manu_id“ mit dem Datenstrom verbinden, wird viel Datenplatz gespart. Dieser Schlüssel kann dann verwendet werden, um festzustellen, ob sich der Standort auf verschiedene Aspekte wie Verschleiß, Leistungsfähigkeit, zusätzliche Wartungsanforderungen und mehr auswirkt. Durch die Verwendung einer Zuordnungstabelle können nicht-produktive Zeiten erheblich reduziert werden.
Erkenntnisse, die anderswo nicht zu finden sind
Derzeit gibt es ein beispielloses Interesse und eine Entwicklung, die sich auf Streaming-Technologien konzentriert. Es wird durch technologische Fortschritte und durch die Erkenntnis weiter vorangetrieben, dass die Streaming-Datenanalytik einen immensen Geschäftswert birgt. Unternehmen, die nach ihrem nächsten Wettbewerbsvorteil suchen, werden sich Streaming-Daten zuwenden, um Erkenntnisse zu gewinnen, die sie aus ihren bestehenden Analytikansätzen nicht gewinnen können. Einige der Bereiche, in denen diese Technologie die unmittelbarsten Vorteile bietet, sind:
- Nutzung von Standortdaten
- Betrugsbekämpfung
- Aktienhandel in Echtzeit
- Marketing, Vertrieb und Business-Analytik
- Überwachung und Analyse von Kunden- oder Benutzeraktivitäten
- Überwachung und Berichterstattung über interne IT-Systeme
- Unterstützung bei der Protokollüberwachung
- Sicherheitsinformations- und Ereignismanagement (SIEM)
- Einzelhandels- und Lagerbestand über mehrere Kanäle hinweg
- Verbesserung der Mitfahrgelegenheiten
- Kombination von Daten für maschinelles Lernen und Analysen auf Basis künstlicher Intelligenz
- Erschließen Sie neuere Wege in der prädiktiven Analytik
Herausforderungen beim Erstellen von Daten-Streaming-Anwendungen
Wie bei den meisten technologischen Systemen ist auch das Daten-Streaming mit einigen Herausforderungen verbunden. Hier sehen Sie einige der Schwierigkeiten beim Erstellen von Daten-Streaming-Anwendungen:
Skalierbarkeit in einer Arbeitsumgebung
Im Falle eines Systemausfalls können die von jedem Gerät eingehenden Protokolldaten von einer Senderate von Kilobit pro Sekunde auf Megabit pro Sekunde steigen. In aggregierter Form kann die Senderate sogar bis zu Gigabit pro Sekunde hochskaliert werden. Die notwendige Erhöhung der Kapazität, der Ressourcen und der erforderlichen Server, wenn diese Anwendungen skaliert werden und die Menge der erzeugten Rohdaten steigt, muss sofort erfolgen. Die Fähigkeit, nahtlose Anwendungen zu entwerfen, die in Arbeitsumgebungen zum Streamen von Daten skaliert werden können, ist eine anspruchsvolle Aufgabe, bei der viele verschiedene simultane Prozesse berücksichtigt werden müssen.
Die Bedeutung von Sequenzen
Die Bestimmung der Datenreihenfolge in einem Datenstrom ist kein kleines Problem. Die Reihenfolge der Daten innerhalb eines Datenstroms ist entscheidend dafür, wie gut er von Anwendungen genutzt werden kann. Wenn Entwickler ein Problem mit einer Bot-Chat-Anwendung beheben möchten, ist die Reihenfolge des Gesprächs wichtig, um festzustellen, wo möglicherweise etwas schief läuft. Jede Zeile in der aggregierten Protokollübersicht muss in der richtigen Reihenfolge sein. Das Problem entsteht üblicherweise durch Abweichungen in der Reihenfolge des generierten Datenpakets und der Reihenfolge, in der das Datenpaket den Zielpunkt erreicht. Es kann auch Unterschiede bei den Zeitstempeln und den Uhren der Geräte geben, die die Daten generieren.
Aufrechterhaltung von Konsistenz und Dauerhaftigkeit
Zu den schwierigsten Problemen bei der Verarbeitung von Streaming-Daten gehören die Konsistenz und der Zugriff. Die generierten Daten werden häufig an mehrere Rechenzentren auf der ganzen Welt verteilt. Es besteht die Möglichkeit, dass sie zu dem Zeitpunkt, zu dem in einem Rechenzentrum darauf zugegriffen wird, bereits verwendet und in einem anderen Rechenzentrum gelöscht wurden. Die Dauerhaftigkeit von Daten bei der Arbeit mit Datenströmen in der Cloud ist ebenfalls eine ständige Herausforderung für Entwickler.
Fehlertoleranz und Datengarantien
Bei der Verarbeitung von Streaming-Daten über verteilte Systeme ist es wichtig, sowohl die Fehlertoleranz als auch die Datengarantien zu berücksichtigen. Wenn Sie Daten aus zahlreichen Quellen und Standorten in verschiedenen Formaten und unterschiedlichen Mengen haben, müssen die Organisationssysteme darauf ausgerichtet sein, Störungen zu verhindern, die durch einen einzigen Ausfallpunkt entstehen können. Diese Systeme sollten in der Lage sein, riesige Datenströme dauerhaft zu speichern. Dies sicherzustellen, ist keine leichte Aufgabe.
Jede Störung im konstanten Datenstrom sichert auch das System. Wenn das System die gestörten Informationen nicht speichern kann und dann in der Lage ist, aufzuholen, trägt das gesamte System eine große Last verzögerter Daten.

Die Zukunft der Streaming-Daten
Es gab und es gibt weiterhin ein schnelles Wachstum und Interesse an der Nutzung von Software-as-a-Service, mobilen und internetbasierten Anwendungen sowie dem Einsatz von Data Science und Advanced Analytics durch ein breites Spektrum von Organisationen. Fast jedes mittelständische bis große Unternehmen hat irgendeine Form eines Streaming-Daten-Projekts, das entweder noch läuft oder vorbereitet wird. All dies basiert auf dem Wunsch, immer einen Schritt voraus zu sein und Customer-Journeys, Clickstream-Daten und verschiedene andere Anwendungsfälle zu analysieren, die nützliche Berichte generieren können.
Es gab einmal einen Punkt, an dem sich das Streaming von Daten auf eine kleine Gruppe von Personen in einem Unternehmens begrenzte - hauptsächlich Big-Data-Ingenieure und Data Scientists. Diese Profis arbeiteten mit unglaublich komplexen Fähigkeiten und an Streams wie Spark, Flink, MapReduce und Scala. Sie arbeiteten mit Business-Analysten und Business-Intelligence-Experten zusammen, die sich alle hauptsächlich auf die Ausführung von SQL-Abfragen für relationale Datenbanken konzentrierten.
Zu Beginn des neuen Jahres wird sich das ändern. Da immer mehr Unternehmen auf Streaming-Quellen angewiesen sind, werden Geschäftsanwender in der Lage sein, mit Streaming-Daten zu arbeiten, die sie mit anderen Datensätzen verarbeiten können - in Form von interaktiven Dashboards sowie Ad-hoc-Analytik, genau wie Softwareentwicklungsteams. Auf diese Weise können Daten für alle Personen über Hierarchien hinweg in einer Organisation besser zugänglich sein.