Was ist Data Science?

Data Science ist ein multidisziplinärer Ansatz zur Suche, zum Extrahieren und Belegen von Mustern in Daten durch eine Fusion von Analysemethoden, Fachwissen und Technologie. Dieser Ansatz umfasst im Allgemeinen die Bereiche Data Mining, Prognosen, maschinelles Lernen, prädiktive Analysen, Statistiken und Text-Analytik. Da die Daten mit alarmierender Geschwindigkeit wachsen, geht es um Unternehmen, die Erkenntnisse in ihren Daten zu nutzen. Die meisten Unternehmen werden jedoch mit einem Mangel an Experten konfrontiert, um ihre Big Data zu analysieren, um Erkenntnisse zu gewinnen und Probleme zu untersuchen, von denen das Unternehmen nicht einmal wusste. Um den Wert von Data Science zu realisieren und zu monetarisieren, müssen Unternehmen prädiktive Erkenntnisse, Prognosen und Optimierungsstrategien in Geschäfts- und Betriebssysteme einfließen lassen. Viele Unternehmen befähigen ihre Wissensarbeiter jetzt mit Plattformen, die ihnen bei der Durchführung ihrer eigenen Projekte und Aufgaben zum maschinellen Lernen helfen können. Die Möglichkeit, Trends und Chancen für die enormen Datenmengen zu extrahieren, die in ein Unternehmen eingebracht werden, wird einem Unternehmen einen Wettbewerbsvorteil verschaffen.

Data Science umfasst beschreibende, diagnostische, prädiktive und präskriptive Fähigkeiten. Dies bedeutet, dass Unternehmen durch Data Science Daten verwenden können, um herauszufinden, was passiert ist, warum es passiert ist, was passieren wird und was sie gegen das erwartete Ergebnis tun sollten.

Verständnis der Funktionsweise von Data Science

Konzeptionell ist der Data-Science-Prozess sehr einfach zu verstehen und umfasst die folgenden Schritte:

  1. Verständnis des Geschäftsproblems
  2. Sammlung und Integration von Rohdaten
  3. Erkundung, Transformation, Bereinigung und Vorbereitung der Daten
  4. Erstellung und Auswahl von Modellen basierend auf den Daten
  5. Testen, Optimierung und Implementierung der Modelle
  6. Überwachung, Testen, Aktualisierung und Steuerung der Modelle

Funktionsweise von Data Science

Verständnis des Geschäftsproblems

Der Prozess der Data Science beginnt damit, das Problem zu verstehen, das der Business-Anwender zu lösen versucht. Zum Beispiel möchte ein Business-Anwender fragen und verstehen: „Wie steige ich den Umsatz?“ oder „Welche Techniken eignen sich am besten, um an meine Kunden zu verkaufen?“ Dies sind sehr weit gefasste, mehrdeutige Fragen, die nicht zu einer sofort erforschbaren Hypothese führen. Es ist die Aufgabe des Data Scientist, diese Geschäftsprobleme in erforschbare und testbare Hypothesen zu unterteilen. Zum Beispiel: „Wie steigere ich den Umsatz?“ könnte in mehrere kleinere Fragen unterteilt werden, wie zum Beispiel „Welche Bedingungen führen zu den gesteigerten Umsätzen? War es eine Beförderung, ein Wetter oder eine Saisonalität?“, „Wie können wir unseren Umsatz auf der Grundlage von Einschränkungen optimieren?“ , und „Wie hoch sind die Verkäufe wahrscheinlich morgen/nächste Woche/nächsten Monat für jedes Geschäft?“ Das Wichtigste, an das man sich erinnern sollte, ist, dass man die zu treffende Geschäftsentscheidung verstehen und von dort aus rückwärts arbeiten muss. Wie wird sich Ihr Geschäftsprozess ändern, wenn Sie eine Stunde/Tag/Woche/Monat in die Zukunft vorhersagen könnten?

Sammlung und Integration der Rohdaten

Sobald das Geschäftsproblem verstanden wurde, besteht der nächste Schritt darin, die Rohdaten zu sammeln und zu integrieren. Zunächst muss der Analyst sehen, welche Daten verfügbar sind. Oft werden Daten in vielen verschiedenen Formaten und vielen verschiedenen Systemen vorliegen, so dass häufig Data-Wrangling- und Datenvorbereitungstechniken verwendet werden, um die Rohdaten in ein nutzbares Format zu konvertieren, das für die bestimmten Analysetechniken geeignet ist. Wenn die Daten nicht verfügbar sind, arbeiten Data Scientists, Dateningenieure und IT im Allgemeinen zusammen, um neue Daten in eine Sandbox-Umgebung für Tests zu bringen.

Erkundung und Vorbereitung der Daten

Jetzt können die Daten erforscht werden. Die meisten Data Science-Experten werden ein Datenvisualisierungstool einsetzen, das die Daten in Grafiken und Visualisierungen organisiert, um ihnen dabei zu helfen, allgemeine Muster in den Daten, starke Korrelationen und potenzielle Ausreißern zu erkennen. Dies ist auch die Zeit, in der der Analyst beginnt zu verstehen, welche Faktoren zur Lösung des Problems beitragen können. Jetzt, da der Analyst ein grundlegendes Verständnis dafür hat, wie sich die Daten verhalten und mögliche Faktoren zu berücksichtigen sind, wird der Analyst neue Funktionen (auch Variablen genannt) transformieren, erstellen und die Daten für die Modellierung vorbereiten.

Testen, Optimierung und Bereitstellung von Modellen

Das ist der Punkt, an dem die meisten Analysten Algorithmen verwenden, um Modelle aus den Eingabedaten zu erstellen, die Techniken wie maschinelles Lernen, Deep Learning, Prognosen oder Verarbeitung natürlicher Sprache (auch bekannt als Text-Analytik) verwenden, um verschiedene Modelle zu testen. Statistische Modelle und Algorithmen werden auf den Datensatz angewendet, um zu versuchen, das Verhalten der Zielvariablen (z. B. was Sie vorherzusagen versuchen) basierend auf den Eingabeprognosen (z. B. Faktoren, die das Ziel beeinflussen) zu verallgemeinern.

Ausgaben sind in der Regel Vorhersagen, Prognosen, Anomalien und Optimierungen, die in Dashboards oder eingebetteten Berichten angezeigt oder direkt in Geschäftssysteme integriert werden können, um Entscheidungen nahe dem Entscheidungspunkt zu treffen. Nachdem die Modelle in den Visualisierungs- oder Geschäftssystemen bereitgestellt wurden, werden sie verwendet, um neue Eingabedaten zu bewerten, die sie noch nie zuvor gesehen haben.

Überwachung, Testen, Aktualisierung und Steuerung der Modelle

Nachdem die Modelle bereitgestellt wurden, müssen sie überwacht werden, damit sie aktualisiert und weiterentwickelt werden können, wenn sich Daten aufgrund des sich ändernden Verhaltens von Ereignissen in der realen Welt verschieben. Daher ist es unerlässlich, dass Unternehmen über eine Modellbetriebsstrategie verfügen, um Änderungen an Produktionsmodellen zu regeln und zu verwalten.

Neben der Bereitstellung von Modellen für Dashboards und Produktionssysteme können Datenwissenschaftler auch hochentwickelte Data Science-Pipelines erstellen, die von einem Visualisierungs- oder Dashboard-Tool aus aufgerufen werden können. Oft haben diese einen reduzierten und vereinfachten Satz von Parametern und Faktoren, die von einem Citizen Data Scientistangepasst werden können. Dies hilft bei der Behebung des oben genannten Fachkräftemangels. So kann ein Citizen Data Scientist, oft ein Business- oder Domain-Experte, die interessierenden Parameter auswählen und einen sehr komplexen Data-Science-Workflow ausführen, ohne die dahinter stehende Komplexität verstehen zu müssen. Auf diese Weise können sie verschiedene Szenarien testen, ohne einen Data Scientist einbeziehen zu müssen.

Zusammenfassend erzählen Data Scientists anhand von Daten eine Geschichte und liefern dann prädiktive Erkenntnisse, die das Unternehmen für reale Anwendungen nutzen kann. Der verwendete Prozess lautet wie folgt, wie in der folgenden Grafik gezeigt wird:

  • Eingabe-Daten
  • Daten zur Vorbereitung
  • Anwendung von maschinellem Lernen
  • Bereitstellung, Bewertung und Verwaltung von Modellen
  • Ausgabe-Daten

Funktionsweise von Data Science
Welcher DataScience-Superheld sind Sie?
Welcher DataScience-Superheld sind Sie?
Laden Sie dieses E-Book herunter, um die sechs wichtigsten Fähigkeiten zu erlernen, die Sie als Data Scientist herausragen lässt.

Die wichtigsten Schritte im Data Science-Prozess

Geschäftliches Verständnis

  • Verständnis der zu treffenden Geschäftsentscheidung
  • Bestimmen, welche Daten für die Entscheidung benötigt werden
  • Erkennen, wie sich Ihr Unternehmen aufgrund der Entscheidung ändern wird
  • Die Architektur bestimmen, die zur Unterstützung der Entscheidung erforderlich ist
  • Zusammenstellung eines funktionsübergreifenden Technik- und Projektmanagement-Teams

Verständnis des Prozesses des maschinellen Lernens

  • Datenerfassung und Integration
  • Daten-Exploration, -vorbereitung und -bereinigung
  • Daten-Vorverarbeitung, -transformation und Generierung von Funktionen
  • Modellentwicklung und -auswahl
  • Modelltests und -abstimmung
  • Modell-Implementierung

Verständnis des Modellbetriebs und des Governance-Prozesses

  • Modell-Repository, Dokumentation und Versionskontrolle
  • Modellbewertung, API-Framework und Container-Strategie
  • Umgebung zur Modellausführung
  • Modellbereitstellung, -integration und Ergebnisse
  • Modellüberwachung, -prüfung und -aktualisierung

Welche Fähigkeiten werden für Data Science benötigt?

Unternehmerische Fähigkeiten: Zusammenarbeit, Teamarbeit, Kommunikation, Fachwissen/geschäftliches Wissen

Analytische Fähigkeiten: Datenvorbereitung, maschinelles Lernen, Statistiken, raumbezogene Analytik, Daten-Visualisierung

Informatik- und IT-Fähigkeiten: Daten-Pipelines, Modellbereitstellung, Überwachung, Verwaltung, Programmierung/Codierung

Wer nutzt Data Science?

„Das versteckte Talent“ auch bekannt als Citizen Data Scientists: Verwendet täglich Daten und Analysen, um spezifische Geschäftsprobleme mit einer Point-and-Click-Schnittstelle zu lösen.

„Der Business-Getriebene“: Konzentriert sich auf von Geschäftsbereichen geleitete Initiativen und auf die Verbesserung der Geschäftsabläufe.

„Die Spezialisten“: Arbeiten in allen Funktionen und Geschäftsbereichen, um Probleme zu lösen und mit der IT zusammenzuarbeiten, um Modelle des maschinellen Lernens zu operationalisieren. Erreichen Sie Unterstützung und Finanzierung von Führungskräften.

„Die Teufelskerle“: Nutzen eine Vielzahl von Datenquellen, um neue Probleme zu lösen, Prototyp-Lösungen mit maschinellem Lernen und führen Data Science-Workflows in großem Maßstab aus. Bevorzugen Tools wie R, Python, Scala, Hadoop und Spark.

„Das ungenutzte Potenzial“: Sie möchten einsteigen, haben aber nicht das Gefühl, dass sie die Unterstützung oder Schulung haben oder nicht für ein Unternehmen mit Technologie arbeiten, die wiederverwendbare Vorlagen anbietet.

Die wichtigsten Data Science-Aufgaben

  • Problemverständnis und Analyse
  • Datensammlung, Datenvorbereitung/Bereinigung und grundlegende explorative Datenanalyse
  • Modellentwicklung und -tests
  • Modellbereitstellung, Überwachung und Governance
  • Mitteilung der Erkenntnisse an Entscheidungsträger im Unternehmen

Welche Herausforderungen bewältigt Data Science?

Im Folgenden finden Sie einige Beispiele für die Herausforderungen, mit denen sich Data Science in verschiedenen Branchen befasst:

Energie

Data Science wird hauptsächlich im Energiesektor eingesetzt, um Exploration, Produktion und Betrieb zu optimieren und gleichzeitig Anforderungen wie die Folgenden zu antizipieren:

  • Vorhersage von Geräteausfällen
  • Prognose zukünftiger Ölmengen und -preise
  • Optimierung des Vertriebs
  • Reduzierung von Emissionen
  • Analyse der Bodenbeschaffenheit
  • Charakterisierung des Reservoirs

Finanzen und Versicherungen

In der Finanz- und Versicherungsbranche liegt der Schwerpunkt der Data Science hauptsächlich auf der Senkung von Risiken, die Aufdeckung von Betrug und die Optimierung des Kundenerlebnisses. Einige Beispiele dafür, wo Data Science verwendet wird, sind:

  • Prognose von Kreditrisiko
  • Aufdeckung von Betrug
  • Analysiere von Kunden
  • Verwaltung des Portfolios
  • Bestimmung der Wahrscheinlichkeit einer Kundenabwanderung
  • Einhaltung von Vorschriften wie SOX, Basel II

Gesundheitswesen

Data Science im Gesundheitswesen wird hauptsächlich verwendet, um die Versorgungsqualität zu verbessern, den Betrieb zu verbessern und die Kosten zu senken.

  • Vorhersage des Krankheitsrisikos
  • Erkennung betrügerischer Ansprüche
  • Verschreibung personalisierter Medikamente
  • Analyse von Bildern zur Erkennung von Krebserkrankungen
  • Verwaltung von Versicherungsansprüchen
  • Verbesserung der Patientensicherheit
  • Bestimmen, wer am meisten gefährdet ist

Arzneimittel

Data Science im Pharmabereich wird hauptsächlich verwendet, um Sicherheit, Produktqualität und Arzneimittelwirksamkeit zu gewährleisten, wie zum Beispiel:

  • Bestimmung der goldenen Batch
  • Analyse von klinischen Studien
  • Nachverfolgung von Produkten
  • Analyse der Haltbarkeit und der Stabilität
  • Validierung von Reporting und Analysen zur Einhaltung gesetzlicher Vorschriften
  • Analyse der Fertigungsprozesse, Daten

Fertigung

In der Fertigung hilft Data Science, Prozesse zu optimieren, die Qualität zu verbessern und Lieferanten zu überwachen. Einige Beispiele hierzu sind:

  • Verbesserung der Erträge
  • Reduzierung von Altmaterial, Nacharbeiten, und Rückrufen
  • Erkennung von Garantiebetrug
  • Einhaltung von Vorschriften
  • Prognose und Vorbeugung von Geräteausfällen

Herausforderungen, mit denen sich Data Scientists auseinandersetzen müssen

Unzugängliche Daten

Angesprochen von:

  • Einfache Kombination von Daten aus mehreren, unterschiedlichen Quellen in eine virtuelle Datenschicht
  • Visuelle Manipulation, Bereinigung und Transformation von Daten, zur Vorbereitung auf die Analyse
  • Verwendung von Introspektion und Relationship Discovery zum Verständnis und Validieren von Datenbeziehungen für das Modell

Schmutzige Daten

Angesprochen von:

  • KI hat visuelles Data-Wrangling vorangetrieben, um automatisch Transformationen vorzuschlagen, Ausreißer zu entfernen und Daten zu bereinigen
  • Automatisierter Data Health Check zum Ausfüllen fehlender Werte, Entfernen unwichtiger Variablen und Vorbereitung von Daten für Analysen
  • Formatierung und Vorbereitung von Daten in verschiedenen Quellen im großen Maßstab

Begrenztes Talent und Fachwissen

Angesprochen von:

  • Verwendung automatisierter Empfehlungen und visueller Einblicke zum Verständnis der Komplexität
  • Nutzung der Kreativität des gesamten Teams, nicht nur einiger Data Scientists, und Zusammenarbeit während des gesamten analytischen Lebenszyklus
  • Erstellen wiederverwendbarer parametrisierter Vorlagen, die von Citizen Data Scientists zur Skalierung des maschinellen Lernens ausgeführt werden können

Ergebnisse werden nicht verwendet

Angesprochen von:

  • Vereinfachte Bereitstellung in Betriebssystemen zur Einbettung von maschinellem Lernen in Geschäftsprozesse zum Zeitpunkt der Auswirkungen
  • Operationalisierung von Data Science mit Modellüberwachung, Weiterentwicklung und Governance
  • Sicherstellung erfolgreicher Übergaben über den gesamten analytischen Lebenszyklus: Daten-Pipeline, Modellerstellung, Scoring und App-Entwicklung
Kostenlose Testversion von Data Science
Testen Sie TIBCO Data Science - Kostenlose Testversion
Demokratisieren, kooperieren und operationalisieren Sie maschinelles Lernen in Ihrem Unternehmen mit TIBCO Data Science.

Bewältigung von Data Science-Herausforderungen

Data Science für alle: Demokratisieren und Zusammenarbeit an Data Science mit Automatisierung, wiederverwendbaren Vorlagen und einem gemeinsamen kollaborativen Rahmen für funktionsübergreifende Teams

Beschleunigung von Innovation: Schnelle Erstellung von neuen, flexiblen Prototyp-Lösungen mit nativen Algorithmen, Open Source und Partner-Ökosystemen und gleichzeitiger Sicherung von Governance

AnalytiCops: Monetarisierung des Werts von Data Science, durch systematische Konzentration auf ihren Betrieb durch Pipeline-Überwachung, -Management, -Aktualisierung und Governance

Schulung: Bereitstellung von Ausbildung und Schulung für Citizen Data Scientists und anderen, die Data Science-Praktiken erlernen möchten.

Kompetenzzentrum (COE): Einrichtung eines CoE zur Förderung von Best Practices und zur Förderung von Innovation und Wiederverwendbarkeit, damit die Data Science im gesamten Unternehmen skaliert werden kann