Was ist die Ausreißer-Erkennung?

Die Ausreißer-Erkennung ist der Prozess der Erkennung von Ausreißern oder eines Datenpunkts, der weit vom Durchschnitt entfernt ist, und je nachdem, was Sie erreichen möchten, entfernen oder lösen Sie sie möglicherweise aus der Analyse, um mögliche Verzerrungen zu verhindern. Die Ausreißer-Erkennung ist einer der wichtigsten Prozesse, zur Erstellung von guten, zuverlässigen Daten.

Diagramm der Ausreißer-Erkennung

Was ist ein Ausreißer?

Ausreißer sind extreme Datenpunkte, die über die für ihren Typ erwarteten Normen hinausgehen. Dies kann ein ganzer Datensatz sein, der verwirrend ist, oder Extremitäten eines bestimmten Datensatzes. Stellen Sie sich eine Standard-Glockenkurve vor. Die Ausreißer sind die Daten ganz rechts und links. Diese Ausreißer können auf Betrug oder eine andere Anomalie hinweisen, die Sie erkennen möchten, aber sie können auch Messfehler, experimentelle Probleme oder ein neuartiger, einmaliger Blip sein. Grundsätzlich bezieht das sich auf einen Datenpunkt oder eine Reihe von Datenpunkten, die dramatisch von erwarteten Stichproben und Mustern abweichen.

Es gibt zwei Arten von Ausreißer, multivariate und univariate. Univariate Ausreißer sind ein Datenpunkt, der für eine Variable extrem ist. Ein multivariater Ausreißer ist eine Kombination ungewöhnlicher Datenpunkte, einschließlich mindestens zwei Datenpunkten.

Punktausreißer: Das sind einzelne Datenpunkte, die weit von den übrigen Datenpunkten entfernt sind.

Kontextabhängige Ausreißer: Diese gelten als „Rauschen“, wie Satzzeichen und Kommas im Text oder Hintergrundgeräusche bei der Spracherkennung.

Kollektive Ausreißer: Das sind Teilmengen unerwarteter Daten, die eine Abweichung von herkömmlichen Daten zeigen, was auf ein neues Phänomen hinweisen kann.

Was verursacht einen Ausreißer?

Es gibt acht Hauptursachen für Ausreißer.

  1. Falsche Dateneingabe durch Menschen
  2. Anstelle von Werten verwendete Codes
  3. Stichprobenfehler oder Daten wurden aus der falschen Stelle extrahiert oder mit anderen Daten gemischt
  4. Unerwartete Verteilung von Variablen
  5. Messfehler, die durch die Anwendung oder das System verursacht werden
  6. Experimentelle Fehler beim Extrahieren der Daten oder Planungsfehler
  7. Absichtlich Dummy-Ausreißer zum Testen der Erkennungsmethoden eingefügt
  8. Natürliche Datenabweichungen, keine eigentlichen Fehler, die auf Betrug oder eine andere Anomalie hinweisen, die Sie erkennen möchten

Bei der Erfassung und Verarbeitung von Daten können Ausreißer aus einer Reihe von Quellen stammen und sich auf vielfältige Weise verstecken. Es ist Teil des Ausreißer-Erkennungsprozesses, diese zu identifizieren und von echten Daten zu unterscheiden, die sich auf unerwartete Weise verhalten.

Ausreißer, die keine tatsächlichen Fehler, sondern echte unerwartete Daten sind, werden als Neuheiten bezeichnet. Ein Teil der Arbeit eines Data Scientist besteht darin, die Neuheiten zu identifizieren und sie im Datensatz zu belassen, da sie für die Entscheidungsfindung und die Sicherstellung genauer Ergebnisse wichtig sind.

Leitfaden zur Ausreißer-Erkennung
Der Leitfaden für Anfänger zur Anomalie-Erkennung
Verschaffen Sie Ihrem Unternehmen einen Wettbewerbsvorteil, indem Sie die Grundlagen der Anomalie-Erkennung erlernen.

Warum sollte ein Benutzer nach Ausreißer suchen?

Eines der wichtigsten Themen in den Bereichen Künstliche Intelligenz (KI), maschinelles Lernen (ML) und Data Science ist die Datenqualität. Mit dem Wachstum der Welt der Data Science gab es eine Erweiterung und ein Wachstum der Daten. Aber auch die Rate der Ausreißer oder Anomalien ist gestiegen. Das bedeutet, dass abweichende Daten die Modellspezifikationen behindern, die Parameterschätzung verblüffen und falsche Informationen generieren können. Denken Sie darüber nach, wo Data Science verwendet wird und wie diese fehlerhaften Daten wichtig sind:

  • Unregelmäßigkeiten bei der Abstimmung
  • Klinische Arzneimittelstudien: Stellen Sie sich vor, wenn ein gutes Medikament schlechte Ergebnisse erzielt oder falsch gemessen wird, könnte eine Reihe von Behandlungsmöglichkeiten übersehen werden.
  • Betrugserkennung: Dies könnte dazu führen, dass Menschen Kredite verweigert werden, wenn sie ein geringes Risiko hatten oder Kredite erhalten haben, wenn bei ihnen ein hohes Risiko bestand.
  • Geschäftsentscheidungen: Wenn einem Unternehmen aufgefordert wird, eine bestimmte Entscheidung zu treffen, aber die Daten fehlerhaft waren, könnte dies zu enormen Marketingausgaben für wenig bis gar keine Rendite führen, oder noch schlimmer, zum Verlust von wertvollen Kunden.
  • Smart Cities: Wenn die Datenqualität schlecht ist oder ein Hacker-Angriff stattgefunden hat, der zu einer böswilligen Änderung führte, werden die Stadtverwalter Schwierigkeiten haben, genaue Entscheidungen über alles in ihrer Stadt zu treffen, einschließlich Ampelanlagen, Müllabfuhr oder Polizeinummern.

Techniken für die Ausreißer-Erkennung

Ein Data Scientist kann eine Reihe von Techniken anwenden, um Ausreißer zu identifizieren und zu entscheiden, ob es sich um Fehler oder Neuheiten handelt.

Numerischer Ausreißer

Dies ist die einfachste nichtparametrische Technik, bei der sich Daten in einem eindimensionalen Raum befinden. Ausreißer werden berechnet, indem sie in drei Quartile unterteilt werden. Die Bereichsgrenzen werden dann als obere und untere Whiskers eines Boxplot festgelegt. Dann können die Daten, die sich außerhalb dieser Bereiche befinden, entfernt werden.

Z-Score

Diese parametrische Technik gibt an, wie viele Standardabweichungen ein bestimmter Datenpunkt vom Mittelwert der Stichprobe entfernt ist Dies setzt eine Gaußsche Verteilung voraus (eine normale, glockenförmige Kurve). Wenn die Daten jedoch normalerweise nicht verteilt werden, können Daten durch Skalieren transformiert werden und ihnen ein normaleres Aussehen verleihen. Der Z-Score von Datenpunkten wird dann berechnet, auf die Glockenkurve platziert, und dann kann unter Verwendung der Heuristik (Faustregel) ein Grenzpunkt für Schwellenwerte der Standardabweichung entschieden werden. Dann können die Datenpunkte, die über diese Standardabweichung hinausgehen, als Ausreißer klassifiziert und aus der Gleichung entfernt werden. Der Z-Score ist eine einfache, leistungsstarke Möglichkeit, Ausreißer zu entfernen, aber er ist nur bei mittleren bis kleinen Datensätzen nützlich. Er kann nicht für nichtparametrische Daten verwendet werden.

DBSCAN

Dies ist eine dichtebasierte räumliche Clusteranalyse von Anwendungen mit Rauschen, das im Grunde eine grafische Darstellung ist, die die Dichte der Daten zeigt. Mithilfe komplexer Berechnungen gruppiert sie Daten in Gruppen von zusammengehörigen Punkten. DBSCAN gruppiert Daten in zentrale Punkte, Grenzpunkte und Ausreißer. Zentrale Punkte sind Hauptdatengruppen, Grenzpunkte verfügen über genug Dichte, um als Teil der Datengruppe angesehen zu werden, und Ausreißer befinden sich in überhaupt keinem Cluster und können von Daten ignoriert werden. DBScan ist in drei oder mehr Dimensionen großartig und ist sehr intuitiv, was die Visualisierung einfach macht. Die Werte im Merkmalsraum müssen jedoch skaliert werden, die Auswahl der optimalen Parameter kann schwierig sein und das Modell muss jedes Mal neu kalibriert werden, wenn neue Daten analysiert werden müssen.

Isolationswald

Diese Methode ist bei der Suche nach Neuheiten und Ausreißern effektiv. Sie verwendet binäre Entscheidungsbäume, die mit zufällig ausgewählten Merkmalen und einem zufälligen Teilwert erstellt werden. Die Waldbäume bilden dann einen Baumwald, der gemittelt wird. Dann können Ausreißerwerte berechnet werden, wobei jeder Knoten oder Datenpunkt eine Punktzahl von 0 bis 1 ergibt, wobei 0 normal ist und 1 eher ein Ausreißer ist. Isolationswälder erfordern keine Skalierung und sie sind wirksam, wenn Sie keine Wertverteilungen annehmen können. Er hat nur sehr wenige Parameter, wodurch er robust und einfach zu optimieren ist. Die Daten-Visualisierung ist jedoch komplex und kann ein langer, teurer Prozess sein.

Herausforderungen bei der Ausreißer-Erkennung

Kein mathematischer Prozess oder keine Data-Science-Strategie ist vor Fehlern oder Problemen gefeit. Besonders große Datensätze müssen gut verwaltet werden, um Ausreißer korrekt zu entfernen und gleichzeitig gültige Daten und Neuheiten intakt zu halten. Zu den Herausforderungen gehören:

  1. Wenn Rauschen oder Ausreißer gültigen Daten sehr ähnlich sind, kann es schwierig sein, die fehlerhaften Daten aus den guten Daten zu entziehen.
  2. Das Verhalten des Ausreißers kann die Eigenschaften verändern. Das bedeutet, dass Algorithmen und Modelle, die zuvor Ausreißer korrekt identifiziert haben, möglicherweise nicht mehr funktionieren.
  3. Daten können überschnitten werden oder echte Ausreißer entfernen, die in den Datensatz aufgenommen werden sollten.
  4. Schädliche Datenangriffe können Daten zu verwirrenden Ergebnissen ändern.

All diese Herausforderungen können mit ausgezeichneten Algorithmen bewältigt werden, die ständig neu bewertet werden, um sicherzustellen, dass sie korrekt sind.