Qu'est-ce que la détection des valeurs aberrantes ?

La détection des valeurs aberrantes est le processus qui consiste à détecter les valeurs aberrantes, ou un point de données très éloigné de la moyenne, et, selon ce que vous essayez d'accomplir, à les supprimer ou à les résoudre de l'analyse pour éviter toute distorsion potentielle. La détection des valeurs aberrantes est l'un des processus les plus importants pour créer des données de qualité et fiables.

Diagramme de détection des valeurs aberrantes

Qu'est-ce qu'une valeur aberrante ?

Les valeurs aberrantes sont des points de données extrêmes qui se situent au-delà des normes attendues pour leur type. Il peut s'agir de l'ensemble d'un ensemble de données qui est source de confusion, ou des extrémités d'un certain ensemble de données. Si l'on imagine une courbe en cloche standard, les valeurs aberrantes sont les données situées à l'extrême droite et à l'extrême gauche. Ces valeurs aberrantes peuvent être le signe d'une fraude ou d'une autre anomalie que vous essayez de détecter, mais elles peuvent aussi être des erreurs de mesure, des problèmes expérimentaux ou une anomalie nouvelle et unique. En gros, il s'agit d'un point de données ou d'un ensemble de points de données qui s'écartent considérablement des échantillons et des modèles attendus.

Il existe deux types de valeurs aberrantes, multiples et simples. Les valeurs aberrantes simples sont des points de données extrêmes pour une variable. Une valeur aberrante multiple est une combinaison de points de données inhabituels, comprenant au moins deux points de données.

Points aberrants : il s'agit de points de données uniques qui sont très éloignés du reste des autres points de données.

Valeurs aberrantes contextuelles : ces valeurs sont considérées comme du « bruit », comme les symboles de ponctuation et les virgules dans le texte, ou le bruit de fond lors de la reconnaissance vocale.

Valeurs aberrantes collectives : il s'agit de sous-ensembles de données inattendues qui présentent une déviation par rapport aux données conventionnelles, ce qui peut indiquer un nouveau phénomène.

Qu'est-ce qui cause une valeur aberrante ?

Il existe huit causes principales de valeurs aberrantes.

  1. Une saisie incorrecte de données par des humains
  2. Des codes utilisés à la place des valeurs
  3. Des erreurs d'échantillonnage, ou des données qui ont été extraites du mauvais endroit ou mélangées à d'autres données
  4. Une distribution inattendue des variables
  5. Des erreurs de mesure causées par l'application ou le système
  6. Des erreurs expérimentales dans l'extraction des données ou des erreurs de planification
  7. Une insertion de valeurs aberrantes fictives pour tester les méthodes de détection
  8. Des écarts naturels dans les données, qui ne sont pas réellement des erreurs, et qui indiquent une fraude ou une autre anomalie que vous essayez de détecter.

Lors de la collecte et du traitement des données, les valeurs aberrantes peuvent provenir de diverses sources et se dissimuler de nombreuses façons. Le processus de détection des valeurs aberrantes consiste à les identifier et à les distinguer des données authentiques qui se comportent de manière inattendue.

Les valeurs aberrantes qui ne sont pas des erreurs réelles mais un véritable ensemble de données inattendues sont appelées nouveautés. Une partie du travail d'un data scientist consiste à identifier les nouveautés et à les laisser dans l'ensemble des données, car elles sont importantes pour la prise de décision et la garantie de résultats précis.

Guide de la détection des valeurs aberrantes
Le guide du débutant pour la détection des anomalies
Donnez à votre entreprise un avantage concurrentiel en apprenant les bases de la détection des anomalies.

Pourquoi un utilisateur devrait-il rechercher les valeurs aberrantes ?

La qualité des données est l'un des problèmes fondamentaux de l'intelligence artificielle (IA), du machine learning (ML),et de la data science. L'expansion du monde de la science des données s'est accompagnée d'une expansion et d'une croissance des données. Mais le taux de données aberrantes ou d'anomalies a également augmenté. Cela signifie que les données aberrantes peuvent entraver les spécifications du modèle, déconcerter l'estimation des paramètres et générer des informations incorrectes. Pensez à où la data science est utilisée et à l'importance de ces données aberrantes :

  • Les irrégularités de vote.
  • Les essais cliniques de médicaments : imaginez qu'un bon médicament donne de mauvais résultats ou qu'il soit mal mesuré : toute une série d'options thérapeutiques pourraient être ratées.
  • La détection des fraudes : des personnes pourraient ainsi se voir refuser un crédit alors qu'elles présentent un faible risque ou se voir accorder un crédit alors qu'elles présentent un risque élevé.
  • Les décisions commerciales : si l'on dit à une entreprise de faire un certain choix mais que les données sont erronées, cela peut entraîner des dépenses de marketing énormes pour un retour sur investissement faible ou nul, ou pire encore, la perte de clients précieux.
  • Villes intelligentes : si la qualité des données est médiocre ou si elles sont piratées et modifiées de manière malveillante, les administrateurs municipaux auront du mal à prendre des décisions précises sur tout ce qui se passe dans leur ville, qu'il s'agisse de l'installation de feux de signalisation, du ramassage des ordures ou des effectifs de police.

Techniques utilisées pour la détection des valeurs aberrantes

Un data scientist dispose de plusieurs techniques pour identifier les valeurs aberrantes et décider s'il s'agit d'erreurs ou de nouveautés.

Valeur numérique aberrante

Il s'agit de la technique non paramétrique la plus simple, lorsque les données se trouvent dans un espace unidimensionnel. Les valeurs aberrantes sont calculées en les divisant en trois quartiles. Les plages de limites des quartiles sont ensuite définies comme les moustaches supérieures et inférieures d'un diagramme en boîte. Ensuite, les données qui se trouvent en dehors de ces plages peuvent être éliminées.

Z-score

Cette technique paramétrique indique le nombre d'écarts types d'un certain point de données par rapport à la moyenne de l'échantillon. Cela suppose une distribution gaussienne (une courbe normale, en forme de cloche). Toutefois, si les données ne sont pas distribuées normalement, elles peuvent être transformées en les mettant à l'échelle et en leur donnant une apparence plus normale. Le z-score des points de données est alors calculé, placé sur la courbe en cloche, puis en utilisant l'heuristique (la règle générale) une ligne de démarcation des seuils d'écart type peut être sélectionnée. Le Z-score est un moyen simple et puissant d'éliminer les données aberrantes, mais il n'est utile que pour les ensembles de données de taille moyenne ou petite. Il ne peut pas être utilisé pour les données non paramétriques.

DBSCAN

Il s'agit du Density Based Spatial Clustering of Applications with Noise, qui est essentiellement une représentation graphique montrant la densité des données. À l'aide de calculs complexes, il regroupe les données en groupes de points apparentés. DBSCAN regroupe les données en points centraux, points limites et points aberrants. Les points centraux sont les principaux groupes de données, les points limites ont une densité suffisante pour être considérés comme faisant partie du groupe de données, et les points aberrants ne font partie d'aucun groupe et peuvent être ignorés des données.DBSCAN est excellent sur trois dimensions ou plus, et est très intuitif, ce qui facilite la visualisation. Cependant, les valeurs dans l'espace des caractéristiques doivent être mises à l'échelle, la sélection des paramètres optimaux peut être délicate et le modèle doit être recalibré chaque fois que de nouvelles données doivent être analysées.

Forêt d'isolement

Cette méthode est efficace pour trouver les nouveautés et les valeurs aberrantes. Elle utilise des arbres de décision binaires qui sont construits à l'aide de caractéristiques choisies au hasard et d'une valeur de division aléatoire. Les arbres forment ensuite une forêt d'arbres, dont la moyenne est calculée. On peut ensuite calculer des scores de valeurs aberrantes, en donnant à chaque nœud, ou point de données, un score de 0 à 1, 0 étant normal et 1 étant plus aberrant. Les forêts d'isolement ne nécessitent pas de mise à l'échelle et sont efficaces lorsque vous ne pouvez pas supposer de distributions de valeurs. Elles comportent très peu de paramètres, ce qui les rend robustes et simples à optimiser. Cependant, la data visualization est complexe et peut être un processus long et coûteux.

Les défis de la détection des valeurs aberrantes

Aucun processus mathématique ou stratégie de data science n'est à l'abri d'erreurs ou de problèmes. Les ensembles de données particulièrement volumineux doivent être bien gérés afin d'éliminer correctement les valeurs aberrantes, tout en conservant intactes les données valides et les nouveautés. Parmi les défis à relever, citons :

  1. Lorsque le bruit ou les valeurs aberrantes sont très similaires aux données valides, il peut être difficile de distinguer les données erronées des bonnes.
  2. Le comportement des valeurs aberrantes peut changer de caractéristiques. Cela signifie que les algorithmes et les modèles qui identifiaient correctement les valeurs aberrantes auparavant peuvent ne plus fonctionner.
  3. Les données peuvent être trop élaguées ou de véritables valeurs aberrantes qui devraient être incluses dans l'ensemble de données peuvent être supprimées.
  4. Les attaques de données malveillantes peuvent modifier les données et fausser les résultats.

Tous ces défis peuvent être relevés grâce à d'excellents algorithmes qui sont constamment réévalués pour garantir leur exactitude.