Qu'est-ce que la détection des anomalies ?

Une anomalie est une déviation ou un changement inattendu par rapport à un modèle attendu dans un ensemble de données. La détection des anomalies est utilisée pour signaler un comportement anormal, car les anomalies montrent que quelque chose de différent de ce qui était attendu se produit.

Diagramme de détection d'anomalies

Les anomalies ne sont pas nécessairement bonnes ou mauvaises, mais les entreprises doivent être informées de toute rupture de tendance afin de déterminer si elles doivent ou non prendre des mesures.

Les entreprises génèrent des millions de points de données au cours de leurs activités quotidiennes, mais une grande partie de ces informations précieuses sont inutilisées et oubliées. C'est pourquoi la détection des anomalies prend de plus en plus d'importance dans le monde des affaires : pour optimiser les opérations et rationaliser les processus pour un avenir plus prévisible.

Quelle est la différence entre les anomalies et les valeurs aberrantes ?

De nombreux utilisateurs professionnels utilisent indifféremment les termes anomalie et valeur aberrante, mais il existe des différences essentielles. Les anomalies sont similaires, mais pas identiques, aux valeurs aberrantes.

En supposant que toutes les données sont générées par un ensemble de processus, les valeurs aberrantes sont des points ayant une faible probabilité d'occurrence dans un ensemble de données déterminé. Ce sont des points d'observation éloignés des autres observations au sein de la population normale. Cependant, les valeurs aberrantes ne représentent pas nécessairement un comportement anormal ou un comportement qui s'est produit à cause d'un processus différent. Les valeurs aberrantes sont générées par le même processus, mais se produisent avec une probabilité plus faible.

À l'inverse, les anomalies sont des schémas générés par différents processus. Ces différents processus peuvent alerter une entreprise que quelque chose a changé et peut nécessiter une action supplémentaire, comme une panne d'équipement ou la fatigue.

Un certain degré de bon sens et d'expertise en la matière est parfois nécessaire pour déterminer la catégorie que représente un point de données particulier.

Quelle est la valeur de la détection des anomalies ?

Chaque jour, les entreprises génèrent d'énormes volumes de données. Si elles sont exploitées correctement, ces données peuvent aider les entreprises à prendre de meilleures décisions, plus rapidement. La détection des anomalies en est un bon exemple. Celle-ci peut empêcher qu'un problème mineur ne devienne un problème généralisé qui prend énormément de temps. En utilisant les dernières méthodes de machine learning, les entreprises peuvent suivre les tendances, identifier les opportunités et les menaces, et obtenir un avantage concurrentiel grâce à la détection des anomalies.

Ebook sur la détection d'anomalies
Le guide du débutant pour la détection des anomalies
Donnez à votre entreprise un avantage concurrentiel en apprenant les bases de la détection des anomalies.

Comment cela fonctionne-t-il ?

Il existe de nombreuses capacités et solutions technologiques qui peuvent être utilisées pour détecter les anomalies en temps réel, voire les prévoir, dans certains cas.

Découverte visuelle

Les analystes de données ou les analystes opérationnels construisent des data visualizations pour trouver des comportements inattendus, ce qui nécessite souvent de la créativité et une connaissance préalable des activités afin de trouver les réponses avec les bonnes data visualizations. Les visualisations avancées telles que celles générées par les composantes principales, TSNE et UMAP peuvent rendre des données de haute dimension accessibles par le biais de cartes de plus faible dimension.

Supervised Learning

Le supervised learning utilise des personnes ayant des connaissances commerciales dans un secteur particulier pour étiqueter un ensemble de points de données comme normaux ou anormaux. Un analyste utilise ensuite ces données étiquetées pour construire des modèles de machine learning permettant de prédire les anomalies sur de nouvelles données non étiquetées.

Unsupervised learning

Les données non étiquetées sont utilisées pour construire des modèles de machine learning non supervisés afin de prédire de nouvelles données. Comme le modèle est conçu pour s'adapter aux données normales, le petit nombre de points de données anormaux est mis en évidence.

Techniques de séries chronologiques

Les anomalies sont détectées par l'analyse des séries chronologiques à l'aide de modèles qui saisissent les tendances, la saisonnalité et les niveaux dans les données des séries chronologiques. Lorsque les nouvelles données s'écartent trop du modèle, cela indique soit une anomalie, soit une défaillance du modèle.

Auto-encodeurs et machine learning

Les dernières techniques de machine learning et les auto-encodeurs détectent et répondent aux anomalies en temps réel. Un réseau neuronal peut prédire les anomalies à partir des transactions et des flux de données des capteurs.

Clustering

Les analystes peuvent tenter de classer chaque point de données dans l'un des nombreux groupes prédéfinis ou découverts. Les cas qui n'entrent pas dans les groupes connus peuvent être considérés comme des anomalies.

Comment la détection des anomalies est-elle utilisée actuellement ?

Dans presque tous les secteurs, il existe de nombreux cas d'utilisation importants pour la détection des anomalies. Parmi les exemples les plus courants, citons l'assurance, les services financiers, la santé et la fabrication :

  • Crimes financiers
  • Capteurs d'équipement
  • Fraude dans le domaine de la santé
  • Défauts de fabrication

Lutte contre la criminalité financière

Dans le secteur financier, des transactions d'une valeur de plusieurs milliards de dollars sont effectuées chaque minute. Identifier les transactions suspectes en temps réel peut donner aux entreprises un avantage concurrentiel. Pour identifier les transactions anormales, les clients, les fournisseurs et les grandes sociétés financières adoptent de plus en plus l'analytique big data, y compris les techniques de machine learning, pour détecter les anomalies dans la masse volumineuse de données générées.

En outre, les grandes sociétés financières peuvent contrôler les coûts grâce à la détection des anomalies afin de réaliser des économies en éliminant les enquêtes faussement positives et en réduisant les pertes dues à la fraude.

Capteurs d'équipement de surveillance

De nombreux types d'équipements, de véhicules et de machines sont désormais dotés de capteurs intégrés. Par exemple, votre smartphone en possède de nombreux, notamment des capteurs de lumière ambiante et de rétroéclairage, des accéléromètres, des boussoles numériques, des gyroscopes, des capteurs de proximité, NFC, GPS et d'empreintes digitales. La surveillance des sorties des capteurs peut être cruciale pour détecter et prévenir les pannes et les perturbations.

Les fabricants axés sur les données peuvent suivre en temps réel l'ensemble de leurs équipements, véhicules et machines grâce aux dispositifs connectés de l'Internet des objets (IoT). Ils peuvent surveiller toutes leurs sorties avec une solution de détection des anomalies pour éviter les pannes et les perturbations coûteuses. De plus, ils peuvent identifier des modèles de données anormaux qui peuvent indiquer des problèmes imminents en employant des algorithmes d'unsupervised learning comme les auto-encodeurs.

Fraude de demandes de remboursement de soins de santé

Les fraudes d'assurance sont courantes dans le secteur des soins de santé et représentent des milliards de dollars versés aux fraudeurs. Il est vital pour les compagnies d'assurance d'identifier les demandes frauduleuses afin de s'assurer qu'aucun versement n'est effectué à des comptes frauduleux. Au cours des dernières années, de nombreuses entreprises ont investi massivement dans l'analytique big data afin de construire des modèles supervisés, non supervisés et semi-supervisés pour détecter les fraudes à l'assurance.

Grâce aux capacités d'analyse du big data et de détection des anomalies, les prestataires de soins de santé et d'assurance peuvent élaborer des modèles supervisés, non supervisés et semi-supervisés pour réduire la probabilité de fraude dans le domaine des soins de santé pour chaque demande soumise.

Défauts de fabrication

Certaines entreprises surveillent en permanence les données des capteurs sur les composants fabriqués à l'aide d'un modèle de codage automatique. À mesure que le modèle enregistre de nouvelles données, les techniciens détectent et résolvent rapidement les défauts (anomalies) au moment même où ils se produisent.

La vérification manuelle des défauts et des anomalies peut entraîner une perte de temps et une augmentation des coûts pour les fabricants, c'est pourquoi de nombreux fabricants leaders commencent à utiliser des auto-codeurs. Les entreprises peuvent utiliser les données des capteurs sur les composants fabriqués pour surveiller et détecter tout événement inhabituel en temps réel, à l'aide d'un modèle de codeur automatique.

Autres cas d'utilisation

Au-delà de ces cas d'utilisation les plus courants, de nombreux autres secteurs utilisent également la détection des anomalies :

  • Surveillance militaire : reconnaissance d'images
  • Cybersécurité : détection des intrusions
  • Systèmes de sécurité : détection des défauts
  • Protection contre le piratage : détection du trafic réseau anormal
  • Météo : implications des vagues de chaleur ou des vagues de froid
  • Imagerie IRM : implication de la maladie d'Alzheimer ou d'une tumeur maligne
  • Capteurs d'engins spatiaux : identification des composants défectueux
Guide de la détection d'anomalies
Livre blanc : le guide ultime de la détection des anomalies
Ce guide complet vous permettra de mieux comprendre comment appliquer la découverte visuelle, les modèles de machine learning supervisé (ML) et les techniques de ML non supervisé telles que les auto-encodeurs.

À quoi ressemble l'avenir de la détection des anomalies ?

Les données d'aujourd'hui sont de plus en plus nombreuses et les entreprises collectent plus d'informations que jamais, les prédictions prévoyant une croissance encore plus importante des données à l'avenir. Avec une telle richesse de données, les entreprises doivent être en mesure de suivre des modèles et, plus important encore, de détecter les anomalies afin d'éviter les échecs commerciaux majeurs, tels que les équipements défectueux, les fraudes et les défaillances.

La détection d'anomalies dans les modèles de données peut aider les entreprises à découvrir des informations exploitables et à devenir plus efficaces et compétitives à l'ère numérique. Avec le logiciel de data science, les entreprises peuvent utiliser des modèles de machine learning pour spécifier le comportement attendu, surveiller les nouvelles données et trouver des comportements inattendus pour bénéficier de meilleurs résultats commerciaux.

Où la détection des anomalies pourrait-elle nous mener ? Avec l'utilisation croissante du machine learning et de l'intelligence artificielle, la détection des anomalies des machines ou des capteurs ne sera pas le seul cas d'utilisation majeur. Les experts prévoient que la détection d'anomalies continuera à prendre de l'importance dans la vidéosurveillance, le diagnostic des soins de santé, et bien plus encore.