¿Qué es la detección de valores anómalos?

La detección de valores anómalos es el proceso de detectar valores atípicos, o un punto de datos que está lejos del promedio y, según lo que esté tratando de lograr, eliminarlos o resolverlos a partir del análisis para evitar posibles sesgos. La detección de valores anómalos es uno de los procesos más importantes que se llevan a cabo para crear datos útiles y confiables.

Diagrama de detección de valores anómalos

¿Qué es un valor anómalo?

Los valores anómalos son puntos de datos extremos que están más allá de las normas esperadas para su tipo, puede tratarse de un conjunto de datos completo que es confuso o extremos de un determinado conjunto de datos. Al imaginar una curva de campana estándar, los valores anómalos son los datos en el extremo derecho e izquierdo. Estos valores anómalos pueden indicar fraude o alguna otra anomalía que está tratando de detectar, pero también pueden ser errores de medición, problemas experimentales o un problema novedoso y único. Básicamente, se refiere a un punto de datos o un conjunto de puntos de datos que divergen drásticamente de las muestras y patrones estimados.

Existen dos tipos de valores anómalos, multivariados y univariados. Los valores anómalos univariados son un punto de datos que resulta extremo para una variable. Un valor anómalo multivariado es una combinación de puntos de datos inusuales, que incluyen al menos dos puntos de datos.

Puntos de valores anómalos: estos son puntos de datos únicos que están muy alejados del resto de los puntos de datos.

Valores anómalos contextuales: se consideran "ruido", como los símbolos de puntuación y las comas en el texto, o ruido de fondo al realizar el reconocimiento de voz.

Valores anómalos colectivos: son subconjuntos de datos no previstos que muestran una desviación de los datos convencionales, lo que podría indicar un nuevo fenómeno.

¿Qué produce un valor anómalo?

Existen ocho causas principales de valores anómalos.

  1. Error humano al ingresar datos
  2. Uso de códigos en lugar de valores
  3. Errores de muestreo o datos extraídos del lugar incorrecto o mezclados con otros datos
  4. Distribución inesperada de variables
  5. Errores de medición ocasionados por la aplicación o el sistema
  6. Errores experimentales en la extracción de datos o errores de planificación
  7. Ingreso intencional de valores anómalos ficticios para evaluar los métodos de detección
  8. Desviaciones naturales en los datos, que en realidad no representan un error sino un fraude o alguna otra anomalía que usted está tratando de detectar

Al recopilar y procesar datos, los valores anómalos pueden provenir de una variedad de orígenes y esconderse de muchas maneras. Es parte del proceso de detección de valores anómalos identificarlos y distinguirlos de los datos genuinos que se comportan de manera inesperada.

Los valores anómalos que no son errores reales sino un conjunto genuino de datos imprevistos se denominan novedades. Parte del trabajo de un científico de datos es identificar las novedades y dejarlas en el conjunto de datos, ya que son importantes para la toma de decisiones y para garantizar resultados precisos.

Guía para la detección de valores anómalos
La guía para principiantes sobre la detección de valores anómalos
Dé a su empresa una ventaja competitiva aprendiendo los conceptos básicos de la detección de valores anómalos.

¿Por qué se deben buscar los valores anómalos?

Uno de los problemas centrales en la inteligencia artificial (AI), Machine Learning (ML) y la ciencia de datos es la calidad de los datos. Con el crecimiento del mundo de la ciencia de datos, ha habido una expansión y un crecimiento de los datos, pero el porcentaje de valores anómalos o anomalías también se incrementó. Esto significa que los datos anormales pueden obstaculizar las especificaciones del modelo, confundir la estimación de los parámetros y generar información incorrecta. Considere la forma en la que se utiliza la ciencia de datos y cuan importantes llegan a ser estos datos defectuosos:

  • Irregularidades en la votación
  • Ensayos clínicos con medicamentos: imagine que si un buen medicamento tiene malos resultados o se mide incorrectamente, se podría perder una variedad de opciones de tratamiento.
  • Detección de fraude: esto podría resultar en que a las personas se les niegue el crédito cuando tengan un riesgo bajo o que se les otorgue crédito cuando tengan un riesgo alto.
  • Decisiones comerciales: si se le pide a una empresa que tome una determinada decisión, pero los datos son defectuosos, se podría generar un gran gasto de marketing con poco o ningún retorno de la inversión o, lo que es peor, la pérdida de clientes valiosos.
  • Ciudades inteligentes: si la calidad de los datos es deficiente o está adulterada debido a un ataque cibernético, los administradores de la ciudad tendrán dificultades para tomar decisiones precisas sobre cualquier cosa, incluidas las instalaciones de semáforos, la recolección de basura o los números de vigilancia.

Técnicas utilizadas para la detección de valores anómalos

Un científico de datos puede usar una serie de técnicas para identificar valores anómalos y decidir si son errores o novedades.

Valor anómalo numérico

Esta es la técnica no paramétrica más simple, donde los datos están en un espacio unidimensional. Los valores anómalos se calculan dividiéndolos en tres cuartiles. Los límites de rango se establecen como bigotes superior e inferior de un diagrama de caja. Luego, se pueden eliminar los datos que estén fuera de esos rangos.

Z-score

Esta técnica paramétrica indica cuántas desviaciones estándar tiene un determinado punto de datos de la media de la muestra. Esto supone una distribución gaussiana (una curva normal en forma de campana). Sin embargo, si los datos no se distribuyen normalmente, se pueden transformar escalando y dándoles una apariencia más normal. A continuación, se calcula z-score de los puntos de datos, se coloca en la curva de campana y, a continuación, utilizando la heurística (regla empírica) se puede decidir un punto de corte para los umbrales de desviación estándar. Luego, los puntos de datos que se encuentran más allá de esa desviación estándar podrán clasificarse como valores anómalos y eliminarse de la ecuación. Z-score es una forma simple y poderosa de eliminar los valores anómalos, pero solo es útil con conjuntos de datos medianos a pequeños. No se podrá utilizar para datos no paramétricos.

DBSCAN

Este es el agrupamiento espacial basado en densidad de aplicaciones con ruido (DBSCAN), que es básicamente una representación gráfica que muestra la densidad de datos. Mediante cálculos complejos, agrupa los datos en grupos de puntos relacionados. DBSCAN agrupa los datos en puntos centrales, puntos de borde y valores anómalos. Los puntos centrales son los principales grupos de datos, los puntos de borde tienen suficiente densidad para ser considerados parte del grupo de datos, y los valores anómalos no están en ningún grupo por lo que se los ignorará de los datos. DBSCAN es excelente en tres o más dimensiones, y es muy intuitivo, lo que facilita la visualización. Sin embargo, es necesario escalar los valores en el espacio de características, seleccionar los parámetros óptimos puede ser complicado y el modelo deberá volver a calibrarse cada vez que se necesite el análisis de datos nuevos.

Bosque de aislamiento

Este método es eficaz para encontrar novedades y valores anómalos. Utiliza árboles de decisión binarios que se construyen utilizando características seleccionadas al azar y un valor de división aleatorio. Los árboles del bosque luego forman un bosque de árboles que se promedia. Luego, se pueden calcular las puntuaciones de valores anómalos, dando a cada nodo o punto de datos una puntuación de 0 a 1, siendo 0 normal y 1 más atípico. Los bosques de aislamiento no requieren escalado y son efectivos cuando no se pueden asumir distribuciones de valor. Tiene muy pocos parámetros, lo que lo hace robusto y sencillo de optimizar. Sin embargo, la visualización de datos es compleja y puede ser un proceso largo y costoso.

Desafíos de la detección de valores anómalos

Ningún proceso matemático o estrategia de ciencia de datos está exento a errores o problemas. Los conjuntos de datos particularmente grandes deberán administrarse adecuadamente para eliminar correctamente los valores anómalos, mientras se mantienen intactos los datos válidos y las novedades. Algunos desafíos incluyen:

  1. Cuando el ruido o los valores anómalos son muy similares a los datos válidos, puede resultar difícil extraer los datos defectuosos de los datos correctos.
  2. El comportamiento atípico puede cambiar las características. Esto significa que es posible que los algoritmos y modelos, que previamente identificaron correctamente los valores anómalos, ya no funcionen.
  3. Los datos pueden podarse en exceso o se eliminan valores anómalos genuinos que deberían incluirse en el conjunto de datos.
  4. Los ataques cibernéticos a los datos pueden modificarlos para confundir los resultados.

Todos estos desafíos se pueden superar con excelentes algoritmos que se deben evaluar constantemente para garantizar su precisión.