O que é detecção de outlier?
A detecção de valores discrepantes é o processo de detectar valores discrepantes, ou um ponto de dados que está longe da média, e dependendo do que você está tentando realizar, potencialmente removendo ou resolvendo-os da análise para evitar qualquer distorção potencial. A detecção de outliers é um dos processos mais importantes para criar dados bons e confiáveis.
O que é um Outlier?
Outliers são pontos de dados extremos que estão além das normas esperadas para seu tipo. Pode ser todo um conjunto de dados confuso ou extremidades de um determinado conjunto de dados. Imaginando uma curva de sino padrão, os outliers são os dados nas extremidades direita e esquerda. Esses valores discrepantes podem indicar fraude ou alguma outra anomalia que você está tentando detectar, mas também podem ser erros de medição, problemas experimentais ou um novo defeito único. Basicamente, refere-se a um ponto de dados ou conjunto de pontos de dados que divergem drasticamente das amostras e padrões esperados.
Existem dois tipos de outliers, multivariados e univariados. Outliers univariados são pontos de dados extremos para uma variável. Um outlier multivariado é uma combinação de pontos de dados incomuns, incluindo pelo menos dois pontos de dados.
Pontos discrepantes : são pontos de dados únicos que estão bem removidos do resto dos pontos de dados.
Valores discrepantes contextuais : são considerados 'ruído', como símbolos de pontuação e vírgulas no texto ou ruído de fundo durante o reconhecimento de fala.
Outliers coletivos : são subconjuntos de dados inesperados que mostram um desvio dos dados convencionais, o que pode indicar um novo fenômeno.
O que causa um outlier?
Existem oito causas principais de valores discrepantes.
- Entrada incorreta de dados por humanos
- Códigos usados em vez de valores
- Erros de amostragem ou dados extraídos do local errado ou misturados com outros dados
- Distribuição inesperada de variáveis
- Erros de medição causados pelo aplicativo ou sistema
- Erros experimentais na extração de dados ou erros de planejamento
- Valores discrepantes fictícios intencionais inseridos para testar os métodos de detecção
- Desvios naturais nos dados, não exatamente um erro, que indicam fraude ou alguma outra anomalia que você está tentando detectar
Ao coletar e processar dados, os valores discrepantes podem vir de uma variedade de fontes e se esconder de várias maneiras. Faz parte do processo de detecção de valores discrepantes identificá-los e distingui-los dos dados genuínos que estão se comportando de maneiras inesperadas.
Outliers que não são erros reais, mas um conjunto genuíno de dados inesperados, são chamados de novidades. Parte do trabalho de um cientista de dados é identificar as novidades e deixá-las no conjunto de dados, pois são importantes na tomada de decisões e na garantia de resultados precisos.

Por que um usuário deve procurar por outliers?
Um dos principais problemas em inteligência artificial (IA), aprendizado de máquina (ML) e ciência de dados é a qualidade dos dados. Com o crescimento do mundo da ciência de dados, houve expansão e crescimento dos dados. Mas a taxa de outliers ou anomalias também aumentou. Isso significa que dados aberrantes podem dificultar as especificações do modelo, confundir a estimativa dos parâmetros e gerar informações incorretas. Pense em onde a ciência de dados é usada e como esses dados defeituosos são importantes:
- Irregularidades de votação
- Ensaios clínicos de medicamentos: Imagine se um bom medicamento tiver resultados insatisfatórios ou for medido incorretamente, uma série de opções de tratamento podem ser perdidas.
- Detecção de fraude: isso poderia resultar na negação de crédito às pessoas quando eram de baixo risco ou na concessão de crédito quando eram de alto risco.
- Decisões de negócios: se uma empresa for instruída a fazer uma determinada escolha, mas os dados estiverem com defeito, isso pode resultar em um grande gasto de marketing com pouco ou nenhum retorno sobre o investimento ou, pior ainda, perda de clientes valiosos.
- Cidades inteligentes: se a qualidade dos dados for ruim ou hackeada e alterada de forma maliciosa, os administradores da cidade terão dificuldade para tomar decisões precisas sobre qualquer coisa em sua cidade, incluindo instalações de semáforos, coleta de lixo ou números de policiamento.
Técnicas usadas para detecção de outlier
Um cientista de dados pode usar várias técnicas para identificar outliers e decidir se são erros ou novidades.
Outlier numérico
Esta é a técnica não paramétrica mais simples, em que os dados estão em um espaço unidimensional. Outliers são calculados dividindo-os em três quartis. Os limites de intervalo são então definidos como bigodes superior e inferior de um gráfico de caixa. Em seguida, os dados que estão fora desses intervalos podem ser removidos.
Z-score
Esta técnica paramétrica indica quantos desvios padrão um determinado ponto de dados está da média da amostra. Isso assume uma distribuição gaussiana (uma curva normal em forma de sino). No entanto, se os dados não forem distribuídos normalmente, eles podem ser transformados escalando-os e dando-lhes uma aparência mais normal. A pontuação z dos pontos de dados é então calculada, colocada na curva do sino e, em seguida, usando heurísticas (regra prática), um ponto de corte para limiares de desvio padrão pode ser decidido. Em seguida, os pontos de dados que estão além desse desvio padrão podem ser classificados como outliers e removidos da equação. O Z-score é uma maneira simples e poderosa de remover outliers, mas só é útil com conjuntos de dados médios a pequenos. Não pode ser usado para dados não paramétricos.
DBSCAN
Este é o Clustering Espacial Baseado em Densidade de Aplicativos com Ruído, que é basicamente uma representação gráfica mostrando a densidade dos dados. Usando cálculos complexos, ele agrupa dados em grupos de pontos relacionados. DBSCAN agrupa dados em pontos centrais, pontos de fronteira e outliers. Os pontos principais são grupos de dados principais, os pontos de fronteira têm densidade suficiente para serem considerados parte do grupo de dados e os outliers não estão em nenhum cluster e podem ser desconsiderados dos dados. O BSCAN é ótimo em três ou mais dimensões e é muito intuitivo, facilitando a visualização. No entanto, os valores no espaço do recurso precisam ser escalados, selecionar os parâmetros ideais pode ser complicado e o modelo precisa ser recalibrado toda vez que novos dados precisam de análise.
Floresta de isolamento
Este método é eficaz para encontrar novidades e outliers. Ele usa árvores de decisão binárias que são construídas usando recursos selecionados aleatoriamente e um valor de divisão aleatório. As árvores da floresta então formam uma floresta de árvores, cuja média é calculada. Em seguida, pontuações outlier podem ser calculadas, dando a cada nó, ou ponto de dados, uma pontuação de 0 a 1, sendo 0 normal e 1 sendo mais de um outlier. As florestas de isolamento não exigem escalonamento e são eficazes quando você não pode assumir distribuições de valor. Possui poucos parâmetros, o que o torna robusto e simples de otimizar. No entanto, a visualização de dados é complexa e pode ser um processo longo e caro.
Desafios com detecção de outlier
Nenhum processo matemático ou estratégia de ciência de dados está imune a erros ou problemas. Conjuntos de dados particularmente grandes devem ser bem gerenciados para remover corretamente os valores discrepantes, enquanto mantém os dados válidos e as novidades intactas. Alguns desafios incluem:
- Quando o ruído ou valores discrepantes são muito semelhantes aos dados válidos, pode ser difícil separar os dados falhos dos dados bons.
- O comportamento de outliers pode alterar as características. Isso significa que algoritmos e modelos que identificaram corretamente os outliers podem não funcionar mais.
- Os dados podem ser excessivamente podados ou podem remover outliers genuínos que devem ser incluídos no conjunto de dados.
- Ataques de dados maliciosos podem alterar os dados para confundir os resultados.
Todos esses desafios podem ser superados com algoritmos excelentes que são constantemente reavaliados para garantir que sejam precisos.