Cos'è il rilevamento degli outlier?

Il rilevamento degli outlier è il processo di individuazione dei valori anomali o di un punto dati che è lontano dalla media e, in base allo scopo del procedimento, della loro potenziale risoluzione o eliminazione dall'analisi per prevenire qualsiasi potenziale distorsione. Il rilevamento degli outlier è uno dei processi più importanti adottati per creare dati buoni e affidabili.

Diagramma di rilevamento degli outlier

Cos'è un outlier?

Gli outlier sono punti dati estremi che sono oltre le norme previste per il loro tipo. Può essere un'intera serie di dati contraddittoria, o le estremità di una certa serie di dati. Immaginando una curva a campana standard, gli outlier sono i dati all'estrema destra e all'estrema sinistra. Possono indicare una frode o qualche altra anomalia che si sta cercando di rilevare, ma possono anche essere errori di misurazione, problemi sperimentali o una nuova, unica deviazione. Fondamentalmente, il termine si riferisce a un punto dati o a un insieme di punti dati che diverge enormemente dai campioni e dai modelli previsti.

Ci sono due tipi di outlier, multivariati e univariati. Gli outlier univariati sono un punto dati che è estremo per una variabile. Un outlier multivariato è una combinazione di punti dati insoliti, che comprende almeno due punti dati.

Point outlier: si tratta di singoli punti dati che sono molto lontani dal resto dei punti dati.

Outlier contestuali: sono considerati "rumore", come i simboli di punteggiatura e le virgole nel testo, o il rumore di fondo quando si esegue il riconoscimento vocale.

Outlier collettivi: si tratta di sottoinsiemi di dati inattesi che mostrano una deviazione dai dati convenzionali e possono indicare un nuovo fenomeno.

Quali sono le cause di un outlier?

Esistono otto cause principali di outlier.

  1. Inserimento errato di dati da parte di esseri umani
  2. Codici usati al posto di valori
  3. Errori di campionamento, i dati sono stati estratti dal posto sbagliato o mescolati con altri dati
  4. Distribuzione inaspettata delle variabili
  5. Errori di misurazione causati dall'applicazione o dal sistema
  6. Errori sperimentali nell'estrazione dei dati o errori di pianificazione
  7. Outlier fittizi intenzionali inseriti per testare i metodi di rilevamento
  8. Deviazioni naturali nei dati, non effettivamente un errore, che indicano una frode o qualche altra anomalia che si sta cercando di rilevare

Quando si raccolgono e si elaborano i dati, gli outlier possono provenire da una serie di fonti e nascondersi in molti modi. Fa parte del processo di rilevamento degli outlier identificarli e distinguerli dai dati genuini che si comportano in modi inaspettati.

Gli outlier che non sono veri e propri errori ma un insieme genuino di dati inaspettati sono chiamati novità. Parte del lavoro di un data scientist è identificare le novità e lasciarle nell'insieme di dati, poiché sono importanti per prendere decisioni e garantire risultati accurati.

Guida al rilevamento degli outlier
Guida per principianti al rilevamento delle anomalie
Dai alla tua azienda un vantaggio competitivo imparando le basi del rilevamento delle anomalie.

Perché un utente dovrebbe cercare gli outlier?

Uno dei problemi principali nell'intelligenza artificiale (IA), nel machine learning (ML) e nella scienza dei dati è la qualità dei dati. Con la crescita del settore della scienza dei dati, si è rilevata un'espansione e una crescita di questi ultimi. Ma anche il tasso di outlier o anomalie è aumentato. Questo significa che i dati aberranti possono ostacolare le specifiche del modello, confondere la stima dei parametri e generare informazioni errate. Basti pensare ai contesti di utilizzo della scienza dei dati e a come i dati difettosi contino non poco:

  • Irregolarità di voto
  • Sperimentazioni cliniche sui farmaci: immaginiamo se un buon farmaco ha risultati scadenti o viene misurato in modo errato, una serie di possibilità di trattamento potrebbe essere persa.
  • Rilevamento delle frodi: potrebbe avere come conseguenza una negazione di credito alle persone quando sono a basso rischio o una concessione di credito quando sono ad alto rischio.
  • Decisioni aziendali: se a un'azienda viene detto di compiere una certa scelta ma i dati erano errati, ciò potrebbe comportare un'enorme spesa di marketing per un ritorno scarso o nullo sull'investimento, o peggio ancora, la perdita di clienti preziosi.
  • Città intelligenti: se la qualità dei dati è scarsa o viene violata e intenzionalmente modificata, gli amministratori avranno difficoltà a prendere decisioni accurate su qualsiasi cosa nella loro città, tra cui le installazioni dei semafori, la raccolta dei rifiuti o i numeri del pronto intervento.

Tecniche utilizzate per il rilevamento degli outlier

Un data scientist può utilizzare una serie di tecniche per identificare gli outlier e decidere se sono errori o novità.

Outlier numerico

Questa è la tecnica non parametrica più semplice, in cui i dati sono in uno spazio unidimensionale. Gli outlier sono calcolati dividendoli in tre quartili. I limiti di intervallo sono impostati come baffi superiori e inferiori di un diagramma a scatola. Quindi, i dati che sono al di fuori di questi intervalli possono essere rimossi.

Punteggio z

Questa tecnica parametrica indica quante deviazioni standard separano un certo punto di dati dalla media del campione. Ciò presuppone una distribuzione gaussiana (una curva normale a campana). Tuttavia, se i dati non sono distribuiti normalmente, i dati possono essere trasformati ridimensionandoli e dando loro un aspetto più normale. Il punteggio z dei punti dati viene poi calcolato e posizionato sulla curva a campana, poi tramite l'euristica (regola del pollice) si può decidere un punto di cut-off per le soglie di deviazione standard. Infine, i punti dati che ricadono oltre quella deviazione standard possono essere classificati come outlier ed eliminati dall'equazione. Il punteggio z è un modo semplice ed efficace per rimuovere gli outlier, ma è utile solo con serie di dati medio-piccole. Non può essere usato per dati non parametrici.

DBSCAN

Acronimo di Density Based Spatial Clustering of Applications with Noise, che è fondamentalmente una rappresentazione grafica della densità dei dati. Utilizzando calcoli complessi, questo metodo raggruppa i dati in gruppi di punti correlati. Il DBSCAN raggruppa i dati in punti centrali, punti di confine e outlier. I punti centrali sono gruppi di dati principali, i punti di confine hanno abbastanza densità da essere considerati parte del gruppo di dati e gli outlier non sono in nessun cluster, possono quindi essere ignorati dai dati. Il DBSCAN è efficace su tre o più dimensioni ed è molto intuitivo, rendendo semplice la visualizzazione. Tuttavia i valori nello spazio delle caratteristiche devono essere ridimensionati, la selezione dei parametri ottimali può risultare difficile e il modello deve essere ricalibrato ogni volta che nuovi dati devono essere analizzati.

Foresta di isolamento

Questo metodo è efficace per trovare novità e outlier. Utilizza alberi decisionali binari che sono costruiti usando caratteristiche selezionate a caso e un valore di divisione casuale. Gli alberi della foresta formano dunque una foresta di alberi, che viene mediata. Poi, i punteggi di outlier possono essere calcolati, dando ad ogni nodo, o punto dati, un punteggio da 0 a 1, dove 0 è normale e 1 è più di un outlier. Le foreste di isolamento non richiedono il ridimensionamento e sono efficaci quando non si possono assumere distribuzioni di valori. Hanno pochissimi parametri, il che le rende robuste e semplici da ottimizzare. Tuttavia, la rappresentazione grafica dei dati è complessa e può essere un processo lungo e costoso.

Sfide con il rilevamento degli outlier

Nessun processo matematico o strategia di scienza dei dati è immune da errori o problemi. Insiemi di dati particolarmente grandi devono essere gestiti bene per rimuovere correttamente gli outlier, mantenendo intatti i dati validi e le novità. Di seguito alcune sfide:

  1. Quando il rumore o gli outlier sono molto simili ai dati validi, può essere difficile separare i dati difettosi da quelli buoni.
  2. Il comportamento degli outlier può cambiare caratteristiche. Questo significa che gli algoritmi e i modelli che prima identificavano correttamente gli outlier possono non funzionare più.
  3. I dati possono essere sfrondati in eccesso o possono rimuovere outlier genuini che dovrebbero essere inclusi nella serie di dati.
  4. Gli attacchi malevoli ai dati possono cambiare i dati per confondere i risultati.

Tutte queste sfide possono essere superate con algoritmi eccellenti che vengono costantemente riesaminati per garantirne l'accuratezza.