Cos'è il rilevamento degli outlier?
Il rilevamento degli outlier è il processo di individuazione dei valori anomali o di un punto dati che è lontano dalla media e, in base allo scopo del procedimento, della loro potenziale risoluzione o eliminazione dall'analisi per prevenire qualsiasi potenziale distorsione. Il rilevamento degli outlier è uno dei processi più importanti adottati per creare dati buoni e affidabili.
Cos'è un outlier?
Gli outlier sono punti dati estremi che sono oltre le norme previste per il loro tipo. Può essere un'intera serie di dati contraddittoria, o le estremità di una certa serie di dati. Immaginando una curva a campana standard, gli outlier sono i dati all'estrema destra e all'estrema sinistra. Possono indicare una frode o qualche altra anomalia che si sta cercando di rilevare, ma possono anche essere errori di misurazione, problemi sperimentali o una nuova, unica deviazione. Fondamentalmente, il termine si riferisce a un punto dati o a un insieme di punti dati che diverge enormemente dai campioni e dai modelli previsti.
Ci sono due tipi di outlier, multivariati e univariati. Gli outlier univariati sono un punto dati che è estremo per una variabile. Un outlier multivariato è una combinazione di punti dati insoliti, che comprende almeno due punti dati.
Point outlier: si tratta di singoli punti dati che sono molto lontani dal resto dei punti dati.
Outlier contestuali: sono considerati "rumore", come i simboli di punteggiatura e le virgole nel testo, o il rumore di fondo quando si esegue il riconoscimento vocale.
Outlier collettivi: si tratta di sottoinsiemi di dati inattesi che mostrano una deviazione dai dati convenzionali e possono indicare un nuovo fenomeno.
Quali sono le cause di un outlier?
Esistono otto cause principali di outlier.
- Inserimento errato di dati da parte di esseri umani
- Codici usati al posto di valori
- Errori di campionamento, i dati sono stati estratti dal posto sbagliato o mescolati con altri dati
- Distribuzione inaspettata delle variabili
- Errori di misurazione causati dall'applicazione o dal sistema
- Errori sperimentali nell'estrazione dei dati o errori di pianificazione
- Outlier fittizi intenzionali inseriti per testare i metodi di rilevamento
- Deviazioni naturali nei dati, non effettivamente un errore, che indicano una frode o qualche altra anomalia che si sta cercando di rilevare
Quando si raccolgono e si elaborano i dati, gli outlier possono provenire da una serie di fonti e nascondersi in molti modi. Fa parte del processo di rilevamento degli outlier identificarli e distinguerli dai dati genuini che si comportano in modi inaspettati.
Gli outlier che non sono veri e propri errori ma un insieme genuino di dati inaspettati sono chiamati novità. Parte del lavoro di un data scientist è identificare le novità e lasciarle nell'insieme di dati, poiché sono importanti per prendere decisioni e garantire risultati accurati.

Perché un utente dovrebbe cercare gli outlier?
Uno dei problemi principali nell'intelligenza artificiale (IA), nel machine learning (ML) e nella scienza dei dati è la qualità dei dati. Con la crescita del settore della scienza dei dati, si è rilevata un'espansione e una crescita di questi ultimi. Ma anche il tasso di outlier o anomalie è aumentato. Questo significa che i dati aberranti possono ostacolare le specifiche del modello, confondere la stima dei parametri e generare informazioni errate. Basti pensare ai contesti di utilizzo della scienza dei dati e a come i dati difettosi contino non poco:
- Irregolarità di voto
- Sperimentazioni cliniche sui farmaci: immaginiamo se un buon farmaco ha risultati scadenti o viene misurato in modo errato, una serie di possibilità di trattamento potrebbe essere persa.
- Rilevamento delle frodi: potrebbe avere come conseguenza una negazione di credito alle persone quando sono a basso rischio o una concessione di credito quando sono ad alto rischio.
- Decisioni aziendali: se a un'azienda viene detto di compiere una certa scelta ma i dati erano errati, ciò potrebbe comportare un'enorme spesa di marketing per un ritorno scarso o nullo sull'investimento, o peggio ancora, la perdita di clienti preziosi.
- Città intelligenti: se la qualità dei dati è scarsa o viene violata e intenzionalmente modificata, gli amministratori avranno difficoltà a prendere decisioni accurate su qualsiasi cosa nella loro città, tra cui le installazioni dei semafori, la raccolta dei rifiuti o i numeri del pronto intervento.
Tecniche utilizzate per il rilevamento degli outlier
Un data scientist può utilizzare una serie di tecniche per identificare gli outlier e decidere se sono errori o novità.
Outlier numerico
Questa è la tecnica non parametrica più semplice, in cui i dati sono in uno spazio unidimensionale. Gli outlier sono calcolati dividendoli in tre quartili. I limiti di intervallo sono impostati come baffi superiori e inferiori di un diagramma a scatola. Quindi, i dati che sono al di fuori di questi intervalli possono essere rimossi.
Punteggio z
Questa tecnica parametrica indica quante deviazioni standard separano un certo punto di dati dalla media del campione. Ciò presuppone una distribuzione gaussiana (una curva normale a campana). Tuttavia, se i dati non sono distribuiti normalmente, i dati possono essere trasformati ridimensionandoli e dando loro un aspetto più normale. Il punteggio z dei punti dati viene poi calcolato e posizionato sulla curva a campana, poi tramite l'euristica (regola del pollice) si può decidere un punto di cut-off per le soglie di deviazione standard. Infine, i punti dati che ricadono oltre quella deviazione standard possono essere classificati come outlier ed eliminati dall'equazione. Il punteggio z è un modo semplice ed efficace per rimuovere gli outlier, ma è utile solo con serie di dati medio-piccole. Non può essere usato per dati non parametrici.
DBSCAN
Acronimo di Density Based Spatial Clustering of Applications with Noise, che è fondamentalmente una rappresentazione grafica della densità dei dati. Utilizzando calcoli complessi, questo metodo raggruppa i dati in gruppi di punti correlati. Il DBSCAN raggruppa i dati in punti centrali, punti di confine e outlier. I punti centrali sono gruppi di dati principali, i punti di confine hanno abbastanza densità da essere considerati parte del gruppo di dati e gli outlier non sono in nessun cluster, possono quindi essere ignorati dai dati. Il DBSCAN è efficace su tre o più dimensioni ed è molto intuitivo, rendendo semplice la visualizzazione. Tuttavia i valori nello spazio delle caratteristiche devono essere ridimensionati, la selezione dei parametri ottimali può risultare difficile e il modello deve essere ricalibrato ogni volta che nuovi dati devono essere analizzati.
Foresta di isolamento
Questo metodo è efficace per trovare novità e outlier. Utilizza alberi decisionali binari che sono costruiti usando caratteristiche selezionate a caso e un valore di divisione casuale. Gli alberi della foresta formano dunque una foresta di alberi, che viene mediata. Poi, i punteggi di outlier possono essere calcolati, dando ad ogni nodo, o punto dati, un punteggio da 0 a 1, dove 0 è normale e 1 è più di un outlier. Le foreste di isolamento non richiedono il ridimensionamento e sono efficaci quando non si possono assumere distribuzioni di valori. Hanno pochissimi parametri, il che le rende robuste e semplici da ottimizzare. Tuttavia, la rappresentazione grafica dei dati è complessa e può essere un processo lungo e costoso.
Sfide con il rilevamento degli outlier
Nessun processo matematico o strategia di scienza dei dati è immune da errori o problemi. Insiemi di dati particolarmente grandi devono essere gestiti bene per rimuovere correttamente gli outlier, mantenendo intatti i dati validi e le novità. Di seguito alcune sfide:
- Quando il rumore o gli outlier sono molto simili ai dati validi, può essere difficile separare i dati difettosi da quelli buoni.
- Il comportamento degli outlier può cambiare caratteristiche. Questo significa che gli algoritmi e i modelli che prima identificavano correttamente gli outlier possono non funzionare più.
- I dati possono essere sfrondati in eccesso o possono rimuovere outlier genuini che dovrebbero essere inclusi nella serie di dati.
- Gli attacchi malevoli ai dati possono cambiare i dati per confondere i risultati.
Tutte queste sfide possono essere superate con algoritmi eccellenti che vengono costantemente riesaminati per garantirne l'accuratezza.