Cos'è l'apprendimento non supervisionato?
L'apprendimento non supervisionato è uno dei modi in cui il machine learning (ML) "apprende" i dati. L'apprendimento non supervisionato ha dati non etichettati a cui l'algoritmo deve cercare autonomamente di dare un senso. L' apprendimento supervisionato è quello in cui i set di dati sono etichettati in modo che ci sia una chiave di risposta con cui la macchina può misurare la sua accuratezza. Se il machine learning fosse un bambino che impara ad andare in bicicletta, l'apprendimento supervisionato sarebbe il genitore che corre dietro la bicicletta tenendola dritta. L'apprendimento non supervisionato è consegnare la bicicletta, dare una pacca sulla spalla al bambino e dire "buona fortuna".
L'obiettivo è semplicemente lasciare che la macchina impari senza assistenza o suggerimenti dai data scientist. Lungo la strada, dovrebbe anche imparare a regolare i risultati e i raggruppamenti quando ci sono risultati più adatti. Si tratta di permettere alla macchina di comprendere i dati ed elaborarli come meglio crede.
L'apprendimento non supervisionato è usato per esplorare dati sconosciuti. Può rivelare schemi che potrebbero essere sfuggiti o esaminare grandi insiemi di dati che sarebbero troppo grandi da affrontare per un umano.
Come funziona l'apprendimento non supervisionato?
Per comprendere l'apprendimento non supervisionato, dobbiamo comprendere l'apprendimento supervisionato. Se un computer stesse imparando a identificare la frutta in un contesto di apprendimento supervisionato, gli verrebbero forniti esempi di immagini di frutta etichettate. Questi sono chiamati dati di input. Per esempio, le etichette direbbero che le banane sono lunghe, curve e gialle, le mele sono rotonde e rosse, mentre un'arancia è sferica, dall'aspetto ceroso e arancione. Dopo un certo tempo, la macchina dovrebbe essere in grado di identificare con sicurezza quale frutto è quale, sulla base di questi descrittori. Se le venisse presentata una mela, per esempio, sarebbe in grado di dire con sicurezza che non è di colore arancione, quindi non è un'arancia, ma anche che non è gialla e lunga, quindi non è una banana. È rotonda e rossa, quindi è una mela.
Al contrario, l'apprendimento non supervisionato è quando non c'è alcuna categorizzazione o etichettatura dei dati. La macchina non ha idea del concetto di frutta, quindi non può etichettare gli oggetti. Tuttavia, può raggrupparli secondo i colori, le dimensioni, le forme e le differenze. La macchina raggruppa le cose in base alle somiglianze, trovando strutture e schemi nascosti nei dati non etichettati. Non c'è un modo giusto o sbagliato, e nessun insegnante. Non ci sono risultati, solo una pura analisi dei dati.
L'apprendimento non supervisionato utilizza una serie di algoritmi per inserire i dati in grandi gruppi, clustering e associazioni.

Algoritmi di clustering nell'apprendimento non supervisionato
Il clustering è quando gli oggetti vengono raggruppati in sottoinsiemi chiamati cluster. Questo è uno dei modi migliori per avere una panoramica della struttura dei tuoi dati. In questi cluster ci saranno alcune caratteristiche simili. Questo metodo è progettato per avere gruppi con le stesse caratteristiche e poi assegnarli ai cluster pertinenti.
Clustering gerarchico
Si ha quando la macchina raggruppa gli oggetti che vanno insieme in un albero di cluster. Tutti i dati sono un cluster, poi si scompongono in cluster sempre più piccoli. I dati apparterranno ad un insieme a cascata di cluster dal più generico, fino al più specifico e strettamente raggruppato. Quindi, il risultato finale è che si vede come i diversi sottogruppi si relazionano tra loro o quanto sono distanti.
Clustering k-means
Questo algoritmo separa i dati in cluster distinti che non sono stati etichettati nei dati. La distanza dal centro del cluster dipende dalla forza dell'associazione. I punti dati possono appartenere ad un solo cluster. Un k più grande significa un gruppo più piccolo con più granularità allo stesso modo. Ad ogni cluster viene assegnata un'etichetta al punto dati.
Modelli di miscela gaussiana
Sulla base di una distribuzione normale a campana, i cluster di gruppi sono distribuiti con densità normali e attese, mostrando sottopopolazioni nei dati complessivi.
Cluster fuzzy
Questi cluster possono sovrapporsi, quindi ogni punto dati può appartenere a tanti cluster quanti sono rilevanti, al contrario dell'hard clustering dove i punti dati possono appartenere solo a un cluster. Questo è il diagramma di Venn nel mondo dell'apprendimento non supervisionato.
Il clustering presuppone relazioni tra i gruppi, e quindi non è sempre il modo migliore per la segmentazione dei clienti: questo algoritmo non tratta i punti dati come individui. È necessario applicare altri metodi statistici per analizzare ulteriormente i dati.
Associazione nell'apprendimento non supervisionato
Nel machine learning, l'algoritmo crea regole che trovano associazioni tra punti dati. Trova le relazioni tra le variabili, individuando gli elementi che tendono a presentarsi insieme. Per esempio, l'analisi del paniere nei supermercati può vedere quali articoli la gente tende a comprare nello stesso momento, ad esempio minestra e panini. Oppure, quando le persone comprano una nuova casa, cos'altro è probabile che comprino di nuovo? Questo algoritmo è ottimo per individuare le opportunità di marketing.
Modelli di variabili latenti nell'apprendimento non supervisionato
La modellazione delle variabili latenti mostra la relazione tra le variabili osservabili (o manifeste) e quelle nascoste o non osservate (variabili latenti). I modelli a variabili latenti sono usati soprattutto nella pre-elaborazione o nella pulizia dei dati, per ridurre le caratteristiche in un insieme di dati o per scomporre la serie di dati in più componenti.
Quando è preferibile l'addestramento non supervisionato per tendenze e modelli sconosciuti?
Poiché la macchina non sa che c'è una risposta "corretta", lasciare che le decisioni vengano prese sui dati basandosi solo sulle informazioni (cioè, senza pregiudizi da parte dello scienziato) permette ai data scientist di imparare più cose sui dati. Gli algoritmi possono trovare strutture interessanti o nascoste nei dati che non erano precedentemente visibili ai data scientist. Queste strutture nascoste sono chiamate vettori delle caratteristiche.
I dati spesso non sono dotati di etichette, quindi l'apprendimento non supervisionato esonera un data scientist dal dover etichettare tutto, che può essere un compito dispendioso in termini di tempo e spesse volte insormontabile. Gli algoritmi di apprendimento non supervisionato consentono anche compiti di elaborazione più complessi. Ancora una volta, nessuna etichettatura significa che possono essere mappate relazioni complesse e cluster di dati. Nessuna etichettatura dei dati significa nessuna idea preconcetta e nessun pregiudizio.
Il momento migliore per usare l'apprendimento non supervisionato è quando non ci sono dati preesistenti né risultati preferiti. L'apprendimento non supervisionato può individuare le caratteristiche che possono essere utili nella categorizzazione di insiemi di dati sconosciuti. Per esempio, se un'azienda deve stabilire il mercato target per un nuovo prodotto.
L'apprendimento non supervisionato usa una tecnica chiamata riduzione della dimensionalità. È quando la macchina presuppone che molti dati siano ridondanti e rimuove le dimensioni o mette insieme alcune parti di dati quando è possibile. La compressione dei dati comporta un risparmio di tempo e di potenza di calcolo.
I modelli generativi sono un altro punto di forza dell'apprendimento non supervisionato. I modelli generativi mostrano la distribuzione dei dati. È quando i dati vengono esaminati e nuovi campioni possono essere creati a partire da questi. Per esempio, un modello generativo può ricevere un insieme di immagini e creare un insieme di immagini costruite sulla base di queste.