Cos'è l'analisi di regressione?

L'analisi di regressione è un metodo statistico che mostra la relazione tra due o più variabili. Di solito espresso in un grafico, il metodo testa la relazione fra una variabile dipendente e variabili indipendenti. Normalmente, la variabile indipendente (o le variabili indipendenti) cambia (cambiano) con la variabile dipendente (o le variabili dipendenti) e l'analisi di regressione cerca di scoprire quali fattori sono più importanti per questo cambiamento.

Diagramma dell'analisi di regressione

Sappiamo che dobbiamo prendere decisioni basate sui dati, ma quando sono presenti letteralmente milioni o miliardi di punti dati, da dove si comincia? Fortunatamente, l'intelligenza artificiale (IA) e il machine learning (ML) possono prendere enormi quantità di dati e analizzarli in poche ore per renderli più assimilabili. Spetta poi all'analista esaminare la relazione più da vicino.

Un esempio di analisi di regressione

Nel mondo reale, uno scenario in cui si usa l'analisi di regressione potrebbe essere qualcosa del genere.

Un'azienda di vendita al dettaglio ha bisogno di prevedere i dati di vendita per il mese successivo (o la variabile dipendente). È difficile saperlo, dato che ci sono tante variabili che circondano quel numero (le variabili indipendenti): il tempo, l'uscita di un nuovo modello, quello che fa la concorrenza o i lavori di manutenzione in corso sul marciapiede all'esterno.

Molti possono avere un'opinione, come Bob della contabilità o Rachel che ha lavorato nel reparto vendite per dieci anni. Ma l'analisi di regressione passa in rassegna tutte le variabili misurabili e può indicare logicamente quali avranno un impatto. L'analisi indica quali fattori influenzeranno le vendite e come le variabili interagiscono tra loro. Questo aiuta l'azienda a prendere decisioni migliori, basate sui dati.

In questo esempio di attività di vendita al dettaglio, la variabile dipendente sono le vendite e le variabili indipendenti sono il tempo, il comportamento della concorrenza, la manutenzione dei marciapiedi e le uscite di nuovi modelli.

L'uso delle linee di regressione nell'analisi di regressione

Per iniziare un'analisi di regressione, un data scientist raccoglierà tutti i dati necessari riguardo alle variabili. Probabilmente includerà i dati di vendita per un periodo considerevole in via preventiva, e il tempo, compresi i livelli di pioggia, per lo stesso periodo. Poi, i dati vengono elaborati e presentati in un grafico.

Nell'analisi, l'asse Y contiene sempre la variabile dipendente o ciò che si sta cercando di testare. In questo caso, i dati di vendita. L'asse X rappresenta la variabile indipendente, il numero di centimetri di pioggia. Guardando questo semplice grafico fittizio, si può osservare che le vendite aumentano quando piove, una correlazione positiva. Ma non dice esattamente quanto ci si può aspettare di vendere con una certa quantità di pioggia. Ecco quando si aggiunge una linea di regressione.

Questa è una linea che mostra il miglior adattamento per i dati e la relazione tra la variabile dipendente e quella indipendente. In questo esempio, è possibile osservare che la linea di regressione interseca i dati, mostrando visivamente una previsione di ciò che accadrebbe con qualsiasi quantità di pioggia.

Una linea di regressione usa una formula per calcolare le sue previsioni. Y = A + BX. Y è la variabile dipendente (vendite), X la variabile indipendente (pioggia), B è la pendenza della linea e A è il punto in cui Y intercetta la linea.

Nella scienza dei dati, programmi sofisticati eseguono tutti questi calcoli in una frazione di secondo, per produrre previsioni altamente accurate e basate sui dati.

/resources/ebook-download/become-data-science-superhero-6-easy-steps
Quale supereroe di DataScience sei?
Scarica questo ebook per apprendere le sei abilità principali di cui hai bisogno per distinguerti come Data Scientist.

Regressioni multiple

Mentre ci può essere solo una variabile dipendente per regressione, ci possono essere più variabili indipendenti. Questa viene generalmente denominata regressione multipla.

Ciò consente agli statistici di individuare relazioni complesse tra le variabili. Se gli esiti saranno più complessi, loro sono in grado di creare risultati più realistici di una semplice analisi di regressione a una sola variabile. Nell'esempio della vendita al dettaglio, questa mostrerà gli effetti del tempo, dell'uscita del prodotto e della pubblicità della concorrenza sulle vendite nel negozio.

Cosa sono i termini di errore?

Le analisi di regressione non prevedono la causalità, ma solo la relazione tra le variabili. Anche se si è tentati di dire che è ovvio che il livello delle precipitazioni influenzi i dati di vendita, non c'è nessuna prova che sia così. Le variabili indipendenti non saranno mai un perfetto indicatore di una variabile dipendente.

Il termine di errore è la cifra che mostra la certezza con cui potersi fidare della formula. Più grande è il termine di errore, meno certa è quella linea di regressione. Il termine di errore potrebbe essere del 50 per cento, indicando che la variabile non è migliore del caso. Oppure, potrebbe essere dell'85%, mostrando che esiste una probabilità significativa che la variabile indipendente influenzi la variabile dipendente.

Correlazione non equivale a causalità: potrebbe non essere la pioggia a causare quell'aumento delle vendite, ma un'altra variabile indipendente. Anche se le variabili sembrano essere collegate, è possibile che ci sia qualcos'altro in aggiunta e solo eseguendo un'analisi multipla un'azienda sarà in grado di acquisire una comprensione più chiara dei fattori coinvolti. È quasi impossibile prevedere una causa e un effetto diretti nell'analisi di regressione.

Questo è il motivo per cui le analisi di regressione di solito includono un certo numero di variabili, in modo che sia più probabile trovare la causa reale dell'aumento o della diminuzione delle vendite. Naturalmente, l'inclusione di più variabili indipendenti può creare un insieme disordinato di risultati. Tuttavia, i bravi data scientist e gli statistici possono passare in rassegna i dati per ottenere risultati accurati.

L'altra cosa utile è la conoscenza dell'azienda. Il punto vendita potrebbe vendere più prodotti nei giorni di maggiore pioggia, ma se i data scientist parlano con gli addetti alle vendite, potrebbero scoprire che entrano più persone per il caffè gratis che viene offerto nei giorni di pioggia. Se è così, la causa dell'aumento delle vendite è la pioggia o il caffè gratis?

Questo significa che l'azienda deve effettuare un po' di ricerche di mercato. Chiedere ai clienti perché hanno acquistato qualcosa in un giorno specifico. Può essere che il caffè li abbia attirati, la pioggia li abbia fatti rimanere, e poi abbiano visto un prodotto che avevano intenzione di comprare. Dunque, la causa dell'aumento delle vendite è la pioggia, ma è necessario considerare anche il caffè gratis. Uno senza l'altro non porterà allo stesso risultato.

Come può un'azienda utilizzare l'analisi di regressione?

Generalmente, l'analisi di regressione è usata per:

  • Cercare di spiegare un fenomeno
  • Prevedere eventi futuri
  • Ottimizzare i processi di produzione e consegna
  • Risolvere gli errori
  • Fornire nuove intuizioni

Spiegazione del fenomeno

Questo potrebbe essere il tentativo di trovare una ragione (variabile) per cui le vendite salgono vertiginosamente in un certo giorno del mese, perché le chiamate di servizio sono aumentate in un dato mese o perché le persone restituiscono le auto a noleggio in ritardo solo in determinati giorni.

Fare previsioni

Se l'analisi di regressione ha mostrato che la gente ha acquistato di più un prodotto dopo una certa promozione, l'azienda può prendere una decisione precisa su quale pubblicità o promozione usare.

Le previsioni nell'analisi di regressione possono coprire un'ampia varietà di situazioni e scenari. Ad esempio, prevedere quante persone vedranno un cartellone pubblicitario può consentire alla direzione di decidere se un investimento in pubblicità è una buona idea; in quale scenario questo cartellone offre un buon ritorno sull'investimento?

Le compagnie di assicurazione e le banche usano molto le previsioni dell'analisi di regressione. Quanti detentori di mutui ripagheranno i loro prestiti in tempo? Quanti assicurati avranno un incidente d'auto o subiranno un furto in casa? Queste previsioni permettono di valutare il rischio, ma anche di prevedere i prezzi ottimali delle tariffe e dei premi.

Ottimizzare i processi

In un panificio, potrebbe esistere una relazione tra la durata di conservazione dei biscotti e la temperatura del forno durante la cottura. Il risultato dell'ottimizzazione in questo caso sarebbe una durata di conservazione più lunga, pur mantenendo la qualità fragrante dei biscotti. Un call centre potrebbe aver bisogno di conoscere la relazione tra i volumi di reclamo e i tempi di attesa, in modo da poter formare il personale o assumere più personale per rispondere alle chiamate entro un certo lasso di tempo per avere la massima soddisfazione del cliente. Naturalmente, i volumi delle chiamate cambieranno nel corso della giornata, dando alla direzione un'ulteriore possibilità di prendere decisioni istruite e ottimizzate sulla qualità del personale.

Risolvere gli errori

Il direttore di un negozio se ne esce con un'idea brillante: estendere l'orario di apertura aumenterà le vendite. Dopo tutto, spiega il direttore, se si è aperti per quattro ore in più al giorno, ciò significa un corrispondente aumento delle vendite. Solo che tenere un negozio aperto più a lungo non significa sempre un aumento del profitto. Si può eseguire un'analisi di regressione che mostra come qualsiasi aumento delle vendite potrebbe non coprirne il costo. Tale analisi quantitativa fornisce supporto alle decisioni esecutive.

Nuove intuizioni

La maggior parte delle aziende possiede grandi volumi di dati, spesso in uno stato caotico. Usando l'analisi di regressione, questi dati possono produrre informazioni sulle relazioni tra le variabili che potrebbero essere passate inosservate in passato. Se usi i dati del tuo punto vendita, potresti scoprire orari di punta del giorno, picchi di domanda o date di vendite elevate che prima non erano state notate.

Sfide con l'analisi di regressione

Correlazione non equivale a causalità. Si può mostrare una relazione tra due variabili qualsiasi, ma questo non prova che una delle variabili causi l'altra. Alcune persone pensano che quando vedono una relazione positiva in un'analisi di regressione sia un chiaro segno di causa ed effetto. Tuttavia, come abbiamo discusso prima, l'analisi di regressione mostra solo la relazione tra le variabili, non la causa e l'effetto. Si deve stare attenti a non fare supposizioni su relazioni che in verità non esistono nella vita reale.

La variabile indipendente può essere qualcosa che non puoi controllare. Per esempio, sai che la pioggia aumenta il volume delle vendite, ma non puoi controllare il tempo. Questa variabile ha importanza? Puoi controllare molti fattori interni: il marketing, la disposizione del negozio, il comportamento del personale, le caratteristiche e le promozioni. Aspettare che piova non è una buona strategia di vendita.

GIGO (garbage in garbage out)

Gran parte del ruolo di un data scientist è la pulizia dei dati. Questo perché i calcoli sono buoni solo quanto i dati forniti. Se le informazioni di input sono spazzatura, lo sarà anche il risultato dell'analisi di regressione. Mentre le statistiche e la pulizia dei dati possono gestire e controllare alcune irregolarità o imperfezioni, i dati devono essere accurati affinché le previsioni risultanti siano accurate.

Ignorare il termine di errore. Se i risultati dicono che i dati spiegano il 60% del risultato, ci possono essere informazioni importanti in quel restante 40% che devono essere esaminate. Devi chiederti: questo calcolo è abbastanza accurato da fidarsi, o c'è un fattore o una variabile più grande in gioco? Spesso, chiedere a un direttore esperto o a una persona coinvolta nell'azienda di osservare il risultato può essere un controllo di lucidità mentale. L'intuizione e la conoscenza del settore aziendale sono importanti, perché assicurano che non c'è nulla che viene tralasciato o falsamente attribuito.