Cos'è la regressione logistica?

La regressione logistica è un modello statistico che viene utilizzato per determinare la probabilità che un evento accada. Mostra la relazione tra le caratteristiche e poi calcola la probabilità di un certo risultato.

Diagramma di regressione logistica

La regressione logistica è usata nel machine learning (ML) per aiutare a creare previsioni accurate. È simile alla regressione lineare, eccetto che invece di un risultato grafico la variabile obiettivo è binaria; il valore è o 1 o 0.

Ci sono due tipi di misurabili, le variabili esplicative (caratteristiche, elemento da misurare) e la variabile di risposta (variabile binaria obiettivo), che è il risultato.

Per esempio, quando si cerca di prevedere se uno studente supererà o fallirà una prova, le ore studiate sono la caratteristica e la variabile di risposta avrà due valori: promosso o bocciato.

Esistono tre tipi fondamentali di regressione logistica:

  1. Regressione logistica binaria. Qui esistono solo due possibili risultati per la risposta categorica. Come nell'esempio precedente: uno studente supera o fallisce.
  2. Regressione logistica multinomiale. Questo è il caso in cui le variabili di risposta possono includere tre o più variabili, che non saranno in nessun ordine. Un esempio è prevedere se i clienti di un ristorante preferiscono un certo tipo di cibo: vegetariano, a base di carne o vegano.
  3. Regressione logistica ordinale. Come la regressione multinomiale, possono esistere tre o più variabili. Tuttavia, c'è un ordine che le misure seguono. Un esempio è la valutazione di un hotel su una scala da 1 a 5.

Ipotesi utilizzate per la regressione logistica

Quando si lavora con la regressione logistica, vengono formulate alcune ipotesi.

  • Nella regressione logistica binaria, è necessario che la variabile di risposta sia binaria. Il risultato è o una cosa o un'altra.
  • Il risultato desiderato dovrebbe essere rappresentato dal fattore livello 1 della variabile di risposta, l'indesiderato è 0.
  • Solo le variabili che sono significative devono essere incluse.
  • Le variabili indipendenti devono essere essenzialmente indipendenti l'una dall'altra. Ci dovrebbe essere poca o nessuna colinearità.
  • Il log odds e le variabili indipendenti devono essere correlati linearmente.
  • La regressione logistica deve essere applicata solo a campioni di grandi dimensioni.
Quale supereroe di DataScience sei?
Quale supereroe di DataScience sei?
Scarica questo ebook per apprendere le sei abilità principali di cui hai bisogno per distinguerti come Data Scientist.

Applicazioni della regressione logistica

Esistono diversi campi e modi in cui la regressione logistica può essere usata e questi comprendono quasi tutti i campi delle scienze mediche e sociali.

Sanità

Per esempio, il Trauma and Injury Severity Score (TRISS). È usato in tutto il mondo per prevedere la mortalità nei pazienti feriti. Questo modello è stato sviluppato con l'applicazione della regressione logistica. Utilizza variabili come il punteggio del trauma rivisto, il punteggio di gravità delle lesioni e l'età del paziente per prevedere gli esiti di salute. È una tecnica che può essere usata addirittura per prevedere la possibilità che una persona sia affetta da una certa malattia. Per esempio, disturbi come il diabete e le malattie cardiache possono essere previsti in base a variabili come età, sesso, peso e fattori genetici.

Politica

La regressione logistica può anche essere usata per tentare di prevedere le elezioni. Andrà al potere negli USA un leader democratico, repubblicano o indipendente? Queste previsioni sono fatte sulla base di variabili come età, sesso, luogo di residenza, posizione sociale e modelli di voto precedenti (variabili) per produrre una previsione di voto (variabile di risposta).

Verifica del prodotto

La regressione logistica può essere usata in ingegneria per prevedere il successo o il fallimento di un sistema che viene collaudato o di un prototipo di prodotto.

Marketing

La regressione logistica può essere usata per prevedere le possibilità che la richiesta di un cliente si trasformi in una vendita, la possibilità che un abbonamento venga iniziato o terminato, o anche il potenziale interesse del cliente per una nuova linea di prodotti.

Settore finanziario

Un esempio di utilizzo nel settore finanziario è in una società di carte di credito che lo usa per prevedere la probabilità che un cliente sia inadempiente nei suoi pagamenti. Il modello costruito potrebbe essere per l'emissione o meno di una carta di credito ad un cliente. Il modello può dire se un certo cliente sarà "inadempiente" o "non inadempiente". In termini bancari ciò è noto come "modellazione della propensione all'insolvenza".

Commercio elettronico

Allo stesso modo, le aziende di e-commerce investono molto nella pubblicità e nelle campagne promozionali attraverso i media. Vogliono vedere quale campagna è più efficace e l'opzione più probabile per ottenere una risposta dal loro potenziale pubblico target. Il modello impostato classificherà il cliente come "rispondente" o "non rispondente". Questo modello si chiama modellazione della propensione alla risposta.

Con le intuizioni derivanti dai risultati della regressione logistica, le aziende sono in grado di ottimizzare le loro strategie e raggiungere gli obiettivi di business con una riduzione delle spese e delle perdite. Le regressioni logistiche consentono di massimizzare il ritorno sull'investimento (ROI) nelle campagne di marketing, un beneficio per il bilancio consuntivo di una società nel lungo periodo.

Vantaggi e svantaggi della regressione logistica

Vantaggi

La regressione logistica è ampiamente utilizzata perché è estremamente efficiente e non ha bisogno di enormi quantità di risorse computazionali. Può essere interpretata facilmente e non ha bisogno di ridimensionare le caratteristiche di input. È semplice da regolarizzare e i risultati che fornisce sono probabilità previste ben calibrate.

Proprio come nella regressione lineare, la regressione logistica tende a lavorare in modo più efficiente quando gli attributi non correlati alla variabile di output e quelli correlati vengono omessi. L'ingegneria delle caratteristiche ha quindi un ruolo importante da svolgere nell'efficacia delle prestazioni della regressione logistica e lineare.

La regressione logistica è anche facilmente applicabile e semplice da addestrare, ed è ciò che la rende un ottimo punto di partenza per consentire di misurare le prestazioni di altri algoritmi complessi.

Svantaggi

La regressione logistica non può essere usata per risolvere problemi non lineari e, sfortunatamente, molti dei sistemi odierni sono non lineari. Inoltre, la regressione logistica non è l'algoritmo più potente disponibile. Esistono diverse alternative in grado di creare previsioni molto migliori e più complesse.

La regressione logistica dipende molto anche dalla presentazione dei dati. Questo significa che se non sono state identificate tutte le variabili indipendenti necessarie, il risultato non ha alcun valore. Con un risultato discreto, la regressione logistica può essere utilizzata soltanto per prevedere un risultato categorico. Infine, è un algoritmo con una storia nota di vulnerabilità all'overfitting.