Was ist Logistische Regression?
Die logistische Regression ist ein statistisches Modell, das verwendet wird, um die Wahrscheinlichkeit des Auftretens eines Ereignisses zu bestimmen. Sie zeigt die Beziehung zwischen Merkmalen und berechnet dann die Wahrscheinlichkeit eines bestimmten Ergebnisses.
Die logistische Regression wird im maschinellen Lernen (ML) verwendet, um genaue Vorhersagen zu erstellen. Sie ähnelt der linearen Regression, außer dass die Zielvariable anstelle eines grafischen Ergebnisses binär ist; der Wert liegt entweder bei 1 oder 0.
Es gibt zwei Arten von Messmitteln, die erklärenden Variablen/Merkmale (zu messendes Element) und die binäre Antwortvariable/Zielvariable, die das Ergebnis ist.
Wenn Sie beispielsweise versuchen, vorherzusagen, ob ein Schüler einen Test bestehen oder nicht bestehen wird, sind die beim Lernen verbrachten Stunden die Funktion, und die Antwortvariable hat zwei Werte - bestehen oder fehlschlagen.
Es gibt drei grundlegende Arten der logistischen Regression:
- Binäre logistische Regression: Hier gibt es nur zwei mögliche Ergebnisse für die kategorische Reaktion. Wie im obigen –Beispiel besteht ein Student oder scheitert.
- Multinomiale logistische Regression: Hier können die Antwortvariablen drei oder mehr Variablen enthalten, die in keiner Reihenfolge vorliegen. Ein Beispiel ist die Vorhersage, ob die Gäste in einem Restaurant eine bestimmte Art von Speisen –bevorzugen - vegetarisch, Fleisch oder Veganer.
- Ordinale logistische Regression: Wie bei der multinomialen Regression kann es drei oder mehr Variablen geben. Es gibt jedoch eine Reihenfolge, nach der die Messungen folgen. Ein Beispiel ist die Bewertung eines Hotels auf einer Skala von 1 bis 5.
Annahmen für logistische Regression
Bei der Arbeit mit logistischer Regression werden bestimmte Annahmen getroffen.
- Bei der binären logistischen Regression ist es notwendig, dass die Antwortvariable binär ist. Das Ergebnis ist entweder die eine oder andere Sache.
- Das gewünschte Ergebnis sollte durch die Faktorstufe 1 der Antwortvariablen dargestellt werden, das Unerwünschte lautet 0.
- Es müssen nur Variablen einbezogen werden, die aussagekräftig sind.
- Unabhängige Variablen müssen im Wesentlichen unabhängig voneinander sein. Es sollte wenig bis gar keine Multi-Kolinearität geben.
- Protokollquoten und unabhängige Variablen müssen linear miteinander verwandt sein.
- Die logistische Regression darf nur bei massive Stichprobengrößen angewendet werden.

Anwendungen der logistischen Regression
Es gibt verschiedene Bereiche und Möglichkeiten, wie logistische Regression genutzt werden kann, darunter fast alle Bereiche der Medizin- und Sozialwissenschaften.
Gesundheitswesen
Beispielsweise der Trauma- und Verletzungsschweregrad (TRISS). Dies wird auf der ganzen Welt verwendet, um den Todesfall bei verletzten Patienten vorherzusagen. Dieses Modell wurde unter Anwendung der logistischen Regression entwickelt. Es verwendet Variablen wie den überarbeiteten Traumawert, den Schweregrad der Verletzung und das Alter des Patienten, um die Gesundheitsergebnisse vorherzusagen. Es ist eine Technik, die sogar verwendet werden kann, um die Möglichkeit vorherzusagen, dass eine Person an einer bestimmten Krankheit leidet. Zum Beispiel können Beschwerden wie Diabetes und Herzerkrankungen auf der Grundlage von Variablen wie Alter, Geschlecht, Gewicht und genetischen Faktoren vorhergesagt werden.
Politik
Die logistische Regression kann auch verwendet werden, um Wahlen vorherzusagen. Wird ein Oberhaupt der Demokraten, Republikaner oder Unabhängigen in den USA an die Macht kommen? Diese Vorhersagen werden auf der Grundlage von Variablen wie Alter, Geschlecht, Wohnort, sozialer Status und früheren Abstimmungsmustern (Variablen) gemacht, um eine Abstimmungsprognose (Antwortvariable) zu erstellen.
Testen von Produkten
Die logistische Regression kann im Engineering verwendet werden, um den Erfolg oder Misserfolg eines zu testenden Systems oder eines Prototyp-Produkts vorherzusagen.
Marketing
LR kann verwendet werden, um die Wahrscheinlichkeit vorherzusagen, dass aus einer Anfrage eines Kunden ein Verkauf wird, die Möglichkeit, dass ein Abonnement gestartet oder gekündigt wird, oder sogar potenzielles Kundeninteresse an einer neuen Produktlinie.
Finanzsektor
Ein Beispiel für die Verwendung im Finanzsektor ist ein Kreditkartenunternehmen, das es verwendet, um die Wahrscheinlichkeit vorherzusagen, dass ein Kunde seine Zahlungen in Verzug bringt. Das gebaute Modell könnte für die Ausstellung einer Kreditkarte an einen Kunden sein oder nicht. Das Modell kann mitteilen, ob ein bestimmter Kunde „gewöhnlich“ oder „ungewöhnlich“ sein wird. Dies wird im Bankwesen als „Standard-Neigungsmodellierung“ bezeichnet.
E-Commerce
In ähnlicher Weise investieren E-Commerce-Unternehmen stark in Werbe- und Werbekampagnen in allen Medien. Sie möchten sehen, welche Kampagne am effektivsten ist und die Option am ehesten eine Antwort von ihrer potenziellen Zielgruppe erhält. Das Modellset kategorisiert den Kunden als „Responder“ oder „Nicht-Responder“. Dieses Modell wird als Modellierung der Reaktionsneigung bezeichnet.
Mit Erkenntnissen, die aus den Ergebnissen der logistischen Regression stammen, sind Unternehmen in der Lage, ihre Strategien zu optimieren und Geschäftsziele mit Reduzierung der Ausgaben und Verluste zu erreichen. Logistische Regressionen tragen dazu bei, die Kapitalrendite (ROI) in Marketingkampagnen zu maximieren, was auf lange Sicht ein Vorteil für das Endergebnis eines Unternehmens ist.
Vor- und Nachteile der logistischen Regression
Vorteile
Logistische Regression wird häufig verwendet, da sie äußerst effizient ist und keine großen Mengen an Rechenressourcen benötigt. Sie kann einfach interpretiert werden und benötigt keine Skalierung von Eingabe-Funktionen. Sie ist einfach zu regulieren, und die Ergebnisse, die sie liefert, sind gut kalibrierte prognostizierte Wahrscheinlichkeiten.
Genau wie bei der linearen Regression funktioniert die logistische Regression tendenziell effizienter, wenn Attribute, die nicht mit der Ausgabevariablen zusammenhängen, und solche, die korreliert sind, weggelassen werden. Feature Engineering spielt daher eine wichtige Rolle bei der Wirksamkeit der Leistung logistischer und linearer Regression.
Die logistische Regression ist ebenfalls leicht zu implementieren und einfach zu trainieren, und das ist es, was sie zu einer großartigen Grundlage macht, um die Leistung anderer komplexer Algorithmen zu messen.
Nachteile
Die logistische Regression kann nicht zur Lösung nichtlinearer Probleme verwendet werden, und leider sind viele der heutigen Systeme nichtlinear. Darüber hinaus ist die logistische Regression nicht der leistungsstärkste verfügbare Algorithmus. Es gibt mehrere Alternativen, die viel bessere und komplexere Vorhersagen erstellen können.
Die logistische Regression hängt auch stark von der Datenpräsentation ab. Das bedeutet, dass die Ausgabe keinen Wert hat, wenn Sie nicht alle notwendigen unabhängigen Variablen identifiziert haben. Mit einem diskreten Ergebnis kann die logistische Regression nur zur Vorhersage eines kategorialen Ergebnisses verwendet werden. Und schließlich ist es ein Algorithmus mit einer bekannten Anfälligkeit für Überanpassungen.