Was ist Regressionsanalyse?
Die Regressionsanalyse ist eine statistische Methode, die die Beziehung zwischen zwei oder mehr Variablen anzeigt. Normalerweise in einem Diagramm ausgedrückt, testet die Methode die Beziehung zwischen einer abhängigen Variable mit unabhängigen Variablen. Typischerweise ändert sich die unabhängige(n) Variable(n) mit der/den abhängigen Variable(n), und die Regressionsanalyse versucht zu beantworten, welche Faktoren für diese Änderung am wichtigsten sind.
Wir wissen, dass wir datenbasierte Entscheidungen treffen müssen, aber wenn es buchstäblich Millionen oder Billionen von Datenpunkten gibt, wo fängt man überhaupt an? Glücklicherweise können Künstliche Intelligenz (KI) und maschinelles Lernen (ML) enorme Datenmengen aufnehmen und innerhalb weniger Stunden analysieren, um sie verdaulicher zu machen. Es liegt dann am Datenspezialisten, die Beziehung genauer zu untersuchen.
Ein Beispiel einer Regressionsanalyse
In der wirklichen Welt könnte ein Szenario, in dem eine Regressionsanalyse verwendet wird, ungefähr so aussehen:
Ein Einzelhandelsunternehmen muss die Verkaufszahlen für den nächsten Monat (oder die abhängige Variable) vorhersagen. Es ist schwierig, das herauszufinden, da es so viele Variablen gibt, die diese Zahl (die unabhängigen Variablen) umgeben - das Wetter, eine neue Modellversion, was Ihre Konkurrenten tun oder die Wartungsarbeiten auf dem Bürgersteig draußen.
Viele haben vielleicht eine Meinung, wie Bob von der Buchhaltung oder Rachel, die seit zehn Jahren auf der Verkaufsfläche gearbeitet hat. Die Regressionsanalyse durchsucht jedoch alle messbaren Variablen und kann logisch angeben, welche Auswirkungen haben werden. Die Analyse zeigt Ihnen, welche Faktoren den Umsatz beeinflussen und wie die Variablen miteinander interagieren. Dies hilft dem Unternehmen dabei, bessere, datenbasierte Entscheidungen zu treffen.
In diesem Einzelhandelsbeispiel ist die abhängige Variable der Umsatz, und die unabhängigen Variablen sind das Wetter, das Verhalten der Konkurrenz, die Instandhaltung der Fußwege und neue Modellveröffentlichungen.
Die Verwendung von Regressionslinien in der Regressionsanalyse
Um eine Regressionsanalyse zu starten, sammelt ein Data Scientist alle Daten, die er über die Variablen benötigt. Dies wird wahrscheinlich Verkaufszahlen für einen beträchtlichen früheren Zeitraum und das Wetter, einschließlich der Niederschlagswerte, für denselben Zeitraum umfassen. Dann werden die Daten verarbeitet und in einem Diagramm dargestellt.
In der Analyse enthält die Y-Achse immer die abhängige Variable oder was Sie testen möchten. In diesem Fall Verkaufszahlen. Die X-Achse stellt die unabhängige Variable dar, die Anzahl der Zentimeter Regen. Wenn man sich dieses einfache fiktive Diagramm ansieht, kann man sehen, dass der Umsatz bei Regen steigt, eine positive Korrelation. Aber sie teilt Ihnen nicht genau mit, wie viel Sie mit einer bestimmten Regenmenge erwarten können. Das ist der Zeitpunkt, an dem Sie eine Regressionslinie hinzufügen.
Dies ist eine Linie, die die beste Lösung für die Daten und die Beziehung zwischen der abhängigen und unabhängigen Variablen zeigt. In diesem Beispiel können Sie sehen, dass die Regressionslinie die Daten kreuzt und visuell eine Vorhersage zeigt, was mit einer beliebigen Niederschlagsmenge passieren würde.
Eine Regressionslinie verwendet eine Formel, um ihre Vorhersagen zu berechnen. Y = A+ BX. Y ist die abhängige Variable (Umsatz), X die unabhängige Variable (Niederschlag), B ist die Neigung der Linie und A ist der Punkt, an dem das Y die Linie kreuzt.
In der Data Science führen anspruchsvolle Programme all diese Berechnungen in Sekundenbruchteilen durch, um hochgenaue, datenbasierte Vorhersagen zu erstellen.

Mehrere Regressionen
Während es pro Regression nur eine abhängige Variable geben kann, kann es mehrere unabhängige Variablen geben. Dies wird im Allgemeinen als Mehrfachregression bezeichnet.
Dadurch können Statistiker komplexe Beziehungen zwischen Variablen identifizieren. Während die Ergebnisse komplexer sein werden, können sie realistischere Ergebnisse erzielen als eine einfache Regressionsanalyse mit einer Variable. Im Einzelhandelsbeispiel wird dies die Auswirkungen von Wetter, Produktfreigabe und Werbung der Wettbewerber auf die Verkäufe im Geschäft zeigen.
Was sind Fehlerterme?
Regressionsanalysen prognostizieren keine Kausalität, sondern nur die Beziehung zwischen Variablen. Obwohl es verlockend ist zu sagen, dass es offensichtlich ist, dass sich das Niederschlagsniveau auf die Verkaufszahlen auswirkt, gibt es keinen Beweis dafür, dass dies der Fall ist. Unabhängige Variablen werden niemals eine perfekte Prognose für eine abhängige Variable sein.
Der Fehlerterm ist die Zahl, die Ihnen die Gewissheit zeigt, mit der Sie der Formel vertrauen können. Je größer der Fehlerterm, desto weniger sicher ist die Regressionslinie. Der Fehlerterm kann 50 Prozent betragen, was darauf hinweist, dass die Variable nicht besser ist als der Zufall. Oder er könnte 85 Prozent betragen, was zeigt, dass es eine erhebliche Wahrscheinlichkeit gibt, dass die unabhängige Variable die abhängige Variable beeinflusst.
Korrelation ist nicht gleich Kausalität - es könnte nicht der Regen sein, der diesen Umsatzanstieg verursacht, sondern es könnte eine weitere unabhängige Variable sein. Während die Variablen miteinander verbunden zu sein scheinen, ist es möglich, dass es etwas ganz anderes gibt, und nur durch mehrere Analysen wird ein Unternehmen in der Lage sein, die beteiligten Faktoren klarer zu verstehen. Es ist fast unmöglich, eine direkte Ursache und Wirkung in der Regressionsanalyse vorherzusagen.
Aus diesem Grund enthalten Regressionsanalysen normalerweise eine Reihe von Variablen, sodass es wahrscheinlicher ist, dass Sie die tatsächliche Ursache für die Umsatzsteigerung oder -rückgang feststellen. Natürlich kann die Einbeziehung mehrerer unabhängiger Variablen zu unordentlichen Ergebnissen führen, aber gute Data Scientists und Statistiker können die Daten sortieren, um genaue Ergebnisse zu erhalten.
Die andere Sache, die dabei helfen kann, ist das Wissen über das Geschäft. Das Geschäft verkauft möglicherweise mehr Produkte an Tagen mit schwereren Regenfällen, aber wenn die Data Scientists mit den Verkäufern sprechen, werden sie möglicherweise feststellen, dass mehr Menschen für den kostenlosen Kaffee hereinkommen, der an regnerischen Tagen verschenkt wird. Ist das der Fall, ist die Ursache für erhöhte Verkaufszahlen der Regen oder der kostenlose Kaffee?
Das bedeutet, dass das Unternehmen ein wenig Marktforschung betreiben muss. Sie Fragen ihre Kunden, warum sie an einem bestimmten Tag etwas gekauft haben. Es kann sein, dass der Kaffee sie hereinzog, der Regen sie bleiben ließ, und dann sahen sie ein Produkt, das sie kaufen wollten. Die Ursache für gestiegene Verkaufszahlen ist daher der Regen, aber Sie müssen auch den kostenlosen Kaffee berücksichtigen. Das eine ohne das andere führt nicht zu demselben Ergebnis.
Wie kann ein Unternehmen die Regressionsanalyse verwenden?
Im Allgemeinen wird die Regressionsanalyse verwendet, um:
- Zu Versuchen, ein Phänomen zu erklären
- Zukünftige Ereignisse zu prognostizieren
- Fertigungs- und Lieferprozesse zu optimieren
- Fehler zu beheben
- Neue Erkenntnisse zu geben
Das Phänomen zu erklären
Dies könnte der Versuch sein, einen Grund (Variable) zu finden, warum die Verkäufe an einem bestimmten Tag des Monats ansteigen, warum die Serviceanrufe in einem bestimmten Monat stiegen oder warum Menschen Mietwagen nur an bestimmten Tagen zu spät zurückgeben.
Vorhersagen machen
Wenn die Regressionsanalyse ergab, dass Personen nach einer bestimmten Werbeaktion mehr von einem Produkt gekauft haben, kann das Unternehmen eine genaue Entscheidung darüber treffen, welche Werbung oder welche Werbeaktion verwendet werden soll.
Prognosen in der Regressionsanalyse können eine Vielzahl von Situationen und Szenarien umfassen. Wenn Sie beispielsweise vorhersagen, wie viele Personen eine Plakatwand sehen werden, kann dem Management dabei helfen, zu entscheiden, ob eine Investition in Werbung eine gute Idee ist. In welchem Szenario bietet diese Plakatwand eine gute Rentabilität?
Versicherungsunternehmen und Banken nutzen die Prognosen der Regressionsanalyse häufig. Wie viele Hypothekennehmer werden ihre Kredite pünktlich zurückzahlen? Wie viele Versicherungsnehmer werden einen Autounfall haben oder bei wie vielen werden Diebstähle in ihren Häusern auftreten? Diese Prognosen ermöglichen eine Risikobewertung, prognostizieren aber auch optimale Gebühren- und Prämienpreise.
Prozesse optimieren
In einer Bäckerei könnte es einen Zusammenhang zwischen der Haltbarkeit von Keksen und der Temperatur des Ofens beim Backen geben. Das Ergebnis der Optimierung wäre hier die längste Haltbarkeit, unter Beibehaltung der weichen Qualität der Kekse. Ein Callcenter muss möglicherweise die Beziehung zwischen Beschwerdevolumen und Wartezeiten kennen, damit es sein Personal schulen und mehr Mitarbeiter einstellen kann, um innerhalb eines bestimmten Zeitraums auf Anrufe zu reagieren, um maximale Kundenzufriedenheit zu erreichen. Natürlich wird sich das Gesprächsvolumen im Laufe des Tages ändern und das Management weiter vorbereiten, um fundierte und optimierte Entscheidungen über den Personalbestand zu treffen.
Fehler beheben
Einem Filialleiter fällt eine gute Idee ein, dass die Verlängerung der Öffnungszeiten den Umsatz steigern wird. Schließlich erklärt der Manager, wenn man vier weitere Stunden am Tag geöffnet ist, bedeutet das eine entsprechende Umsatzsteigerung. Die Sache ist nur, dass längere Öffnungszeiten nicht immer eine Gewinnsteigerung bedeuten. Eine Regressionsanalyse kann durchgeführt werden, die zeigt, dass eine Umsatzsteigerung die Kosten dieser Verkäufe möglicherweise nicht deckt. Eine solche quantitative Analyse unterstützt Führungsentscheidungen.
Neue Erkenntnisse
Die meisten Unternehmen verfügen über große Datenmengen, oft in einem chaotischen Zustand. Mithilfe der Regressionsanalyse können diese Daten Informationen über Beziehungen zwischen Variablen liefern, die in der Vergangenheit möglicherweise unbemerkt waren. Wenn Sie Ihre Point-of Sale-Daten verwenden, können Sie arbeitsreiche Tageszeiten, Nachfragespitzen oder bisher unbemerkt hohe Verkaufstermine feststellen.
Herausforderungen bei der Regressionsanalyse
Die Korrelation ist nicht gleich Kausalität. Man kann eine Beziehung zwischen zwei beliebigen Variablen anzeigen, aber das beweist nicht, dass eine der Variablen die andere verursacht. Einige Leute denken, wenn sie eine positive Beziehung in einer Regressionsanalyse sehen, dass dies ein deutliches Zeichen für Ursache und Wirkung ist. Wie bereits besprochen zeigt die Regressionsanalyse jedoch nur die Beziehung zwischen Variablen, nicht Ursache und Wirkung. Sie müssen aufpassen, dass Sie keine Annahmen über Beziehungen treffen, die im wirklichen Leben nicht existieren.
Die unabhängige Variable kann etwas sein, das Sie nicht kontrollieren können. Zum Beispiel wissen Sie, dass Regen das Verkaufsvolumen erhöht, aber Sie können das Wetter nicht kontrollieren. Spielt diese Variable überhaupt eine Rolle? Sie können viele interne Faktoren kontrollieren: Ihr Marketing, den Layout Ihres Ladens, das Verhalten Ihres Personals, Funktionen und Werbungen. Es ist keine gute Verkaufsstrategie, darauf zu warten, dass es regnet.
GI:GO (Müll rein: Müll raus)
Ein großer Teil der Rolle eines Data Scientist ist die Bereinigung von Daten. Dies liegt daran, dass Ihre Berechnungen nur so gut sind wie die bereitgestellten Daten. Wenn die Eingabeinformationen Müll sind, wird das auch das Ergebnis der Regressionsanalyse sein. Während Statistiken und Datenbereinigungen einige Unregelmäßigkeiten oder Unvollkommenheiten verwalten und kontrollieren können, müssen die Daten richtig sein, damit die sich daraus ergebenden Vorhersagen richtig sind.
Ignorieren wir mal den Fehlerterm. Wenn die Ergebnisse sagen, dass die Daten 60 Prozent des Ergebnisses erklären, können wichtige Informationen in den verbleibenden 40 Prozent vorhanden sein, die untersucht werden müssen. Sie müssen sich fragen: Ist diese Berechnung präzise genug, um vertrauenswürdig zu sein, oder gibt es hier einen größeren Faktor oder eine größere Variable? Oft kann es eine Überprüfung der Gesundheit sein, einen erfahrenen Manager oder eine erfahrene Person, die sich mit dem Unternehmen beschäftigt, um das Ergebnis zu untersuchen. Intuition und Geschäftsbereich-Kenntnisse sind wichtig, da sie sicherstellen, dass nichts übersehen oder fälschlicherweise zugeschrieben wird.