什么是回归分析?
回归分析是一种统计方法,用于显示两个或更多变量之间的关系。该方法检验因变量与自变量之间的关系,常用图形表示。通常情况下,自变量随因变量而变化,并且回归分析尝试回答哪些因素对该变化最重要。
我们知道我们需要做出数据驱动的决策,但是当实际上有数百万个或上万亿个数据点时,要从哪里开始呢?幸运的是,人工智能 (AI) 和机器学习 (ML) 可在几个小时内获取海量数据并对其进行解析,以使其更易于消化。然后,由分析师更仔细地检查这种关系。
回归分析的示例
在现实环境下,使用回归分析的情景可能如下所述。
零售企业需要预测下个月的销售数字(或因变量)。这很难知道,因为有很多与这个数字(自变量)有关的变量:天气、新型号版本、竞争对手在做什么,或者在外面的人行道上进行的维护工作。
许多人可能有自己的看法,例如来自客户的 Bob 或在销售部门工作了十年的 Rachel。但是,回归分析会对所有可测量的变量进行分类,并可以从逻辑上表明哪些变量将产生影响。该分析告诉您哪些因素将影响销售,以及变量如何相互作用。这有助于企业做出更好的数据驱动决策。
在这个零售业务示例中,因变量是销售,自变量是天气、竞争对手行为、人行道维护和新机型发布。
回归线在回归分析中的使用
要开始回归分析,数据科学家将收集所需的有关变量的所有数据。这可能包括之前相当一段时期的销售数字,以及同期的天气,包括降雨量。然后,对数据进行处理并在图表中显示。
在分析中,Y 轴始终包含因变量或者您正在尝试测试的内容。在这种情况下,就是销售数字。X 轴表示自变量,即降雨量(英寸数)。查看这个简单的虚构图表,您可以看到下雨时销售增长,呈正相关。但是,它并没有确切地告诉您在一定的降雨量下销售额是多少。这时就需要添加回归线。
这是一条线,显示了数据最佳拟合以及因变量和自变量之间的关系。在此示例中,您可以看到回归线与数据相交,直观地显示了在任何降雨量情况下会产生什么。
回归线使用公式来计算其预测值。Y = A + BX。Y 是因变量(销售额),X 为自变量(降雨量),B 是直线的斜率,A 是 Y 与直线的交点。
在数据科学中,复杂的程序在瞬间完成所有这些计算,以生成高度准确的数据驱动预测。

多重回归分析
虽然每个回归只能有一个因变量,但可以有多个自变量。这通常被称为多重回归分析。
这有助于统计人员识别变量之间的复杂关系。尽管结果会更复杂,但它们可以创造比简单的单变量回归分析更切合实际的结果。在零售示例中,这将显示天气、产品发布和竞争对手的广告对商店销售的影响。
什么是误差项?
回归分析不能预测因果关系,仅预测变量之间的关系。尽管人们可以说降雨量显然会影响销售数据,但没有证据表明情况确实如此。自变量永远不会成为因变量的完美预测器。
误差项是一个数字,显示了您可以信任公式的确定性。误差项越大,回归线的确定性就越小。误差项可能是 50%,表示该变量并不比机会好。或者,它可能是 85%,表示自变量很有可能影响因变量。
相关性并不等于因果关系 — 这可能不是降雨导致销售增长,它可能是另一个独立的变量。虽然这些变量似乎是相互关联的,但可能还有其他东西,只有通过进行多重分析,企业才能更清楚地了解所涉及的因素。在回归分析中,几乎不可能预测直接的因果关系。
这就是为什么回归分析通常包含许多变量,这样更有可能找到销售额增加或减少的实际原因。当然,包括多个自变量可能会产生一组混乱的结果,但是优秀的数据科学家和统计学家可以对数据进行分类以获得准确的结果。
另一件有帮助的事情是对业务的了解。商店可能会在降雨量较大的日子里销售更多产品,但是如果数据科学家与销售人员交谈,他们可能会发现有更多的人因雨天分发的免费咖啡而进店。如果是这样,销售增加的原因是雨,还是免费咖啡?
这意味着企业需要做一些市场调研。询问他们的客户为什么在特定日子购买了某些东西。可能是咖啡吸引了他们进店,下雨使他们逗留,然后他们看到了一直打算购买的产品。因此,销售增加的原因是雨水,但您也需要考虑免费咖啡的因素。一个因素少了另一个因素就不会产生同样的结果。
公司如何使用回归分析?
一般来说,回归分析用于:
- 尝试解释一个现象
- 预测未来的活动
- 优化制造和交付流程
- 解决错误
- 提供新的洞见
现象解释
这可能是为了找出原因(变量),为什么在本月的某一天销售飙升,为什么某个月的服务电话增加,或者为什么人们只在某些日子会延迟归还租车。
做出预测
如果回归分析显示人们在特定促销之后购买了更多产品,则企业可以准确决定要投放哪种广告或使用哪种促销。
回归分析中的预测可以涵盖各种情况和情景。例如,预测有多少人会看到广告牌可以帮助管理层决定投放广告是否是好主意;在哪种情景下,这个广告牌可以提供良好的投资回报?
保险公司和银行大量使用回归分析的预测。有多少抵押贷款持有人会按时还清贷款?有多少保单持有人发生车祸或家中被盗?这些预测允许进行风险评估,但也可以预测最佳费用和保费价格。
优化流程
在面包店里,饼干的保质期和烘培时烤箱的温度可能存在关系。这里优化的结果将是最长的保质期,同时保持饼干的耐嚼质量。呼叫中心可能需要了解投诉量和等待时间之间的关系,这样他们就可以培训员工/雇用更多的员工,在特定时间范围内回复电话,以获得最大的客户满意度。当然,通话量将全天发生变化,进一步使管理层能够就人员配置水平做出优化有依据的决策。
解决错误
门店经理想出了一个好主意;延长营业时间将增加销售额。毕竟,经理解释说,如果您每天多营业四个小时,就意味着销售额相应的增加。只是商店营业时间更长并不总是意味着利润的增加。可以进行回归分析,表明任何销售额的增长都可能无法弥补这些销售成本。这种定量分析为执行决策提供了支持。
新洞见
大多数企业都有海量数据,通常处于混乱状态。使用回归分析,这些数据可以提供有关过去可能未注意到的变量之间关系的信息。如果您使用销售点数据,则可能会发现一天中的繁忙时段、需求激增或之前没有注意到的高销量日期。
回归分析的挑战
相关性并不等于因果关系。您可以显示任意两个变量之间的关系,但这并不能证明其中一个变量导致了另一个变量。有些人认为,当他们在回归分析中看到正相关时,这是因果关系的明确信号。但是,正如我们之前讨论过的,回归分析只显示变量之间的关系,而不是因果关系。您必须小心,不要对现实生活中实际上不存在的关系作出假设。
自变量可能是您无法控制的事物。例如,您知道降雨增加了销售量,但您无法控制天气。这个变量重要吗?您可以控制许多内部因素:营销、门店布局、员工行为、特色和促销。等待下雨并不是一个好的销售策略。
GI:GO(垃圾输入:垃圾输出)
数据科学家的一大部分职责是清理数据。这是因为您的计算仅与提供的数据一样好。如果输入信息是垃圾信息,则回归分析的结果也将如此。虽然统计数据和数据清理可以管理和控制不规则或不完善的情况,但数据必须准确才能使所得的预测准确无误。
忽略误差项。如果结果显示数据解释了 60% 的结果,那么其余 40% 中可能有重要信息,必须进行检查。您必须自问:这个计算是否准确可以信任,还是在这里有更大的因素或变量?通常,让经验丰富的经理或与业务相关人员来看看结果可能是一次健全检查。直觉和商业领域知识很重要,因为它确保了没有遗漏或错误归因。