什么是逻辑回归?

逻辑回归一种统计模型,用于确定事件发生的概率。它显示特征之间的关系,然后计算某种结果的概率。

逻辑回归图

逻辑回归用于机器学习 (ML) 来帮助创建准确的预测。它与线性回归类似,只是目标变量不是图形结果,而是二进制的,值为 1 或 0。

有两种类型的可衡量对象:解释性变量/特征(正在测量的项目)和响应变量/目标二进制变量(也就是结果)。

例如,当试图预测学生是否通过或未通过测试时,学习的时间就是特性,响应变量将有两个值:通过或未通过。

逻辑回归有三种基本类型:

  1. 二元逻辑回归:这里分类响应只有两种可能的结果。正如上面的例子所示 — 学生通过或未通过。
  2. 多项式逻辑回归:这里响应变量可以包含三个或更多变量,这些变量不会按任何顺序排列。一个例子是预测餐厅的食客是否喜欢某种食物 — 素食,肉食或纯素食。
  3. 序数逻辑回归:类似多项式回归,可以有三个或更多变量。但是,有一定的测量顺序。一个例子就是按 1 至 5 的等级对酒店进行评级。

用于逻辑回归的假设

在处理逻辑回归时,有一些假设。

  • 在二元逻辑回归中,响应变量必须是二进制变量。结果要么是一回事,要么是另一回事。
  • 期望的结果应以响应变量的因子水平 1 表示,不希望的用 0 表示。
  • 只能包括有意义的变量。
  • 独立变量基本上必须彼此独立。应该很少甚至没有多重共线性。
  • 对数赔率和独立变量必须线性相关。
  • 逻辑回归必须仅适用于大量样本数量。
你是哪个数据科学超级英雄?
你是哪个数据科学超级英雄?
下载此电子书,了解作为数据科学家让自己脱颖而出所需的六大技能吧。

逻辑回归的应用

有几个领域和方法可以使用逻辑回归,其中包括几乎所有的医疗和社会科学领域。

医疗

例如,创伤和伤害严重程度评分 (TRISS)。这在世界各地被用来预测受伤患者的死亡率。该模型是在应用逻辑回归的情况下开发的。它使用修订后的创伤评分、受伤严重程度评分和患者年龄等变量来预测健康结果。这是一种甚至可以用来预测一个人遭受某种疾病可能性的技术。例如,糖尿病和心脏病等疾病可以根据年龄、性别、体重和遗传因素等变量来预测。

政治

逻辑回归也可以用来尝试预测选举。民主党人、共和党人或独立领导人会在美国执政吗?这些预测是根据年龄、性别、居住地点、社会地位和以前的投票模式(变量)等变量进行的,以生成投票预测(响应变量)。

产品测试

逻辑回归可用于工程设计,以预测正在测试的系统或原型产品的成败。

营销

逻辑回归可用于预测客户询问转为销售的可能性、开始或终止订阅的可能性,甚至是客户对新产品线的潜在兴趣。

金融业

在金融业使用的一个例子是信用卡公司,该公司使用它来预测客户违约付款的可能性。构建的模型可能是为了向客户发放或者不发放信用卡。该模型可以说某个客户是 “默认” 还是 “非默认”。在银行业,这被称为 “默认倾向模型”。

电商

同样,电子商务公司大量投资于跨媒体的广告和促销活动。他们希望了解哪个广告活动最有效,哪个选项最有可能从潜在目标受众那里获得回应。模型集会将客户归类为 “响应者” 或 “无响应者”。这种模型被称为响应倾向建模。

借助来自逻辑回归产出的洞见,公司能够优化战略,实现业务目标,同时减少费用和损失。逻辑回归有助于最大限度地提高营销活动的投资回报率 (ROI),从长远来看,这对公司的利润有利。

逻辑回归的优缺点

优点

逻辑回归因效率极高且不需要大量的计算资源已被被广泛使用。它可以很容易地解释,不需要对输入特征进行缩放。规范化很简单,它提供的输出是经过精心校准的预测概率。

就像在线性回归中一样,当忽略与输出变量无关的属性和相关属性时,逻辑回归往往会更有效。因此,特征构造在逻辑和线性回归的效率方面可以发挥重要作用。

逻辑回归也很容易实现,训练起来简单,这也其成为帮助衡量其他复杂算法性能的良好基准的原因。

缺点

逻辑回归不能用于解决非线性问题,而且遗憾的是,当前许多系统都是非线性的。此外,逻辑回归并不是目前最强大的算法。有几种替代方案可以生成更好、更复杂的预测。

逻辑回归还在很大程度上依赖于数据显示。这意味着,除非您已经确定了所有必要的独立变量,否则输出是没有价值的。由于结果是离散的,逻辑回归只能用于预测绝对结果。最后,它是一种容易出现过度拟合的算法。