什么是方差分析 (ANOVA)?

方差分析 ( ANOVA ) 是一种统计公式,用于比较不同组的均值(或平均值)之间的变异。许多场景都使用它来确定不同组別的方法之间是否存在任何差异。

方差分析(ANOVA)图

例如,为了研究不同糖尿病药物的有效性,科学家们进行了设计和实验,以探索药物类型与由此产生的血糖水平之间的关系。样本总体是一群人。我们将样本总体划分为多组,每组在试验期内获得特定药物。在试验期结束时,测量每个参与者的血糖水平。然后,为每组计算平均血糖水平。方差分析帮助比较这些组的方法,以查明它们在统计学上是不同还是相似。

方差分析的结果是 'F 统计'。该比率显示了组内方差与组间方差之间的差异,最终产生了一个数字,从而可以得出支持或拒绝原假设的结论。如果两组之间存在显著差异,则不支持零假设,而且F 比率将更大。

使用 Spotfire 进行可视化/Spotfire图表
使用 Spotfire 进行可视化/图表
查看此演示,了解 Spotfire 如何轻松地使数据的各个方面可视化。

方差分析术语

从属变量 :这是被理论化为受独立变量影响的测量项目。

独立变量 :这些是可能会对因变量产生影响的测量项目。

空假设(H0):这是组或方法之间没有区别的时候。根据方差分析检验的结果,空假设将被接受或拒绝。

另一种假设(H1):当理论上认为组和方法之间存在差异时。

因子和水平 :在方差分析术语中,独立变量称为影响因变量的因子。水平表示实验中使用的独立变量的不同值。

固定因子模型 :有些实验仅对因子使用一组离散水平。例如,固定因子测试将测试三种不同剂量的药物,而不看任何其他剂量。

随机因子模型 :此模型从独立变量的所有可能值中绘制一个随机水平值。

单因子方差分析和双因子方差分析有什么区别?

方差分析有两种类型。

单向方差分析

方差的单向分析也称为单因子方差分析或简单方差分析。顾名思义,单向方差分析适用于只有一个具有两级或更多级水平的独立变量(因子)的实验。例如,因变量可能是一年中的哪个月花园里花朵更多。这将有十二个级别。单向方差分析假设:

  • 独立性:一个观测值的因变量的值与任何其他观测值无关。
  • 常态:因变量的值是正态分布的
  • 差异:差异在不同的实验组中是可比较的。
  • 连续性:因变量(花朵数量)是连续的,可以按可细分的比例进行测量。

全因子方差分析(也称为双向方差分析)

当存在两个或更多独立变量时,将使用全因子方差分析。这些因子中的每一个都可以有多个级别。全因子方差分析只能在全因子实验中使用,其中有所有可能的因子及其水平的排列。这可能是一年中花园里有更多鲜花的月份,然后是日照时数。这种双向方差分析不仅测量独立和自变量,还测量两个因素是否相互影响。双向方差分析假设:

  • 连续性:与单向方差分析相同,因变量应该是连续的。
  • 独立性:每个样本都独立于其他样本,两者没有穿越。
  • 差异:不同组间的数据差异是相同的。
  • 常态:样本代表了正态群体。
  • 类别:独立变量应在不同的类别或组別中。

为什么方差分析会起作用?

有些人质疑方差分析的必要性;毕竟,只要看看平均值就可以评估。但是,方差分析不仅仅是一個比较的方法。

尽管各组的平均值似乎不同,但这可能是由于抽样误差,而不是独立变量对因变量的影响。如果是由于抽样错误,则组均值之间的差异毫无意义。方差分析有助于弄清楚平均值的差异在统计学上是否显著。

方差分析还间接揭示了独立变量是否影响因变量。例如,在上述血糖水平实验中,假设方差分析发现群均值在统计学上不显著,組均值之间的差异仅是由于采样误差造成的。这一结果推断药物的类型(独立变量)并不是影响血糖水平的重要因素。

方差分析的局限性

方差分析只能判断至少两组的均值之间是否存在显著差异,但它无法解释对那些方法不同。如果需要精细数据,部署进一步的后续统计过程将有助于找出那些组的平均值不同。通常情况下,方差分析与其他统计方法结合使用。

方差分析还假设数据集的分布均匀,因为它仅比较方法。如果数据未在正态曲线上分布并且存在异常值,那么方差分析不是解释数据的正确过程。

同样,方差分析假设各组的标准差是相同或相似的。如果标准差异很大,则测试的结论可能不准确。

如何在数据科学中使用方差分析?

机器学习面临的最大挑战之一是选择用于训练模型的最可靠和最有用的特性。方差分析有助于选择训练模型的最佳特性。它可以将输入变量的数量减少到最低,以降低模型的复杂性。它有助于确定独立变量是否影响目标变量。

数据科学 中使用方差分析的一个示例是电子垃圾邮件检测。由于电子邮件和电子邮件特性数量庞大,识别和拒绝所有垃圾邮件变得非常困难且耗费大量资源。部署方差分析和 f-检验来识别对于正确分别是否垃圾电子邮件是非常重要的功能。

方差分析帮助回答的问题

尽管方差分析涉及复杂的统计步骤,但对企业来说,使用 AI 是一种有益的技术。组织使用方差分析来决定在许多个可能的选项中选择那种替代方案。例如,方差分析可以帮助:

  • 比较三种不同肥料品牌下两种不同小麦品种的产量。
  • 比较各种社交媒体广告对特定产品销售的有效性。
  • 比较不同类型车辆中不同润滑油的有效性。
试试 TIBCO Spotfire
试试 TIBCO Spotfire-免费试用
借助市场上最完整的分析解决方案 TIBCO Spotfire,可以轻松发现您数据中的新见解。