什么是对应分析?

对应分析(也称为倒数平均)是一种实用的数据科学可视化技术,可用于找出和显示类别之间的关系。它使用绘制数据的图形,直观地显示两个或多个数据点的结果。

对应分析示例

它是一种多变量统计工具,由赫尔曼·奥托·哈特利于 1935 年首次提出。哈特利撰写了一篇关于列联表的论文,为让-保罗·本泽克里在 1960 年代开发我们今天所知道的分析技术铺平了道路。自开发以来,其受欢迎程度和应用方式都在不断增长。

对应分析使用列联表(频率表)来显示变量如何分配类别。表中的数据与周围的数据进行了一系列转换,以生成关系数据。然后生成的数据绘制成图表,以直观地显示这些关系。

多重对应分析如何工作?

并非生活中的所有事物都能可以按从零到十进行精准衡量,简单的比例也无法涵盖所需的所有属性和类别。这就是对应分析的用武之地。从本质上讲,它将数据表转化为有价值的比较,从而可以得出推论。例如,一年的销售数据按部门细分。

此表的作用是计算预期值,即行平均值乘以列平均值,然后除以总值。然后从该方格中的原始数字中减去这个数字。这些 “残差” 数字显示行和列标签之间的关联或缺少关联。因此,这不是显示一个部门在某个月份赚了多少钱;而是显示该月与该部门的数字之间的关联。

图表上的数字清楚地显示了两类数字之间的关系;两点之间的距离表明了这种关系的强度。12 月会有更多人购买家居用品吗?月份和服装销售之间有什么关系吗?例如,如果一家商店在 7 月份有大量服装销售,那么预计服装与 7 月份销售额之间的实际距离将比其他月份更接近。水平和垂直维度解释了数据中方差的百分比。

但这过于简单化,因为对应分析显示了相对性。它没有显示哪个月的销售额最高;它显示 7 月份的服装销量仅飙升了 29%,而家居用品在 12 月飙升了 82%。该图显示了相对性。

如果组织只对销售额随时间的变化或哪个部门的销售量最感兴趣,那么原始数据和简单表格将是显示数据的更好方法。

试用 TIBCO Data Science - 免费试用
试用 TIBCO Data Science - 免费试用
借助 TIBCO Data Science,在整个组织内实现机器学习的民主化、协作和运营。

对应分析的用途

对于企业而言,对应分析对于能够轻松理解各种关系非常重要。例如,品牌映射是一种对应分析形式。品牌图用于在图表上放置业务属性和产品。如果产品在地图上紧密放置,则会显示图像或配置文件之间的相似性,这有助于制定策略。

对于市场营销,对应分析可以回答以下问题:

  • 该业务可以填补市场空白吗?
  • 品牌定位是否正确?
  • 企业能否在竞争中脱颖而出?
  • 竞争对手拥有哪些属性,或者,这家企业拥有哪些属性?

例如,想想一个非常简单的对应分析。横跨水平线的 X 变量是物有所值的,一端是负担得起的,另一端是高端的。垂直方向的 Y 变量是健康度,从非常健康到非常不健康。

快餐公司是使用各种数据点在图表上进行绘制。由于价格更实惠、比较不健康,麦当劳将被置于一个象限中,而自制的沙拉吧可能位于价格高但健康的象限中。将所有主要快餐公司放在图表上非常清楚地表明竞争激烈的地方或市场真正存在缺口的地方。

出于以下几个原因,对应分析在品牌认知方面很有价值。它摆脱了品牌规模的干扰;不会因公司规模过大而产生误导性影响。它还快速直观地概述了其他图形技术无法呈现的品牌属性关系。

对应分析的替代方法

对应分析的重点是比较类别。还有其他一些统计方法可以在一定程度上执行相同或相似的任务,包括卡方检验、主成分分析和因子分析,下面将更详细地探讨这些方法。

卡方检验

卡方检验以图形形式显示类别之间的关系。它们向您显示 “拟合优度” 统计量,用于衡量观测数据与预期分布的拟合程度。但是,每个关系需要有一个检验平方值,因此,一旦有一组变量要比较,它们就会变得很麻烦。

卡方检验还会检查行和列是否具有统计意义上的关联。虽然对应分析与卡方有关,但它不是检验理论和假设的推断方法。

主成分分析 (PCA) 和因子分析 (FA)

这些数据简化技术通常用于捕获一组变量之间的差异,但是它们专门用于连续变量。因子分析有序变量和二元变量的拟议扩展,但这假设变量是连续的,具有正态双变量分布。主成分分析使用变量的线性组合和潜在变量的因子分析。

试试 TIBCO Spotfire-免费试用
试试 TIBCO Spotfire-免费试用
借助市场上最完整的分析解决方案 TIBCO Spotfire,可以轻松发现您数据中的新见解。

对应分析的好处

对应分析的好处是:

显示类别之间的关系

信息的直观呈现方式意味着任何人只要稍加培训或解释就能轻松理解类别之间关系的强度。

客观,不做任何假设

由于不使用实际结果,而是使用与其他结果相关的数字进行计算,因此对应分析非常客观。没有基本的分布假设,因此它可以容纳所有类别变量。

存在多个变量

对应分析的明显优势在于它可以轻松简单地处理多个变量。这是其他统计方法无法做到的。

使事情变得更简单

与许多其他数据科学工具不同,对应分析需要包含多个变量和类别且难以处理的庞大表格,最后提供简单的可视化。

对应分析的局限性和挑战

容易误解

由于对应分析显示了相对关系,因此阅读图表的人经常会误解结果。由于两点之间的物理距离而没有相关强度的这种想法是源于不了解图形的错误思维。

解决方案:在大多数情况下,简单的销售表或条形图比对应分析更容易阅读和理解。

数据必须一致

只有当数据至少有两行和两列时,对应分析才有用。不能有缺失的数据,也不能有负数,并且所有数据必须具有相同的级别。

例如,许多表都有专门用于总计的列或行,即所有行或列的总和。但是,这意味着该表无法转换为对应分析图表,因为总和与表格其余部分的级别不同。

有些表格包括百分比和计数。这使数据变得无用,因此需要删除百分比。

解决方案:大多数人工智能软件会自动删除总和、百分比或非计数数据行。它可以将数据转换为相同一致的级别,也可以消除负数。但是,如果没有这些调整,分析将毫无用处。

对应分析受异常值的影响太大

当在多变量表中对数据进行平均化时,如果存在外围数据,则会使整个结果发生偏差。外围数据的影响是巨大的,可能导致整个分析被误导。

解决方案:除了消除所有异常值之外,没有明确的解决方案。除了确保数字正确之外,没有其他方法可以生成更准确的图形关系。但是,这些异常值会被数据点的平均值所调和,一些科学家表示,异常值是对应分析的优势,而不是弱点。

地图上坐标的缩放

绘制对应分析图表时,将创建行和列坐标。但是,这些关系的绘制方式可能会导致生成的关系无法准确显示。这可能会导致地图看起来很奇怪,数据聚类紧密地聚集在一起,而其他数据点则相距很远。

解决方案:如果坐标之间的差异较大,不更改地图上的比例就无法最小化点之间的距离。

缺乏统计学意义

与清楚显示统计显著性的卡方不同,对应分析只显示一种关系。没有提及或衡量这些关系是否具有任何意义,或者关系强度是否源于偶然性以外的任何其他因素。

对应分析仍然是普遍接受的方法

尽管对应分析有一系列固有的挑战,但它仍然是直观地显示两个或多个类别变量之间的关系和关联的普遍接受方式。

虽然对应分析主要用于科学工作,但在商业中也有一席之地。只要查看图的人知道对应分析不是在绘制原始数据点,而是变量之间的关系,那么对应分析就是一个有价值的工具。一旦了解了这些地图是如何创建的以及分析的是什么,对应分析就是一个强大的工具,它可以忽略品牌规模的影响,并为品牌内部和品牌之间的关系提供强大且易于理解的洞见。