什么是散布图?
散布图(scatter chart 或 scatter plot)是一种显示两个变量之间关系的图表。此类图是一种非常强大的图表类型,可让观看者立即了解关系或趋势,这在其他形式的图表几乎不可能看不到。
散布图的起源尚不清楚,但现代散布图基于 17 世纪创建的勒内·笛卡尔笛卡尔坐标系。散布图在科学领域经常使用,其中绝大多数用于科学期刊和出版物。
散布图被认为是统计图历史上用途最广泛、最有用的发明之一。尽管这种说法可能有些过,但散布图处理混乱的数据并使人能够理解数据的意义。它们不仅仅是用于可视化的工具,也是用于发现的工具。

散布图工作原理
与大多数其他图形或图表类型一样,散布图具有 X 轴和 Y 轴。X 是带有自变量的水平线,Y 是带有因变量的垂直线。在两个轴上设置均匀的刻度,然后在表示两个坐标交叉点的点处创建一个标记或点。
散布图中还有其他模式:
- 线性或非线性:可以通过数据点形成线性(直线)相关性,但非线性相关可能显示曲线关系。
- 弱或强:相关性越强,点之间的距离就越近。较弱的相关性就会有较多的数据点散开。
为了清楚地显示这些关系和趋势,许多散布图都使用趋势线。在图表上绘制一条趋势线,以强调趋势的方向和强度。
散布图的最佳实践
有一些简单的技巧可以确保散布图清晰地显示信息,并且不会对数据造成任何扭曲。
将 Y 轴从零开始。尽管在某些情况下,可能需要使用比例折叠才能更准确地呈现数据,但这种情况很少。在决定是否需要折叠时要非常小心。
保持比例均匀地分布在两个轴上。这意味着没有扭曲。
留意离群值。如果有理由怀疑它们不正确,或者如果它们没有为你的故事增值,那么明智的做法是将它们排除在外。
使用散布图时,通常包含的数据和变量最好要多,不要少。与其他图表类型不同,如果操作正确,散布图不会因更多数据造成混淆。考虑为点添加大小和颜色变化,以便以易于理解的方式包含更相关的数据。
使用趋势线。这些线可以手动添加,但通常由软件绘制。这些线条有助于使观看者非常清楚地了解趋势。但是,不要超过两条趋势线,因为这可能会造成混淆。
何时使用散布图
除了科学研究之外,有些时候企业可能会决定使用散布图:
- 识别异常情况
- 查看一个变量如何影响另一个变量
- 查看关联、模式、趋势或关系
房地产经纪人可能希望看到平方英尺与房屋价格之间的关系。尽管这个简单的散布图可能不会深入并显示所有变量,例如位置、装修新旧程度或花园的大小,但它仍然可以让买卖双方了解市场情况以及房屋可能适合的规模。
企业可能想看看销量和其他变量之间是否存在关系。天气会影响销售吗?一周中的哪一天?架子上的衣服数量怎么样?如果展示的衣服更多,会卖出更多衣服吗?
散布图的好处
散布图具有多种优点和优势。
清楚显示关系
这可以说是显示两个变量之间关系的最佳图表。它不仅显示了两个数据点之间的关系,还显示了整个数据集的模式或趋势。
易于创建和理解
也许是因为使用普遍,散布图可以立即被理解。它们的用途很容易识别,其数据也很容易消化。不仅如此,对于那些想要制作散布图的人来说,它们很容易创建。
可确定数据范围
在散布图上可以看到最大值和最小值,这对于了解整个数据集非常重要。但是,离群值可能会造成混乱。
散布图的缺点
可能数据太多
如果存在过度绘制的散布图,则很难看到模式,因为它只是巨大的一团斑点。因此,尽管图表需要足够的数据来形成可见的相关性或模式,但在某种程度上,数据过多并不见得有用。
解决方案
热图可能会有所帮助,它可以显示图表中点数最多的部分。可以考虑对不同的数据集进行颜色编码。
没有关系
有时候,数据可能看起来具有某种模式或关联。但是,尽管身高和养猫看起来可能有关,但它们可能没有关联。
解决方案
避免绘制不太可能相关的变量。
相关性不等于因果关系
永远记住,相关性并不等于因果关系。仅仅因为存在相关性,并不意味着一方是造成另一方发生的原因。虽然看起来高个子的人养更多猫,但身高不太可能是养猫的原因。更合乎逻辑的关系也可能受此种情况拖累,虽然天气寒冷时销售额可能会增加,但这是由于天气原因,还是商店向顾客提供免费热巧克力这样的第三个变量?
解决方案
不要根据相关性分配因果关系。

散布图的替代方案
鱼骨图
鱼骨图类似于鱼骨架。“头” 是问题所在,问题的原因从脊柱上开始,就像鱼骨一样。这是人们用来帮助确定因果关系的另一个主要图表。但是,此类图不会像散布图那样使用定量数据,而是更像是一次有机的头脑风暴会议。它们是非常不同的图表,专为不同的流程而设计。虽然可能存在因果关系,但这是此类图表相似性的极限。