什么是直方图?

直方图是一种用于表示一个变量的几个数据点的频率分布的图形。直方图通常会将数据分类为各种 “条柱” 或 “范围组”,并计算属于每个条柱的数据点的数量。

直方图示例

直方图是由英国数学家卡尔·皮尔森发明的。直方图因其可以表示样本数据的分布,在统计中特别有用。

下面的直方图示例表示学生的考试分数。学生的分数分为几个范围。每个条形的高度表示在该范围内获得分数的学生人数。

学生分数直方图示例

直方图演示
使用 Spotfire 创建可视化/图表
查看此演示,了解 Spotfire 如何轻松地使数据的各个方面可视化。

什么时候应该使用直方图?

当数据具有单个自变量时

当数据依赖于像客户年龄这样的单个变量时,应使用直方图。直方图可帮助查看者了解因变量的分布。例如,基于年龄的客户银行存款余额。

当数据具有连续范围时

当样本数据表示学生考试成绩等连续范围时,直方图很有用。当数据在其范围内存在显著差距时,直方图可能不适合。

当需要比较两个数据集时

直方图是比较两个数据集的频率分布的绝佳工具。例如,考虑不同年龄组的顾客的购买次数。直方图可用于比较多个商店中的这些数据。

直方图的主要用途是什么?

分析频率分布

直方图对于分析样本数据的频率分布特别有用。在统计实验中,频率分布是属于特定类别(或直方图术语中的 “条柱”)的观测值数。

在下面的示例中,直方图显示了不同年龄组的顾客的购买情况。直方图清楚地显示了与购买相比的年龄组范围。根据直方图,50-70 岁年龄组的顾客的购买次数最多。

客户年龄直方图示例

分析数据对称性

使用直方图,查看者可以分析频率分布的性质。有些分布可能是对称的,这意味着分布的均值恰好在数据集的中间值附近。其他一些分布可能不是对称的,而是向左或向右偏斜。这表明数据的平均值在数据范围的开始或结尾处。有些数据将均匀分布,其中每个条柱具有几乎相同数量的数据点。下图显示了一些样本直方图分布。

直方图分布示例

分析随时间推移的变化

直方图可以分析过程结果如何随时间变化。例如,工厂轮班生产的缺陷品数量可能会随着时间的推移而变化。组织可以使用这些数据来确定缺陷率高的时间,并寻求预防措施。

使用直方图的最佳实践是什么?

使用零基线

使用直方图时,基值必须始终为零。由于每个条形的高度代表范围内的样本数,因此使用非零基数会使频率分布的可视化出现偏差。

选择正确数量的条柱

创建直方图时的一个主要决定是条柱的数量。通常,工具将使用不同的算法来定义条柱的数量。条柱过多会导致数据分布看起来很粗糙。也可以表示不显著的值(噪声),这使得分析变得困难。如果条柱太少,则直方图将没有足够的细节来从数据中进行推断。在制作直方图时,需要对条柱尺寸进行一定程度的反复试验。

使用相等的条柱尺寸

虽然大多数直方图都有相同大小的条柱,但这并不是一个严格的要求。在包含稀疏数据的数据集中,合并几个条柱似乎很方便,这会导致条柱大小不相同。这使得直方图的解释变得困难。直方图的总面积代表整个数据,每个条形代表其各个部分。当条柱大小相等时,只要查看条形的高度就足以确定数据点的频率。当条柱大小变得不相等时,需要查看每个条形的面积而不是高度。通常,解释高度比面积更容易,因此使用相等的条柱尺寸是易于解释的好做法。

何时不应使用直方图?

当数据为非数字时

直方图最适用于具有连续数据范围的数值变量的图形表示。如果数据由性别或位置等非数字值组成,则直方图显然是不合适的。在这种情况下,可以使用饼图或条形图。

当样本数量较小时

当样本中有足够的数据点时,直方图效果很好。当数据点太少时,直方图无法直观显示数据的分布。根据经验,当有二十个或更多个观测值时,直方图很有用。当数据点较少时,最好使用标准概率图。

当数据中存在较大间隙时

当样本数据连续时,直方图最适合。直方图表示属于不同条柱的数据点,因此当数据丢失或未定义时,图形效率低下。

直方图有哪些用途?

虽然饼图和条形图是数据可视化工具,但直方图主要用于统计数据。统计人员使用直方图来更好地理解样本数据。直方图通常用于探索数据的各种统计属性。

可视化变异性

假设有两个数据集的平均值相似。从这些信息来看,数据集看起来很相似。当我们在直方图中绘制这些数据时,数据的变异性变得显而易见。主要数据点位于左侧直方图的 40-70 之间,而在右侧,它们几乎平均分布在 20-100 之间。尽管均值相同,但直方图可以轻松地将数据方差可视化。

数据方差直方图示例

识别离群值

在统计数据中,离群值是指与其他数据点相距异常的数据点。直方图在可视化这些离群值时非常有用。它们显示为一个孤立的条形。离群值是由于数据异常或由于某些数据输入错误而产生的。

识别多模态分布

在统计学中,多模态分布是具有多个峰值的分布。例如,下面的直方图有两个不同的峰值。通过计算分布的均值和方差,可能不容易识别数据集的多模态特征。直方图有助于识别此类多模态分布。

评估概率分布函数的拟合度

统计学家经常使用直方图来评估概率分布函数的拟合度。直方图是对实际样本数据的一种表示。拟合分布线试图识别可以正确预测样本数据分布的概率分布函数。统计学家经常将概率分布函数叠加在直方图上以评估其拟合度。

直方图拟合分布线示例

直方图软件
试试 TIBCO Spotfire-免费试用
借助市场上最完整的分析解决方案 TIBCO Spotfire,可以轻松发现您数据中的新见解。

其他与直方图相关的图表有哪些?

条形图

当数据为非数字或离散数据时,条形图比直方图更适合。例如,条形图对于绘制不同客户类别(访客、新用户和现有用户)购买情况非常有用,因为这些类别是离散的且非数字的。相比之下,当我们根据客户年龄(连续和数字)绘制购买量时,直方图很有用。

线拟合

当存在许多偏差最小的数据点时,直方图可能无法直观显示数据的性质。在这种情况下,线拟合更适合于可视化数据的性质。

散点图

当只有一个自变量时,直方图和线拟合非常有用。当存在两个自变量时,散点图是更好的选择。在散点图中,X 轴表示一个自变量,Y 轴表示第二个变量。如果有三个自变量,则可以使用三维散点图。