什麼是直方圖?

直方圖用於表示一個變數的幾個資料點的頻率分佈,直方圖通常將資料分類為各種「bin」或「範圍組」,然後計算每個 bin 中有多少個資料點。

直方圖範例

直方圖由英國數學家 Karl Pearson 發明,在統計方面特別有用,因為它們可以表示樣本資料的分佈。

下面的直方圖範例代表學生的考試成績,學生分數分為幾個範圍,每個長條的高度代表分數落在該範圍內的學生人數。

學生分數直方圖範例

直方圖展示
利用 Spotfire 建立視覺化呈現/圖表
查看此演示,以了解 Spotfire 在進行可視化數據的各個方面有多麼容易。

什麼時候應該使用直方圖?

當資料只有一個獨立變數時

當資料與單一變數(如客戶年齡)息息相關時,就應該使用直方圖,直方圖有助於查看者瞭解相依變數的分佈。例如,不同年齡層客戶的銀行餘額。

當資料具有連續範圍時

當樣本資料代表一個連續範圍(如學生的考試成績)時,直方圖很有用。如果資料範圍有明顯斷層,就可能不適合使用直方圖。

需要比較兩個資料集時

直方圖是比較兩個資料集的頻率分佈的絕佳工具。例如,考慮不同年齡層客戶的購買次數,直方圖可用於跨多個商店比較此資料。

直方圖的主要用途是什麼?

分析頻率分佈

直方圖對於分析樣本資料的頻率分佈特別有用。在統計實驗中,頻率分佈是歸屬到特定類別(或直方圖術語中的「bin」)的觀察數量。

在下方範例中,直方圖顯示不同年齡層客戶的購買數量,直方圖清楚地顯示了年齡範圍與購買數量的比較。根據直方圖,50-70 歲年齡層的客戶購買次數最多。

客戶年齡直方圖範例

分析資料是否對稱

使用直方圖,查看者可以分析頻率分佈的性質。有些分佈可能是對稱的,這意味著此分佈的平均值恰好落在資料集的中間值附近。其他一些分佈可能不是對稱的,而是偏左或偏右,這表示資料的平均值比較靠近資料範圍的開頭或結尾。有些資料具有均勻分佈,其中每個 bin 擁有幾乎相同數量的資料點。下圖顯示一些直方圖分佈範例。

直方圖分佈範例

分析隨時間的變化

直方圖可以分析處理結果如何隨著時間變化。例如,工廠輪班生產的缺陷品數量可能會隨著時間而變化,組織可以使用這些資料來找出不良率高的時間並採取預防措施。

使用直方圖的最佳實踐是什麼?

使用零基線

使用直方圖時,基值必須始終為零。由於每個長條的高度代表一個範圍內的樣本數量,因此使用非零基數會扭曲頻率分佈的視覺化呈現。

選擇正確數量的 bin

建立直方圖時的一個主要決定因素是 bin 的數量。通常,工具會提供不同的演算法來定義 bin 數量。bin 太多會導致資料分佈看起來很粗糙,也可能凸顯不重要的值(噪音),而使分析變得困難。但如果 bin 太少,則直方圖將沒有足夠的細節可從資料中進行推斷。因此在製作直方圖時,需要對 bin 大小進行一定程度的反覆試驗。

使用相等的 bin 大小

雖然大多數直方圖都使用大小相同的 bin,但這並不是嚴格的要求。在資料稀疏的資料集中,組合幾個 bin 似乎是很方便的做法,這將導致 bin 大小不等,使直方圖的解讀變得困難。直方圖的總面積代表整個資料,每個長條代表其中一部分。如果 bin 大小相同,則只需查看長條的高度即可識別資料點的頻率。當 bin 大小變得不相等時,則需要查看每個長條的面積而非高度。通常,高度會比面積更容易解讀,因此使用相等的 bin 大小是一個讓解讀變容易的好習慣。

什麼時候不應該使用直方圖?

當資料為非數值時

直方圖最適合用圖形表示具有連續資料範圍的數值變數。如果資料是由性別或位置等非數值所組成,則直方圖顯然就不合用。在這種情況下,可以使用圓餅圖或長條圖。

當樣本量較小時

當樣本具有足夠的資料點時,直方圖的效果很好。如果資料點太少,則直方圖會難以視覺化呈現資料分佈。根據經驗,當有 20 個或更多的觀察值時,直方圖很好用。當資料點較少時,最好使用標準機率圖。

當資料中存在較大斷層時

如果樣本資料是連續的,直方圖會最適合。直方圖用於呈現歸屬到不同 bin 的資料點,因此當缺少或未定義資料時,這個圖表就不夠用了。

直方圖有哪些應用?

圓餅圖和長條圖都是資料視覺化工具,但直方圖主要用於統計。統計學家使用直方圖以更好地理解樣本資料,所以直方圖通常用於探索資料的各種統計特性。

視覺化呈現變異性

假設有兩個資料集的平均值很相近,從這個資訊來看,兩個資料集似乎彼此相似。如果我們在直方圖中繪製這些資料,則資料的變異性就變得明顯,左側直方圖的主要資料點位於 40-70 之間,而在右側,它們幾乎均勻分佈在 20-100 之間。即使平均值相同,直方圖也很容易看出資料的差異。

資料差異直方圖範例

識別離群值

在統計學中,離群值是與其他資料點距離異常的資料點。直方圖可以視覺化呈現這些離群值,它們將顯示為一個孤立的長條。離群值通常是由於資料異常,或由於某些資料輸入錯誤而產生。

識別多峰分佈

在統計學中,多峰分佈是指分佈具有多個高峰。例如,下面的直方圖有兩個不同的峰值。透過計算此分佈的平均值和變異數,可能並不容易識別資料集的多峰特徵,但直方圖有助於識別這種多峰分佈。

評估機率分佈函數的擬合度

統計學家經常使用直方圖來評估機率分佈函數的擬合度。直方圖是實際樣本資料的一種表示法,擬合分佈線會試圖識別出能夠正確預測樣本資料分佈的機率分佈函數。統計學家經常將機率分佈函數疊加在直方圖上方以評估它們的擬合度。

直方圖擬合分佈線範例

直方圖軟體
嘗試 TIBCO Spotfire - 免費試用
借助 TIBCO Spotfire(市場上最完整的分析解決方案),可以輕鬆地從數據中發現新見解。

與直方圖相關的其他圖表有哪些?

長條圖

當資料是非數值或離散資料時,長條圖比直方圖更適合。例如,長條圖可用於繪製不同客戶類別(訪客、新使用者、現有使用者)的購買數量,因為這些類別是離散的且非數值。相反地,如果我們要根據客戶年齡(連續且是數值)來繪製購買情況,則直方圖就很有用。

線條擬合

當有許多資料點都出現小幅偏差時,直方圖可能無法視覺化呈現資料的性質。在這種情況下,線條擬合更適合表示資料的性質。

散佈圖

當只有一個獨立變數時,直方圖和線條擬合都很有用。但如果有兩個獨立變數,則散佈圖會是更好的選擇。在散佈圖中,X 軸代表一個獨立變數,Y 軸代表第二個變數。如果存在三個獨立變數,就可以使用 3D 散佈圖。