離群值偵測是什麼?

離群值偵測是根據您要完成的任務,從分析中檢測,並盡量刪除或解除離群值或遠離平均值的數據點,以防止任何潛在偏差的過程。離群值偵測更是建立良好可靠數據的最重要過程之一。

離群值偵測圖

離群值是什麼?

離群值是超出其類型預期常態的極端數據點,這可能是整個數據集太過混雜所致,也可能是某個數據集的極端,想像一下標準鐘形曲線,離群值就是指最右側和最左側的數據。這些離群值可能代表欺詐或其他您試圖檢測的異常情況,但它們也可能是測量錯誤、實驗問題、或是單次無意義的新突變。離群值基本上是指一個或一組與預期樣本和模式有顯著差異的數據點。

離群值有兩種類型,多變數和單變數。單變數離群值是一個變數的極端數據點,多變數離群值則是一組異常數據點,包括至少兩個數據點。

點離群值:這些是與其他數據點相去甚遠的單個數據點。

情境離群值:這些被認為是「雜訊」,例如文章中的標點符號和逗號,或語音識別的背景雜音。

集體離群值:這些是非預期的數據子集,顯示與傳統資料之間有所偏差,這可能表示出現了新現象。

離群值為何出現?

離群值出現的主要原因有八個。

  1. 人工輸入錯誤數據
  2. 以代碼代替數值
  3. 抽樣錯誤、從錯誤位置抽取數據或混合了其他數據
  4. 非預期的變數分佈
  5. 應用程式或系統導致的測量誤差
  6. 抽取數據的實驗發生錯誤,或規劃錯誤
  7. 故意插入虛擬離群值,以測試檢測方法
  8. 數據中的自然偏差,並非真的錯誤,而是表示欺詐或其他異常情況

當收集和處理數據時,離群值可能來自多個來源,並以多種方式隱藏起來。離群值偵測的其中一個過程,就是從真實數據中識別這些以非預期方式運作的離群值。

如果離群值並非真的錯誤,而是一組非預期的實際數據,那麼它就被稱為新事物。數據科學家工作的一部分就是識別新事物,並將它們保留在數據集中,因為它們對於決策和確保結果準確度是很重要的。

離群值偵測指南
離群值偵測初學者指南
了解異常偵測的基礎知識,幫助您的企業勝人一籌。

使用者為何應該關心離群值?

數據品質是人工智能 (AI)、機器學習 (ML) 和數據科學都會面對的核心問題之一。隨著數據科學領域的發展,數據也在不斷膨脹增長,使得離群值或離群值比率隨之增加。這表示偏差數據將會阻礙模型規範、模糊參數估計、產生不正確的資訊。想一下數據科學的應用領域,以及錯誤數據所造成的的重大影響:

  • 投票違規
  • 臨床藥物試驗:想像一下,如果一種良好藥物得到的試驗結果不佳或測量不正確,可能會錯過一系列治療方案。
  • 詐騙偵測:這可能導致低風險的人群被拒絕信貸,反而貸款給高風險的人群。
  • 業務決策:如果企業被告知做出某種選擇,但他們使用的數據有問題,可能會導致巨額的行銷支出、投資回報幾乎為零,甚至失去寶貴的客戶。
  • 智慧城市:如果數據品質不佳或遭到駭客入侵和惡意更改,城市管理員將難以為城市中的任何事情(包括安裝紅綠燈、垃圾收集或警務人數)做出正確決策。

離群值偵測所使用的技術

數據科學家可以利用多種離群值識別技術,來判斷離群值是錯誤還是新事物。

數值離群值

這是數據在一維空間中,最簡單的非參數化技術。離群值的計算方法是從數據中找出三個四分位數,再將範圍設為中間組的上下限值,之後就可以刪除這個範圍以外的數據了。

Z 分數

這種參數化技術可指出某個數據點與樣本平均值的標準差,這個方法假設數據為高斯分佈(常態鐘形曲線),但是如果數據並非常態分佈,則可以透過縮放來轉換數據,將其調整成較正常的外觀,然後計算數據點的 Z 分數並放在鐘形曲線上,再使用捷思法(經驗法則)來判斷標準差閾值截止點。之後,就可以將超出標準差的數據點歸類為離群值,並從方程式中刪除。Z 分數是一種簡單、強大的刪除離群值的方法,但它僅適用於中至小型數據集,不能用於非參數化數據。

DBSCAN

Density Based Spatial Clustering of Applications with Noise (DBSCAN )基本上是以圖形來顯示數據的密度。DBSCAN 使用複雜的計算,將數據分群成一個個相關點的群組,再將這些群組數據分成核心點、邊界點和離群值。核心點是主要的數據組,邊界點仍有足夠的密度,被認為是可用數據組的一部分,離群點則完全不屬於任何叢集,可以從數據中忽略。DBSCAN 在三維或更多維度上的應用都很不錯,非常易學易用,很容易從視覺上區分。然而,特徵空間中的數值需要加以調整,如何選擇最佳參數可能變得很棘手,並且每次需要分析新數據時,都必須重新校準模型。

孤立森林

這種方法對於發現新事物和離群值很有效,它使用隨機選擇的特徵和一個隨機分裂數值來建立二元決策樹,然後形成一個樹木數量足敷應用的森林,再為每個節點或數據點提供 0 到 1 的分數,0 代表正常,1 代表較離群,從而可以計算出離群值分數。孤立森林並不需要調整,即使您無法假設數值的分佈形態,它們仍是有效的數據。因為它的參數很少,所以很耐用且易於最佳化。但是它的數據視覺化就變得很複雜,可能是一個漫長而昂貴的過程。

離群值偵測的挑戰

沒有任何數學計算過程或數據科學策略可以完全避免錯誤或問題,因此必須妥善地管理特別大的數據集,以便正確刪除離群值,同時保持有效數據和新事物的完整性,這當中的挑戰包括:

  1. 當雜訊、離群值和有效數據非常相似時,很難從好的數據中挑出有缺陷的數據。
  2. 離群值的行為可能改變其特徵,這表示之前正確識別離群值的演算法和模型可能不再有用。
  3. 數據可能會被過度修剪,或者可能會刪除應包含在數據集中的真正離群值。
  4. 惡意數據攻擊可能會更改數據,以混淆結果。

所有這些挑戰都能以極好的演算法做再三評估來解決,持續確認數據是準確的。