什麼是異常偵測?

異常是指預期的資料集模式發生了意外變化或偏差,異常偵測則用於警告異常行為,因為異常代表正在發生的事情與預期不同。

異常偵測圖

異常不一定都是壞的,但公司應該先瞭解模式中發生的任何背離情況,再來評估是否需要採取行動。

企業在日常營運中會產生數百萬個資料點,但其中很多有價值的資訊都沒有得到利用,甚至被遺忘。這就是異常偵測在商業世界中越來越重要的原因:優化營運並簡化流程,實現更可預測的未來。

異常和異常值有什麼區別?

許多業務使用者經常混用異常 (anomaly) 和異常值 (outlier) 這兩個術語,但它們具有重大差異,異常與異常值雖然相似但其實不同。

假設所有資料都是由一組程序所產生,異常值是既定資料集中出現機率很低的點。它們是觀察點,偏離了正常群體的其他觀察點。但是,異常值並不一定代表行為異常,或代表不同程序所產生的行為。異常值仍是由相同的程序產生,只是發生機率較低。

相反地,異常是由不同程序產生的模式。這些不同的流程可以提醒企業某些事情發生了變化,可能需要採取進一步措施,例如遇到設備故障或疲勞等問題。

有時需要運用判斷力和客觀專業知識,來確定某個特定資料點究竟屬於哪種類別。

異常偵測的價值是什麼?

每天,企業都會產生大量資料。如果利用得當,這些資料可以幫助企業更快做出更好的決策,其中一種方法是透過異常偵測。偵測異常可以阻止一個小問題變成普遍又耗時的大問題,而藉助最新的機器學習方法,公司可以追蹤趨勢、識別機會和威脅,並透過異常偵測獲得競爭優勢。

異常偵測電子書
離群值偵測初學者指南
了解異常偵測的基礎知識,幫助您的企業勝人一籌。

它如何運作?

有許多技術功能和解決方案可用於即時偵測異常,在某些情況下,甚至可預測是否會發生異常。

視覺發現

資料或業務分析師可以構建資料視覺化工具來發現意外行為,這通常需要具備業務相關知識和創造性思維,才能運用正確的資料視覺化工具來尋找答案。以主要成分、TSNE、UMAP 等製作而成的進階視覺化工具,可使用多份低維度地圖來取得高維度資料。

監督型學習

監督型學習由具備特定行業商業知識的人,將一組資料點標記為正常或異常。然後,分析師使用這些標記資料來構建機器學習模型,以預測未標記的新資料是否會出現異常。

非監管型學習

未標記的資料用於構建非監管型機器學習模型,以便預測新的資料,由於該模型是專為模擬正常資料而量身訂製,因此很容易凸顯出少量的異常資料點。

時間序列技術

異常是經由時間序列分析而偵測到的,此模型會捕捉時間序列資料中的趨勢、季節性和事件層級。當新資料與模型的差異太大時,就表示發生異常或模型失敗。

自動編碼器和機器學習

最新的機器學習技術和自動編碼器可以即時偵測和回應異常情況,神經網路則可從交易和感應器資料饋送中預測哪裡會出現異常。

分群

分析師可以嘗試將每個資料點分類到許多預先定義或已發現的叢集之一,未能歸入已知叢集的情形即可被視為異常。

目前如何使用異常偵測?

幾乎在每個行業中,都有許多重要的異常偵測業務使用案利,最常見的一些例子包括保險、金融服務、醫療保健和製造業:

  • 金融犯罪
  • 設備感應器
  • 醫療保健欺詐
  • 製造缺陷

打擊金融犯罪

在金融領域,每分鐘執行的交易價值高達數兆美元,因此即時識別可疑交易可為組織提供極大的競爭優勢。為了識別異常交易,客戶、供應商和先進金融公司越來越多地採用大數據分析,包括機器學習技術,來偵測不斷產生的海量資料中的異常情況。

此外,先進的金融公司可以透過異常偵測來控制成本,從而消除調查結果誤報並減少欺詐損失,以節省更多成本。

監控設備感應器

許多類型的設備、車輛和機器現在都嵌入了感應器,例如,智慧型手機就有很多感應器,包括環境光線和背照式感應器、加速度計、數位羅盤、陀螺儀、距離感應器、NFC、GPS 和指紋感應器等。監控感應器的輸出對於偵測和防止故障和中斷至關重要。

資料導向的製造商可以透過連接物聯網 (IoT) 設備來即時追蹤所有的設備、車輛和機器。他們可以使用異常偵測解決方案來監控所有輸出,以防止代價高昂的故障和中斷事件。此外,他們也可以使用自動編碼器等非監管型學習演算法,來識別可能代表即將出現問題的異常資料模式。

醫療保健理賠欺詐

保險欺詐在醫療保健行業中很常見,受騙者已經損失了數十億美元。對保險公司而言,識別欺詐性索賠活動,確保不付款給欺詐帳戶,是至關重要的工作。在過去幾年裡,許多公司在大數據分析方面投入巨資,建立監督型、非監管型和半監督模型來偵測保險欺詐。

藉助大數據分析和異常偵測功能,醫療保健和保險供應商可以構建監督型、非監管型和半監督模型,來降低每筆醫療保健理賠申請中存在欺詐的可能性。

製造缺陷

一些公司使用自動編碼器模型來持續監控製造組件的感應器資料,這些模型會對新資料進行評分,讓技術人員可以快速偵測並解決任何發生的缺陷(異常)。

手動檢查缺陷和異常會浪費很多時間並增加製造商的成本,這就是許多先進製造商開始使用自動編碼器的原因。公司可以使用製造組件的感應器資料,透過自動編碼器模型來即時監控和偵測任何的異常事件。

更多使用案例

除了這些常見例子之外,還有許多其他行業也使用異常偵測:

  • 軍事監視:圖像辨識
  • 網路安全:入侵偵測
  • 安全系統:故障偵測
  • 駭客防護:異常網路流量偵測
  • 天氣:熱浪或寒流預報
  • MRI成像:發現阿茲海默症或惡性腫瘤
  • 太空飛行器感應器:故障組件識別
異常偵測指南
白皮書:異常偵測終極指南
使用此綜合指南可以更好地瞭解如何運用視覺發現、監督型機器學習 (ML) 模型、自動編碼器等非監管型機器學習。

異常偵測的未來如何?

今天的資料量正在不斷增長,企業收集的資訊比以往任何時候都多,而根據預測計算,未來的資料增長速度只會更快不會變慢。擁有如此豐富的資料,企業必須能夠追蹤模式,更重要的是,偵測異常情況,以避免設備故障、欺詐和產品缺陷等重大業務失敗。

偵測資料模式中的異常情況,可以幫助企業找出可行性更高的方案,以便在數位時代中提高效率和競爭力。藉助資料科學軟體,組織可以使用機器學習模型來指定預期行為、監控新資料、發現意外行為,進而獲得更好的業務成果。

異常偵測接下來會將我們帶向何方?隨著機器學習和人工智慧的使用越來越多,偵測機器或感應器異常將不再是唯一的主要使用案例。根據專家預測,異常偵測將在視訊監控、醫療保健診斷等領域,越來越佔據重要地位。