什麼是資料探勘?
資料探勘是對資料進行探索和分析,從中發現有意義的模式或規律,它被歸類為資料科學領域內的一門學科。資料探勘技術主要用於製作機器學習 (ML) 模型來支持人工智慧 (AI) 應用,人工智慧中的資料探勘例子包括搜尋引擎演算法和推薦系統。
資料探勘的工作原理
資料探勘有助於回答那些基本查詢和報告技術所無法處理的問題。資料探勘採用幾個重要識別技術進行標記,這些識別技術將在下文進行更詳細的探討:
模式的自動識別
資料探勘模型是資料探勘的基礎,自動識別則指執行這些模型的方式。資料模型使用已建立的演算法來挖掘構建它們的資料,但是,大多數模型都可以廣義應用於新資料,評分便是將任何模型應用於新資料並評估其擬合適當性的過程。
預測最可能的結果
幾種資料探勘形式都具有預測特性,其中一個例子是根據教育程度和人口統計來預測個人收入的模型,每種預測都用某個機率來表示實現該預測的可能性。
在其他情況下,預測資料探勘可能會發現一些規律,這些規律是指能夠暗示出現特定結果的某些條件。一個規律的例子是,如果某人擁有大學學歷並住在城鎮的特定區域,則他們的收入可能高於該地區的平均水準。這樣的規則伴隨著相關的佐證資料,比如一個地區的人口百分比滿足這個規律。
將焦點放在自然發生的分組上
還有一些資料探勘形式可以顯示大量資料中的自然分組。例如某個特定模型可能專注於特定收入範圍內的人群,而這些群體在每年假期中駕駛和出租汽車方面擁有良好的記錄,則這些資訊對於租賃機構和保險公司就很有用。
資料探勘的類型
資料探勘有幾種類型,包括以下:
線性回歸
藉助線性迴歸,企業可以利用一或多個獨立輸入資料來預測連續變數的值。這種方法通常用於房地產業務,根據面積、建設年份、郵遞區號所在地點等變數來預測房屋價值。
邏輯迴歸
此迴歸技術的變體使用一或多個獨立輸入資料來預測分類變數的機率。您會看到銀行系統使用它,根據信用評分、收入、性別、年齡和許多其他個人因素,來預測貸款申請人拖欠還款的可能性。
時間序列
這些模型利用時間做為基本獨立變數的預測工具,例如零售商經常使用這種模型來預測產品需求,以便相應地調整他們的庫存量。
分類/迴歸樹
分類或迴歸樹是預測建模技術,可以預測分類變數和連續目標變數的值。該模型以此預測資料為基礎建立二元規則集,以便對新觀察對象中相似的最大比例目標變數進行分類和分組。使用這些規則,新建立的群組將不斷成為新觀察值的預測值。
神經網路
神經網路旨在以類似於大腦運作的方式工作,就像刺激導致大腦引發某個動作的神經元放電一樣,神經網路使用具有閾值要求的輸入資料。這些輸入資料將根據其大小來判斷「觸發」或「不觸發」節點,而這些觸發或不觸發的訊號會與可能隱藏在網路多個層級中的其他此類回應相結合。此過程將不斷重複,直到產生輸出為止。這項技術的好處是能做到近乎即時的輸出,廣泛應用於自動駕駛汽車以提高效率。
K-近鄰
這是一種依賴過去的觀察結果來對新觀察內容進行分類的技術。與其他模型不同,K-近鄰是由資料驅動的,它沒有對資料做出基本假設,也沒有任何複雜的過程用於解釋資料輸入,而是透過識別最接近的 K 值鄰居並指派多數值,來對新觀測值進行分類。
非監管型學習
這個方法藉由檢查非監管型任務的資料來觀察潛在模式,一些推薦系統使用非監管型學習來追蹤一般使用者模式並為他們提供個人化推薦,以實現更好的客戶互動。非監管型資料探勘中使用的一些分析模型包括:
- 分群
- 關聯分析
- 主要組成分析
- 實施的監督和非監督方法

為什麼資料探勘很重要?在哪裡使用?
每年產生的資料量非常龐大,更有甚者,本已可觀的數字每兩年就翻一倍。數位世界由大約 90% 的非結構化資料組成,但這並不意味著資訊量越大,知識就越好,而資料探勘旨在改變這一點,藉助它,企業能夠:
- 以有組織的方式篩選大量的重複資訊。
- 提取相關資訊並充分利用,以獲得更好的結果。
- 加快做出明智的決策。
您會發現資料探勘是各行各業分析工作的核心,以下看看一些行業是如何使用它的。
通信業
無論是市場行銷還是其他工作部門,通信業的競爭都非常激烈,需要在很多面向與客戶打交道。使用資料探勘方法來理解和篩選大量資料,有助於該部門建立更具針對性的活動,以確保大部分銷售和客戶互動能夠成功。
保險業
此行業通常必須處理合規問題、各式各樣的欺詐、風險評估和管理,並且在競爭激烈的市場中留住客戶。透過資料探勘,保險公司可以更好地為產品定價,為現有客戶創造更好的方案,同時鼓勵新客戶註冊。
教育部門
利用資料驅動的視圖來觀察學生進度,使教育工作者能夠在需要時為他們提供更好的個人化關注,為可能需要輔助的學生群體盡早制定干預策略。
製造業
生產線中斷或品質下降可能會給任何製造業造成巨大損失,而透過資料探勘,公司就能更好地規劃他們的供應鏈,這意味著可以更早地察覺和處理可能發生的中斷問題,品質檢查可以更加嚴格,並將生產線中斷所帶來的影響最小化。
銀行業
銀行業嚴重依賴資料探勘和自動化演算法來幫助理解金融系統中發生的數十億筆交易,有了這項工具,金融機構將獲得市場風險的鳥瞰圖,更快地發現欺詐行為,管理他們對監管要求的合規性,並確保獲得最佳的行銷投資回報。
零售業
由於零售交易的數量很大,此行業可以使用大量資料來更好地瞭解他們的消費者,資料探勘有助於他們改善客戶關係、優化行銷活動和預測銷售。
資料探勘的過程
資料探勘過程有四個基本步驟,如下所述。
定義問題
任何資料探勘專案的第一步都是瞭解目標和要求,這必須從業務角度明確指定,並且應該制定一個基本實施計畫。如果業務問題是想要增加銷售,那麼資料探勘問題就是「什麼樣的客戶可能購買產品?」實施第一步是基於舊客戶關係和屬性等資料來建立模型,包括人口統計、家庭規模、年齡、住處等。
資料收集和準備
第二階段為資料收集和探索。對收集的資料進行檢查,您將瞭解做為解決業務問題的基礎資料是否準確適用。在這個階段,人們可能會決定取消一些資料參數或引入一些新參數。在這裡,可以解決資料品質問題,並探索資料中的可能模式。
資料準備階段包括表格、案例和屬性選擇等任務,也包括資料清理和轉換、重複資料刪除、標準化輸入標題、和其他資料檢查。
模型構建和評估
第三步是選擇和應用各種建模技術,並將參數調校到最佳水準。在這個開始構建模型的階段,最好使用較小的、經過深思熟慮的資料集,以此為基礎再次評估模型解決業務問題的效果,是一個很好的選擇,在這個階段可以添加任何形式的改進。
模型部署
最後一個是部署階段,可以從收集的資料中獲得洞察見解和可供操作的資訊,然後將這些知識部署到目標環境中。部署可能包括將模型應用於任何新資料、提取模型細節、將模型整合到應用程式中等等。
資料探勘的挑戰
毫無疑問,資料探勘是一個強大的處理程序,但它確實帶來一些挑戰,特別是因為它要處理越來越多的複雜大數據,所以收集和分析所有這些資料只會變得越來越複雜。以下是與資料探勘相關的一些重大挑戰:
大數據
大數據面臨四大挑戰:
- 容量:大量的資料涉及儲存挑戰。此外,篩選如此大量的資料也與如何找到正確資料有關。當使用資料探勘工具來處理這樣龐大的資料量時,處理速度會變慢。
- 多樣性:任何時刻,都可能收集和儲存種類繁多的資料。資料探勘工具必須能夠處理多種資料格式,這可能是一個挑戰。
- 速度:如今收集資料的速度比以前快得多,但這可能會帶來其他問題。
- 準確性:這些海量資料的準確性可能值得懷疑,尤其是考慮到資料的數量、種類和速度等因素,這裡的主要挑戰是在資料數量和資料品質之間取得平衡。
過度擬合模型
這些模型很複雜,並且使用太多的獨立變數來得出預測結果。過度擬合的風險會隨著數量和種類的增加而升高,結果是模型開始顯示樣本中的自然錯誤,而不是顯示潛在趨勢。減少變數的數量可能導致模型不夠相關,而添加太多又限制了模型,因此挑戰在於找到所用變數的正確調節方法,並在所用變數和預測準確性方面取得平衡。
規模成本
隨著數量和速度的增加,公司需要努力擴大模型以充分利用資料探勘的優勢。為此,公司需要投資一系列重型運算系統、伺服器和軟體。對於公司來說,這樣的預算分配可能並不總是容易做到。
隱私和安全
儲存需求不斷上升,許多公司已經轉向雲端來滿足他們的需求,但對頂尖資料安全措施的需求也隨之而來。當採取資料隱私和安全措施時,必須在內部推行一系列規則和規範,這可能需要改變大家的工作方式,而對許多人來說,這種改變的學習曲線很可能是陡峭的。
在競爭激烈的時代中,具有關聯性的資料對於任何企業的營運都至關重要。資料探勘有助於組織更好地制定策略,是幫助企業獲得優勢的關鍵。
