監督型學習是什麼?

監督型學習機器學習的一個分支,一種數據分析方法,它使用從數據中重複學習的演算法,讓電腦能夠自行找到隱藏的見解,而不需特別指定要查看什麼內容。監督型學習是機器「學習」數據的三種方法之一:監督型、非監管型、最佳化。

監督型學習圖

監督型學習可以解決已知問題,並使用標記數據集來訓練演算法以執行特定任務。它使用模型來預測已知結果,例如「圖像的顏色是什麼?」「圖中有多少人?」「哪些因素導致欺詐或產品缺陷?」。也就是說,監督型學習過程像是從圖像中分辨兩輪車和四輪車,必須先有正確標記、能夠識別車輛是兩輪車還是四輪車的訓練數據,這是因為監督型學習是讓演算法從歷史/訓練數據中「學習」,再將學會的知識應用到未知輸入內容上,以得到正確的輸出結果。監督型學習主要使用決策樹、隨機森林和梯度提升等技術來進行。

相比之下,非監管型學習是另一種機器學習,用於識別新模式和檢測異常。輸入到非監督型學習演算法的數據是無標記的,演算法(或模型)試圖透過尋找特徵和模式來自行理解該數據。非監管型機器學習可以回答的問題像是「是否有新的欺詐數據集或購買慣性或失敗模式出現?」非監管型學習主要使用分群、原則元件、神經網路、支援向量機等技術來進行。

最佳化是機器學習的第三種類型,即使存在複雜的限制條件,也能找出最佳解決方案。例如,最佳化可以回答「執行或分配資源或設備維護排程的最佳路線是什麼?」最佳化主要使用以達爾文進化論為基礎的遺傳演算法來進行。

監督型學習中的分類是什麼?

監督型學習有兩種主要類型:分類和迴歸。分類是訓練演算法根據離散變數將輸入數據分類,在訓練期間,演算法會獲得帶有「類別」標籤的訓練輸入數據。例如,訓練數據可能包含一組客戶的最後一張信用卡帳單,其中標記了他們是否承諾未來要購買。當演算法得知新客戶的信用卡餘額時,它會將客戶分類為「將會購買」或「不會購買」兩組。

監督型學習中的迴歸是什麼?

與分類相反,迴歸是一種監督型學習方法,訓練演算法利用一個連續範圍內的可能值來預測輸出結果。例如,房地產訓練數據會記錄位置、面積和其他相關參數,輸出結果則是特定不動產的價格。

在迴歸中,演算法需要識別輸入參數和輸出值之間的函數關係。輸出值不像分類那樣是離散的值,而是一組輸入參數的函數值。若要衡量迴歸演算法的正確性,便要以準確結果和預測結果之間的差異為基礎進行計算。

嘗試 TIBCO Data Science - 免費試用
嘗試 TIBCO Data Science - 免費試用
使用 TIBCO Data Science 在整個機構中實現機器學習的民主化、協作和操作。

分類的實際應用

二元分類

這種演算法會將輸入數據分類為兩個可能群組的其中之一,通常一個類別表示「正常/期望」狀態,另一個類別表示「異常/非期望」狀態。二元分類的實際應用包括:

垃圾郵件檢測

在監督型學習階段,演算法會收到標記為「垃圾郵件」或「非垃圾郵件」的樣本電子郵件。之後,當演算法收到新的電子郵件輸入時,它會預測該郵件屬於「垃圾郵件」還是「非垃圾郵件」。

流失預測

此演算法使用的訓練數據集來自先前取消訂閱服務的客戶,然後基於此訓練,演算法會根據輸入參數來預測新客戶是否會結束訂閱。

轉化預測

此演算法使用買家數據,以及他們是否購買該商品來進行訓練。然後基於此訓練,演算法將預測新客戶是否會購買。

用於二元分類的主要演算法,包括邏輯迴歸和支援向量機。

多元分類

在多元分類中,訓練數據集被標記為多個可能的類別之一。與二元分類相反,多元分類演算法使用可以歸類為許多可能類別之一的數據進行訓練。多元分類的應用包括:

  • 人臉分類:基於訓練數據,模型會比對照片進行分類,然後對應至特定人士。需要注意的是,這裡可能使用大量的類別標籤,在本例中,即成千上萬的人物。
  • 電子郵件分類:多元分類可將電子郵件分為各種類別:社交、教育、工作和家庭。
  • 用於多元分類的主要演算法包括隨機森林、貝氏演算法 (NB)、決策樹、K-近鄰演算法和梯度提升技術。

多標籤分類

與結果只有一個可能類別的二元分類和多元分類不同,多標籤分類的輸出值可以屬於一或多個類別。這表示相同的輸入數據,可能被分類到不同的容器中。多標籤分類的應用包括:

  • 照片檢測:如果照片中有多個物體,例如車輛、動物和人,照片可以標記多個標籤。
  • 音訊/視訊分類:同樣的歌曲和影片可能適合不同的風格和心情,多標籤分類可用於分配多個標籤。
  • 文字分類:可以根據內容對文章進行分類。

不平衡分類

這是二元分類的一個特例,其訓練數據集的類別內容並不均衡,訓練數據中的大部份範例屬於第一組,只有一小部份屬於第二組。不幸的是,大多數機器學習演算法在各類別平均分配時的效果最好。例如,假設在您的訓練數據中,有 10,000 次真實客戶交易和 100 次欺詐交易。由於數據量不平均,為了平衡其準確性,就需要專門的技術。不平衡分類的應用可能是:

  • 詐騙偵測:在用於訓練的標記數據集中,只有少數輸入被標記為欺詐。
  • 醫學診斷:在大量樣本中,疾病呈陽性的樣本可能要少得多。

專門技術運用以成本為基礎和以樣本為基礎的方法,可以幫助處理不平衡的分類情況。

迴歸的實際應用

線性迴歸

監督型學習中的線性迴歸訓練演算法,目的在於找到輸入和輸出數據之間的線性關係。這是使用上最簡單的模型,其輸出值為一組輸入值的線性加權值。線性迴歸可用於預測連續範圍內的值(例如銷售額、價格,即「預測」)或將它們分類(例如貓、狗,即「邏輯迴歸」)。在線性迴歸的訓練數據中,會提供輸入變數(獨立變數)和相應的輸出變數(相依變數),之後根據所提供的附標記輸入數據,迴歸演算法就能算出線性函數中的截距和 x 係數。線性迴歸的應用可能包括:

預測:線性迴歸最重要的應用之一是預測。預測結果可能具有不同的性質,例如企業可以使用線性迴歸來預測銷售額或客戶購買行為。也可以預測經濟成長、房地產銷售、石油等商品價格。線性迴歸還可根據工資的歷史數據,來估算新員工的最佳工資。

邏輯迴歸

用於判斷事件發生的機率,訓練數據中含有一個獨立變數,期望的輸出值則是介於 0 到 1 之間的值。當使用邏輯迴歸來訓練演算法時,它會根據獨立變數的值(輸入值)來預測相依變數的值(介於 0 到 1 之間)。邏輯迴歸使用經典的 S 型函數,而將邏輯迴歸用於監督型學習情境時,演算法會根據所提供的訓練數據,來估算 beta 係數值 b0 和 b1。

賠率 = e^(b0 + b1 * X)

邏輯迴歸的應用包括:

  • 判斷機率:邏輯迴歸的主要應用之一是判斷事件的發生可能性。任何事件的機率都在 0 到 1 之間,這就是邏輯函數的輸出值。機器學習中的邏輯迴歸演算法可用於預測選舉結果、自然災害以及其他此類事件的機率。
  • 分類:儘管邏輯迴歸使用連續函數,但它也可以應用於分類,例如用於圖像分割和相關分類問題。

多項式迴歸

多項式迴歸用於較複雜且不適合線性迴歸的數據集。演算法會使用複雜的附標記數據集來進行訓練,這些數據集可能不太適合線性迴歸,如果此類訓練數據與線性迴歸一起使用,可能會導致低度擬合,亦即演算法無法捕捉數據的真實趨勢。多項式迴歸允許迴歸線出現更大的曲度,而能更貼近相依變數和獨立變數之間的關係。

偏差 (Bias) 和變異 (Variance) 是與多項式迴歸有關的兩個重要術語。偏差是因為簡化了擬合函數而發生的模型誤差,變異則是由於使用過於複雜的函數來擬合數據而導致的誤差。

監督型學習的基本步驟

使用監督機器學習來執行和解決問題,必須:

  • 選擇訓練數據的類型:監督型學習的第一步是決定要使用何種性質的數據來進行訓練。例如,在筆跡分析的案例中,數據可以是單個字母、單詞或句子。
  • 收集和清理訓練數據:在此步驟中,從各種來源收集訓練數據,並經過嚴格的數據清理。
  • 選擇使用監督型學習演算法的模型:根據輸入數據的性質和所需用途,選擇分類或迴歸演算法。這可能是決策樹、支援向量機 (SVM)、貝氏演算法 (NB) 或隨機森林。選擇演算法的主要考慮因素包括訓練速度、記憶體用量、新數據的預測準確性、演算法的穿透性/詮釋能力。
  • 訓練模型:透過訓練數據的多次迭代,對擬合函數進行微調,以提高預測的準確性和速度。
  • 進行預測並評估模型:當擬合函數令人滿意時,就可以為演算法提供新的數據集,讓它進行新的預測。

最佳化和重新訓練模型:數據效力衰減是機器學習的自然過程,因此,必須定期使用更新的數據來重新訓練模型,以確保準確性。