지도 학습이란 무엇입니까?

지도 학습머신 러닝의 한 분야로, 데이터에서 반복적으로 학습하는 알고리즘을 사용하여 컴퓨터가 어디를 찾아봐야 하는 지를 명시적으로 프로그래밍하지 않고도 숨겨진 통찰력을 찾을 수 있도록 하는 데이터 분석 방법입니다. 지도 학습은 기계가 "학습"하는 세 가지 방법(지도, 비지도 및 최적화) 중 하나입니다.

지도 학습 다이어그램

지도 학습은 알려진 문제를 해결하고 레이블이 지정된 데이터 세트를 사용하여 특정 작업을 수행하도록 알고리즘을 훈련시킵니다. 모델을 사용하여 "이미지의 색상은 무엇입니까?" "이미지에 몇 명이 있습니까?" "사기 또는 제품 결함을 유발하는 요인은 무엇입니까?" 등과 같은 알려진 결과를 예측합니다. 예를 들어 지도 학습 프로세스는 이미지에서 이륜차와 사륜차를 분류하는 것일 수 있습니다. 훈련 데이터는 차량이 이륜차인지 사륜차인지 식별하기 위해 올바르게 레이블이 지정되어야 합니다. 지도 학습을 통해 알고리즘은 과거/훈련 데이터에서 '학습'하고 이를 알 수 없는 입력에 적용하여 올바른 출력을 도출할 수 있습니다. 지도 학습은 의사 결정 트리, 랜덤 포레스트 및 그라디언트 부스팅 머신을 사용하여 작동합니다.

대조적으로, 비지도 학습은 새로운 패턴을 식별하고 이상을 감지하는 데 사용되는 일종의 머신 러닝입니다. 비지도 학습 알고리즘에 제공되는 데이터에는 레이블이 지정되지 않습니다. 알고리즘(또는 모델)은 기능과 패턴을 찾아 자체적으로 데이터를 이해하려고 합니다. 비지도 머신 러닝이 대답할 수 있는 샘플 질문은 "새로운 사기 클러스터나 구매 패턴 또는 실패 모드가 등장하고 있습니까?"입니다. 비지도 학습은 클러스터링, 기본 구성 요소, 신경망 및 지원 벡터 기계를 사용합니다.

머신 러닝의 세 번째 유형인 최적화는 복잡한 제약이 있는 경우에도 최상의 솔루션을 찾습니다. 예를 들어 최적화는 "자원 또는 장비 유지 관리 일정을 취하거나 할당하는 최적의 경로는 무엇입니까?"라는 질문에 답할 수 있습니다. 최적화는 다윈의 진화 이론을 기반으로 하는 유전 알고리즘을 사용합니다.

지도 학습에서 분류란 무엇입니까?

지도 학습에는 두 가지 주요 유형, 즉, 분류 및 회귀가 있습니다. 분류는 이산 변수에 대한 입력 데이터를 분류하도록 알고리즘을 훈련하는 곳입니다. 훈련 중에 알고리즘에는 '클래스' 레이블이 있는 훈련 입력 데이터가 제공됩니다. 예를 들어, 훈련 데이터는 고객 세트의 마지막 신용 카드 청구서로 구성될 수 있으며 향후 구매 여부가 표시됩니다. 새로운 고객의 신용 잔고가 알고리즘에 제시되면 고객을 '구매할 것' 또는 '구매하지 않을 것' 그룹으로 분류합니다.

지도 학습에서 회귀란 무엇입니까?

분류와 달리 회귀는 가능한 연속 값 범위에서 출력을 예측하도록 알고리즘을 훈련하는 지도 학습 방법입니다. 예를 들어 부동산 교육 데이터는 위치, 면적 및 기타 관련 매개변수를 기록합니다. 산출물은 특정 부동산의 가격입니다.

회귀에서 알고리즘은 입력 매개변수와 출력 사이의 기능적 관계를 식별해야 합니다. 출력 값은 분류에서처럼 이산적인 것이 아니라 입력 매개변수의 함수입니다. 회귀 알고리즘의 정확성은 정확한 출력과 예측된 출력 간의 분산을 기반으로 계산됩니다.

TIBCO Data Science 사용해보기-무료 평가판
TIBCO Data Science 사용해보기-무료 평가판
TIBCO Data Science를 사용하여 조직 전체에서 머신 러닝을 민주화하고 협업하며 운영합니다.

분류의 실제 적용

이진 분류

이 알고리즘은 입력 데이터를 두 개의 가능한 그룹 중 하나로 분류합니다. 종종 클래스 중 하나는 '정상/원하는' 상태를 나타내고 다른 하나는 '비정상/원하지 않는' 상태를 나타냅니다. 이진 분류의 실제 응용은 다음과 같습니다.

스팸 감지

알고리즘에는 지도 학습 단계에서 '스팸' 또는 '스팸 아님' 레이블이 지정된 샘플 이메일이 제공됩니다. 학습 이후 알고리즘에 새로운 이메일 입력이 표시되면 메일이 '스팸'인지 '스팸 아님'인지 예측합니다.

이탈 예측

알고리즘은 이전에 서비스 구독을 취소한 고객의 훈련 데이터 세트를 사용합니다. 훈련을 기반으로 알고리즘은 입력 매개변수에 따라 신규 고객이 구독을 종료할지 여부를 예측합니다.

전환 예측

알고리즘은 구매자 데이터와 구매자가 항목을 구매했는지 여부를 학습합니다. 그런 다음 이 학습 결과를 기반으로 알고리즘이 신규 고객의 구매 여부를 예측합니다.

이진 분류에 사용되는 주요 알고리즘에는 로지스틱 회귀 및 지원 벡터 머신이 포함됩니다.

다중 클래스 분류

다중 클래스 분류에서 훈련 데이터 세트는 가능한 여러 클래스 중 하나로 레이블이 지정됩니다. 이진 분류와 달리 다중 클래스 알고리즘은 가능한 많은 클래스 중 하나로 분류할 수 있는 데이터로 훈련됩니다. 다중 클래스 분류의 응용은 다음과 같습니다.

  • 얼굴 분류: 모델은 훈련 데이터를 기반으로 사진을 분류하고 특정 사람에게 매핑합니다. 여기서 주목해야 할 것은 엄청난 수의 클래스 레이블이 있을 수 있다는 것입니다. 이런 경우 수천 명입니다.
  • 이메일 분류: 다중 클래스 분류는 이메일을 사회, 교육, 직장 및 가족과 같은 다양한 범주로 분리하는 데 사용됩니다.
  • 다중 클래스 분류에 사용되는 주요 알고리즘은 랜덤 포레스트, 나이브 베이즈, 결정 트리, K-최근접 이웃 및 그래디언트 부스팅입니다.

다중 레이블 분류

결과에 가능한 클래스가 하나만 있는 이진 및 다중 클래스 분류와 달리 다중 레이블 출력 결과는 하나 이상의 클래스에 포함됩니다. 이는 동일한 입력 데이터가 다른 버킷으로 분류될 수 있음을 의미합니다. 다중 레이블 분류의 응용은 다음과 같습니다.

  • 사진 감지: 사진에 차량, 동물, 사람과 같은 여러 개체가 있는 경우 사진이 여러 레이블로 갈라질 수 있습니다.
  • 오디오/비디오 분류: 노래와 비디오는 다양한 장르와 분위기에 맞을 수 있습니다. 다중 레이블 분류를 사용하여 이러한 다중 레이블을 지정할 수 있습니다.
  • 텍스트 분류: 내용에 따라 기사를 분류할 수 있습니다.

불균형 분류

이것은 훈련 데이터 세트에서 클래스의 불균형이 있는 이진 분류의 특별한 경우입니다. 이런 분류에서 훈련 데이터의 대부분의 예는 한 세트에 속하고 작은 부분은 두 번째 세트에 속하게 됩니다. 불행히도, 대부분의 머신 러닝 알고리즘은 클래스 간에 동일한 분할이 있을 때 가장 잘 작동합니다. 예를 들어 훈련 데이터에 10,000건의 실지 고객 거래가 있고 100건의 사기 거래만 있다고 가정해 보겠습니다. 정확도를 고르게 하려면 데이터의 불균형으로 인해 전문 기술이 필요합니다. 불균형 분류의 응용은 다음과 같습니다.

  • 사기 탐지: 훈련에 사용되는 레이블이 지정된 데이터 세트에서 소수의 입력만 사기로 레이블이 지정됩니다.
  • 의료 진단: 대규모 샘플 풀에서 질병의 양성 사례가 있는 샘플은 훨씬 적을 수 있습니다.

비용 기반 접근 방식 및 샘플링 기반 접근 방식과 같은 전문 기술은 불균형 분류 사례를 처리하는 데 사용됩니다.

회귀의 실제 적용

선형 회귀

지도 학습의 선형 회귀에서는 입력 데이터와 출력 데이터 간의 선형 관계를 찾도록 알고리즘을 학습시킵니다. 이것은 출력이 출력의 선형 가중 조합을 나타내는 가장 간단한 모델입니다. 선형 회귀는 연속 범위(예: 판매, 가격 - 예측) 내의 값을 예측하거나 범주로 분류(예: 고양이, 개 - 로지스틱 회귀 )하는 데 사용할 수 있습니다. 선형 회귀 훈련 데이터에는 입력변수(독립변수)와 이에 대응하는 출력변수(종속변수)가 제공됩니다. 제공된 레이블이 지정된 입력 데이터에서 회귀 알고리즘은 선형 함수의 절편 및 x 계수를 계산합니다. 선형 회귀의 응용에는 다음이 포함될 수 있습니다.

예측: 선형 회귀의 가장 중요한 응용 중 하나는 예측입니다. 예측은 다른 성격을 가질 수 있습니다. 기업은 고객의 판매 또는 구매 행동을 예측하기 위해 선형 회귀를 사용합니다. 또한 경제 성장, 부동산 판매 및 석유와 같은 상품 가격을 예측하는 데 사용됩니다. 선형 회귀는 급여의 과거 데이터를 기반으로 신입 사원의 최적 급여를 추정하는 데에도 사용됩니다.

로지스틱 회귀

이벤트가 발생할 확률을 결정하는 데 사용됩니다. 훈련 데이터에는 독립 변수가 있고 원하는 출력은 0과 1 사이의 값이 될 것입니다. 알고리즘이 로지스틱 회귀로 훈련되면 독립 변수(입력)값을 기반으로 종속 변수(0과 1 사이)의 값을 예측할 수 있습니다. 로지스틱 회귀는 고전적인 S자형 시그모이드 함수를 사용합니다. 지도 학습 컨텍스트의 로지스틱 회귀에서 알고리즘은 제공된 교육 데이터에서 베타 계수 값 b0 및 b1을 추정합니다.

확률 = e^(b0 + b1 * X)

로지스틱 회귀의 응용은 다음과 같습니다.

  • 확률 결정: 로지스틱 회귀의 주요 응용 중 하나는 이벤트의 가능성을 결정하는 것입니다. 모든 이벤트의 확률은 0과 1 사이에 있으며 이는 로지스틱 함수의 출력입니다. 머신 러닝의 로지스틱 회귀 알고리즘을 사용하여 선거 결과, 자연 재해 확률 및 기타 이벤트를 예측할 수 있습니다.
  • 분류: 로지스틱 회귀는 연속 함수를 사용하지만 일부 응용에서는 분류로 됩니다. 이미지 분리 및 관련 분류 문제에 사용할 수 있습니다.

다항식 회귀

다항식 회귀는 선형 회귀에 깔끔하게 맞지 않는 보다 복잡한 데이터 세트에 사용됩니다. 알고리즘은 직선 회귀에 잘 맞지 않을 수 있는 레이블이 지정된 복잡한 데이터 세트로 훈련됩니다. 이러한 훈련 데이터를 선형 회귀와 함께 사용하면 알고리즘이 데이터의 실제 추세를 캡처하지 못하는 과소적합이 발생할 수 있습니다. 다항식 회귀는 회귀선에서 더 많은 곡률이 발생하므로 종속 변수와 독립 변수 간의 관계를 더 잘 근사할 수 있습니다.

편차와 분산은 다항식 회귀와 관련된 두 가지 주요 용어입니다. 편차는 피팅 함수를 단순화하여 발생하는 모델링 오류입니다. 분산은 또한 데이터를 맞추기 위해 지나치게 복잡한 함수를 사용하여 발생하는 오류를 나타냅니다.

지도 학습의 기본 단계

지도 머신 러닝을 사용하여 문제를 실행하고 해결하려면 다음을 수행해야 합니다.

  • 훈련 데이터 유형 선택: 지도 학습의 첫 번째 단계는 훈련에 사용할 데이터의 특성이 무엇인지 결정하는 것입니다. 예를 들어, 필기 분석의 경우 한 글자, 단어 또는 문장이 될 수 있습니다.
  • 훈련 데이터 수집 및 정리: 이 단계에서는 다양한 소스에서 훈련 데이터를 수집하고 엄격한 데이터 정리를 거칩니다.
  • 지도 학습 알고리즘을 사용하여 모델 선택: 입력 데이터의 특성과 원하는 용도에 따라 분류 또는 회귀 알고리즘을 선택합니다. 이것은 의사결정 트리, SVM, 나이브 베이즈 또는 랜덤 포레스트일 수 있습니다. 알고리즘을 선택할 때 주요 고려 사항은 학습 속도, 메모리 사용, 새 데이터에 대한 예측 정확도, 알고리즘의 투명성/해석 가능성입니다.
  • 모델 훈련: 정확도와 예측 속도를 개선하기 위해 훈련 데이터를 여러 번 반복하여 피팅 기능을 미세 조정합니다.
  • 예측 및 모델 평가: 피팅 기능이 만족스러우면 알고리즘에 새 데이터 세트를 제공하여 새 예측을 수행할 수 있습니다.

모델 최적화 및 재훈련: 데이터 붕괴는 머신 러닝의 자연스러운 부분입니다. 따라서 정확성을 보장하기 위해 모델을 새로 고친 데이터로 정기적으로 재학습해야 합니다.