비지도 학습이란 무엇입니까?

비지도 학습머신 러닝 (ML)이 데이터를 '학습'하는 방법 중 하나입니다. 비지도 학습에는 알고리즘이 자체적으로 이해해야 하는 레이블이 지정되지 않은 데이터가 있습니다. 지도 학습은 데이터 세트에 레이블이 지정되어 머신이 정확도를 측정할 수 있는 답변 키가 있는 곳입니다. 머신 러닝이 자전거 타는 법을 배우는 아이였다면 지도 학습은 자전거를 똑바로 잡고 뒤에서 달리는 부모인 것입니다. 비지도 학습은 자전거를 넘겨주고 아이의 머리를 쓰다듬고 '행운을 빌어요'라고 말하는 것과 같습니다.

비지도 학습 다이어그램

목표는 단순히 머신이 데이터 사이언티스트의 도움이나 안내가 없이 학습하도록 하는 것입니다. 그 과정에서 더 적합한 결과가 있을 때 결과와 그룹화를 조정하는 방법도 학습해야 합니다. 이를 통해 머신이 데이터를 이해하고 적합하다고 판단되는 방식으로 처리할 수 있습니다.

비지도 학습은 알려지지 않은 데이터를 탐색하는 데 사용됩니다. 놓쳤을 수 있는 패턴을 밝히거나 사람이 처리하기에는 너무 큰 대규모 데이터 세트를 검사할 수 있습니다.

비지도 학습은 어떻게 작동합니까?

비지도 학습을 이해하려면 지도 학습을 이해해야 합니다. 컴퓨터가 지도 학습 환경에서 과일을 식별하는 방법을 학습하는 경우 레이블이 지정된 과일의 예시 이미지가 제공됩니다. 이를 입력 데이터라고 합니다. 예를 들어, 라벨에는 바나나가 길고 구부러져 있으며 노란색이고 사과는 둥글고 빨간색이며 오렌지는 구형이고 밀랍 모양이며 주황색이라고 표시됩니다. 충분한 시간이 지나면 기계는 해당 설명자를 기반으로 개개 과일에 대해 자신 있게 식별할 수 있어야 합니다. 예를 들어 사과를 제시하면 오렌지색이 아니므로 오렌지가 아니며 노란색의 긴 것이 아니므로 바나나가 아니라고 자신 있게 말할 수 있습니다. 동그랗고 붉으니 사과입니다.

대조적으로, 비지도 학습은 데이터의 분류나 레이블이 전혀 없는 경우입니다. 기계는 과일의 개념을 알지 못하므로 물체에 라벨을 붙일 수 없습니다. 그러나 색상, 크기, 모양 및 차이점에 따라 그룹화할 수 있습니다. 기계는 유사성에 따라 사물을 그룹화하여 레이블이 지정되지 않은 데이터에서 숨겨진 구조와 패턴을 찾습니다. 옳고 그른 길도 없고 스승도 없습니다. 결과는 없고 데이터의 순수한 분석만 있을 뿐입니다.

비지도 학습은 다양한 알고리즘을 사용하여 데이터를 광범위한 그룹에 맞추고, 클러스터링하며 연관시킵니다.

TIBCO Data Science 사용해보기-무료 평가판
TIBCO Data Science 사용해보기-무료 평가판
TIBCO Data Science를 사용하여 조직 전체에서 머신 러닝을 민주화하고 협업하며 운영합니다.

비지도 학습의 클러스터링 알고리즘

클러스터링은 개체가 클러스터라는 하위 집합으로 함께 그룹화되는 것을 의미합니다. 이것은 데이터 구조의 개요를 얻는 가장 좋은 방법 중 하나입니다. 해당 클러스터 내에는 몇 가지 유사한 특성이 있습니다. 이 방법은 동일한 특성을 가진 그룹을 만들고 이 그룹을 관련 클러스터에 할당하도록 설계되었습니다.

계층적 클러스터링

이것은 기계가 클러스터 트리에서 유사한 것들을 그룹화할 때입니다. 모든 데이터는 하나의 클러스터이며 점점 더 작은 클러스터로 나뉩니다. 데이터는 가장 일반적인 것부터 가장 구체적이고 밀접하게 그룹화된 클러스터에 이르기까지 계단식 클러스터 세트에 속합니다. 따라서 최종 결과는 다른 하위 그룹이 서로 어떻게 관련되어 있는지 또는 얼마나 멀리 떨어져 있는지 확인하는 것입니다.

k-평균 클러스터링

이 알고리즘은 데이터를 데이터에 레이블이 지정되지 않은 별개의 클러스터로 분리합니다. 클러스터 중심까지의 거리는 연관 강도에 따라 다릅니다. 데이터 포인트는 하나의 클러스터에만 속할 수 있습니다. k가 클수록 같은 방식으로 더 세분화된 더 작은 그룹을 의미합니다. 각 클러스터에는 데이터 포인트 레이블이 할당됩니다.

가우스 혼합 모델

그룹 클러스터는 일반 종형 곡선 분포를 기반으로 일반 예상 밀도로 퍼져 전체 데이터에서 하위 개체군을 보여줍니다.

퍼지 클러스터

이러한 클러스터는 겹칠 수 있으므로 데이터 포인트가 하나의 클러스터에만 속할 수 있는 하드 클러스터링과 달리 각 데이터 포인트는 관련된 많은 클러스터에 속할 수 있습니다. 이것은 비지도 학습 세계의 벤 다이어그램입니다.

클러스터링은 그룹 간의 관계를 가정하므로 항상 고객 세분화에 가장 적합한 방법은 아닙니다. 이 알고리즘은 데이터 포인트를 개별적으로 취급하지 않습니다. 데이터를 더 자세히 분석하려면 더 많은 통계적 방법을 적용해야 합니다.

비지도 학습에서 연관

기계 학습에서 알고리즘은 데이터 포인트 간의 연관성을 찾는 규칙을 생성합니다. 변수 간의 관계를 찾아 함께 발생하는 경향이 있는 항목을 식별합니다. 예를 들어 슈퍼마켓의 바구니 분석은 사람들이 동시에 구매하는 경향이 있는 품목(예: 수프와 롤빵)을 볼 수 있습니다. 또는 사람들이 새 집을 살 때 새 집을 살 가능성이 있는 것은 무엇입니까? 이 알고리즘은 마케팅 기회를 식별하는 데 탁월합니다.

비지도 학습의 잠재 변수 모델

잠재 변수 모델링은 관찰 가능한 변수(또는 매니페스트 변수)와 숨겨지거나 관찰되지 않는 변수(잠재 변수) 간의 관계를 보여줍니다. 잠재 변수 모델은 주로 데이터 전처리/정리, 데이터 세트의 기능을 줄이거 나 데이터 세트를 여러 구성 요소로 분해하는 데 주로 사용됩니다.

알 수 없는 경향과 패턴에 대해 감독되지 않은 훈련이 선호되는 경우는 언제입니까?

기계는 '정답'이 있다는 것을 알지 못하기 때문에 정보만을 기반으로 데이터에 대한 결정을 내리도록 하면(즉, 과학자의 편견 없이) 데이터 과학자가 데이터에 대해 더 많이 배울 수 있습니다. 알고리즘은 데이터 과학자들이 이전에 볼 수 없었던 흥미롭거나 숨겨진 구조를 데이터에서 찾을 수 있습니다. 이러한 숨겨진 구조를 특징 벡터라고 합니다.

데이터에는 레이블이 없는 경우가 많으므로 비지도 학습을 사용하면 데이터 과학자가 모든 것에 레이블을 지정해야 하는 번거로움을 피할 수 있습니다. 이는 시간이 많이 걸리고 종종 극복할 수 없는 작업일 수 있습니다. 비지도 학습 알고리즘은 또한 더 복잡한 처리 작업을 허용합니다. 다시 한 번, 레이블이 없다는 것은 복잡한 관계와 데이터 클러스터를 매핑할 수 있음을 의미합니다. 데이터 라벨링이 없다는 것은 선입견과 편견이 없다는 것을 의미합니다.

비지도 학습을 사용하는 가장 좋은 시간은 선호하는 결과에 대한 기존 데이터가 없을 때입니다. 비지도 학습은 알려지지 않은 데이터 세트의 분류에 유용할 수 있는 기능을 식별할 수 있습니다. 예를 들어, 비즈니스에서 새로운 제품의 목표 시장을 결정해야 하는 경우입니다.

비지도 학습은 차원 축소라는 기술을 사용합니다. 이것은 기계가 많은 데이터가 중복된다고 가정하고 차원을 제거하거나 해당되는 경우 데이터의 일부를 함께 결합하는 경우입니다. 데이터 압축으로 인해 시간이 절약되고 컴퓨팅 전원이 절약됩니다.

생성 모델은 비지도 학습의 또 다른 강점입니다. 생성 모델은 데이터의 분포를 보여줍니다. 이 때 데이터를 검토하고 새로운 샘플을 생성할 수 있습니다. 예를 들어, 생성 모델에 이미지 세트가 주어지고 이를 기반으로 조작된 이미지 세트가 생성될 수 있습니다.