이상치 감지란 무엇입니까?

이상치 감지는 이상치 또는 평균치에서 멀리 떨어진 데이터 포인트를 감지하고 달성하려는 목적에 따라 분석에서 잠재적으로 제거하거나 해결하여 잠재적 왜곡을 방지하는 프로세스입니다. 이상치 감지는 우수하고 신뢰할 수 있는 데이터를 생성하기 위해 취하는 가장 중요한 프로세스 중 하나입니다.

이상치 감지 다이어그램

이상치란 무엇입니까?

이상치는 해당 유형에 대해 예상되는 기준을 초과하는 극단적인 데이터 포인트입니다. 이상치는 뒤섞인 전체 데이터 세트이거나 특정 데이터 세트의 말단일 수 있습니다. 표준 종형 곡선을 상상할 때 이상치는 맨 오른쪽과 왼쪽의 데이터입니다. 이러한 이상치는 탐지하려는 사기 또는 기타 이상을 나타낼 수 있지만 측정 오류, 실험적 문제 또는 새로운 일회성 오류일 수도 있습니다. 기본적으로 예상 샘플 및 패턴과 크게 다른 데이터 요소 또는 데이터 요소 집합을 나타냅니다.

이상치에는 다변량과 단변량의 두 가지 유형이 있습니다. 단변량 이상치는 한 변수에서 극단적인 데이터 포인트입니다. 다변량 이상치는 최소 두 개의 데이터 요소를 포함하는 비정상적인 데이터 요소의 조합입니다.

포인트 이상치: 나머지 데이터 포인트에서 멀리 떨어진 단일 데이터 포인트입니다.

컨텍스트 이상치: 텍스트의 구두점 및 쉼표와 같은 '노이즈' 또는 음성 인식을 수행할 때 배경 노이즈로 간주됩니다.

집합적 이상치: 이는 기존 데이터와의 편차를 나타내는 예상치 못한 데이터의 하위 집합이며 새로운 현상을 나타낼 수 있습니다.

이상치의 발생 원인은 무엇입니까?

이상치의 주요 원인은 8가지입니다.

  1. 인간에 의한 잘못된 데이터 입력
  2. 값 대신 코드 사용
  3. 샘플링 오류 또는 데이터가 잘못된 위치에서 추출되었거나 다른 데이터와 혼합된 경우
  4. 예상치 못한 변수 분포
  5. 애플리케이션 또는 시스템에서 산생된 측정 오류
  6. 데이터 추출의 실험 오류 또는 계획 오류
  7. 감지 방법을 테스트하기 위한 의도적인 더미 이상치 삽입
  8. 실제로 오류가 아닌 데이터의 자연적인 편차로, 감지하려는 사기 또는 기타 비정상을 나타냅니다.

데이터를 수집하고 처리할 때 이상치는 다양한 소스에서 올 수 있으며 여러 가지 방법으로 숨길 수 있습니다. 이를 식별하고 예상치 못한 방식으로 작동하는 실제 데이터와 구별하는 것이 이상치 감지 프로세스의 일부입니다.

실제 오류가 아니라 예상치 못한 데이터의 진정한 집합인 이상치를 참신이라고 합니다. 데이터 사이언티스트의 작업 중 일부는 참신함을 식별하고 데이터 세트에 남겨두는 것입니다. 이는 의사 결정과 정확한 결과를 보장하는 데 중요하기 때문입니다.

이상치 감지 가이드
이상 감지에 대한 초보자 가이드
이상 감지의 기본을 학습하여 비즈니스에 경쟁 우위를 달성하십시오.

사용자가 이상치를 찾아야 하는 이유는 무엇입니까?

인공 지능(AI), 머신 러닝(ML) 및 데이터 사이언스의 핵심 문제 중 하나는 데이터 품질입니다. 데이터 사이언스의 세계가 성장함에 따라 데이터는 확장되고 증가되었습니다. 그러나 이상치나 이상치의 비율도 증가했습니다. 이는 비정상적인 데이터가 모델 사양을 방해하고 매개변수 추정을 방해하며 잘못된 정보를 생성할 수 있음을 의미합니다. 데이터 사이언스가 사용되는 위치와 이 잘못된 데이터가 어떻게 중요한지 생각해 보세요.

  • 부정 투표
  • 임상 약물 시험: 좋은 약물의 결과가 좋지 않거나 잘못 측정된 경우 다양한 치료 옵션을 놓칠 수 있다고 상상해 보십시오.
  • 사기 탐지: 이는 사람들이 위험이 낮을 때 신용이 거부되거나 위험이 높을 때 신용이 부여되는 결과를 초래할 수 있습니다.
  • 비즈니스 결정: 비즈니스에서 특정 선택을 하도록 지시를 받았지만 데이터에 결함이 있는 경우 투자 수익이 거의 또는 전혀 없는 막대한 마케팅 비용이 발생하거나 더 심각한 경우 소중한 고객을 잃을 수 있습니다.
  • 스마트 도시: 데이터 품질이 좋지 않거나 해킹되어 악의적으로 변경된 경우 도시 관리자는 신호등 설치, 쓰레기 수거 또는 경찰 번호를 포함하여 도시의 모든 것에 대해 정확한 결정을 내리는 데 어려움을 겪을 것입니다.

이상치 감지에 사용되는 기술

데이터 사이언티스트는 많은 기술을 사용하여 이상치를 식별하고 오류인지 참신인지 결정할 수 있습니다.

숫자 이상치

이것은 데이터가 1차원 공간에 있는 가장 단순한 비모수적 기법입니다. 이상치는 3사분위수로 나누어 계산됩니다. 그런 다음 범위 제한은 상자 그림의 위쪽 및 아래쪽 선으로 설정됩니다. 그런 다음 해당 범위를 벗어난 데이터를 제거할 수 있습니다.

Z-점수

이 매개변수 기법은 데이터의 특정한 포인트가 표본 평균에서 얼마나 많은 표준 편차를 나타내는지를 나타냅니다. 이것은 가우스 분포(정상, 종 모양의 곡선)를 가정합니다. 그러나 데이터가 정규 분포가 아닌 경우 데이터의 크기를 조정하고 보다 정상적인 모양을 제공하여 데이터를 변환할 수 있습니다. 그런 다음 데이터 포인트의 z-점수를 계산하고 종형 곡선에 배치한 다음 휴리스틱(경험 법칙)을 사용하여 표준 편차 임계값에 대한 기준치를 결정할 수 있습니다. 그런 다음 해당 표준 편차를 넘어서는 데이터 포인트는 이상치로 분류되어 방정식에서 제거될 수 있습니다. Z-점수는 이상치를 제거하는 간단하고 강력한 방법이지만 중간에서 작은 데이터 세트에만 유용합니다. 비모수 데이터에는 사용할 수 없습니다.

밀도기반 클러스터링

이것은 기본적으로 데이터 밀도를 나타내는 그래픽 표현인 노이즈가 있는 애플리케이션의 밀도 기반 공간 클러스터링입니다. 복잡한 계산을 사용하여 관련 포인트 그룹으로 데이터를 함께 클러스터링합니다. 밀도기반 클러스터링은 데이터를 핵심 포인트, 경계 포인트 및 이상값으로 그룹화합니다. 핵심 포인트는 주요 데이터 그룹이고 경계 포인트는 데이터 그룹의 일부로 간주될 만큼 충분한 밀도를 가지며 이상값은 클러스터에 전혀 없으며 데이터에서 무시할 수 있습니다. 밀도기반 클러스터링은 3차원 이상에 걸쳐 우수하며 매우 직관적이어서 쉽게 시각화할 수 있습니다. 그러나 기능 공간의 값을 조정해야 하고 최적의 매개변수를 선택하는 것이 까다로울 수 있으며 새 데이터 분석이 필요할 때마다 모델을 다시 보정해야 합니다.

아이솔레이션 포레스트

이 방법은 참신함과 특이점을 찾는 데 효과적입니다. 무작위로 선택된 기능과 무작위 분할 값을 사용하여 구성된 이진 결정 트리를 사용합니다. 그런 다음 숲 나무는 평균을 내는 포레스트를 형성합니다. 그런 다음, 이상치 점수를 계산하여 각 노드 또는 데이터 포인트에 0에서 1까지의 점수를 부여할 수 있습니다. 0은 정상이고 1은 이상치 이상입니다. 격리 포리스트는 크기 조정이 필요하지 않으며 값 분포를 가정할 수 없을 때 효과적입니다. 매개변수가 매우 적기 때문에 강력하고 최적화하기 쉽습니다. 그러나 데이터 시각화는 복잡하고 길고 비용이 많이 드는 프로세스가 될 수 있습니다.

이상치 감지의 과제

어떤 수학적 프로세스나 데이터 과학 전략도 오류나 문제점을 가지고 있게 됩니다. 특히 대규모 데이터 세트는 유효한 데이터와 참신을 그대로 유지하면서 이상치를 올바르게 제거하기 위해 잘 관리되어야 합니다. 몇 가지 과제는 다음과 같습니다.

  1. 노이즈나 이상치가 유효한 데이터와 매우 유사할 경우 좋은 데이터에서 결함이 있는 데이터를 찾아내기가 어려울 수 있습니다.
  2. 이상치 동작은 특성을 변경할 수 있습니다. 이는 이전에 이상치를 올바르게 식별한 알고리즘 및 모델이 더 이상 작동하지 않을 수 있음을 의미합니다.
  3. 데이터가 과도하게 정리되거나 데이터 세트에 포함되어야 하는 실제 이상치를 제거할 수 있습니다.
  4. 악의적인 데이터 공격은 데이터를 변경하여 결과를 혼동시킬 수 있습니다.

이러한 모든 문제는 정확성을 보장하기 위해 지속적으로 재평가되는 우수한 알고리즘으로 극복할 수 있습니다.