데이터 마이닝이란 무엇입니까?
데이터 마이닝은 데이터를 탐색하고 분석하여 의미 있는 패턴이나 규칙을 발견하는 것입니다. 데이터 마이닝은 데이터 사이언스 분야의 학문으로 분류됩니다. 데이터 마이닝 기술은 인공 지능(AI) 애플리케이션을 가능하게 하는 머신 러닝(ML) 모델을 만드는 것입니다. 인공 지능 내에서 데이터 마이닝의 예로는 검색 엔진 알고리즘 및 추천 시스템이 있습니다.
데이터 마이닝 작동 방식
데이터 마이닝은 기본 쿼리 및 보고 기술로 처리할 수 없는 질문에 대한 답을 찾는 데 도움이 됩니다. 데이터 마이닝은 몇 가지 주요 식별자로 표시되며 이에 대해서는 아래에서 더 자세히 살펴봅니다.
자동 패턴 인식
데이터 마이닝 모델은 데이터 마이닝의 기초이며 자동 인식은 이러한 모델이 실행되는 방식을 나타냅니다. 데이터 모델은 확립된 알고리즘을 사용하여 구축된 데이터를 마이닝합니다. 그러나 대부분의 모델은 새로운 데이터에로 일반화할 수 있습니다. 스코어링은 모든 모델을 새로운 데이터에 적용하고 적합성을 평가하는 프로세스입니다.
가장 가능성 있는 결과 예측
여러 데이터 마이닝 형식은 본질적으로 예측입니다. 이에 대한 한 가지 예는 교육 및 인구 통계를 기반으로 개인 소득을 예측하는 모델입니다. 각 예측에는 예측이 실현될 가능성을 나타내는 어느 정도의 확률이 적용됩니다.
다른 경우에는 예측 데이터 마이닝으로 규칙을 생성할 수 있습니다. 이는 특정 결과를 암시하는 특정 조건입니다. 한 가지 규칙의 예는 대학 학위를 가지고 있고 도시의 특정 구역에 거주하는 사람의 소득이 해당 지역의 평균 이상일 가능성이 있음을 지정하는 것입니다. 이러한 규칙은 관련 지원 자료를 통해 제공됩니다. 해당 지역의 인구 비율이 이 규칙을 충족합니다.
자연적으로 발생하는 그룹화에 중점 두기
대규모 데이터 내에서 자연스러운 그룹화를 나타내는 데이터 마이닝 형식도 있습니다. 특정 모델은 좋은 운전 실적을 보유하고 있으며 매년 휴가를 위해 자동차를 렌트하는 특정 소득 범위 내의 인구 집단에 중점을 둘 수 있습니다. 이러한 정보는 보험 회사뿐만 아니라 렌탈 에이전시에도 유용할 수 있습니다.
데이터 마이닝의 유형
데이터 마이닝에는 다음을 포함한 여러 유형이 있습니다.
선형 회귀
기업은 선형 회귀를 통해 하나 또는 여러 개의 독립 입력 변수값을 사용하여 연속 변수의 값을 예측할 수 있습니다. 이 방법은 보통 부동산 기업에서 평방 피트수, 건설 연도 및 우편 번호 위치와 같은 변수를 기반으로 주택 가치를 예측하는 데 사용됩니다.
로지스틱 회귀
이 변종에서는 하나 이상의 독립 입력이 사용하여 범주형 변수의 확률을 예측합니다. 은행 시스템에서 이 변종을 활용하여 신용 점수, 소득, 성별, 연령 및 기타 여러 개인 요소를 기반으로 대출 신청자가 대출을 불이행할 가능성을 예측하는 것을 참고할 수 있습니다.
시계열
모델에서 시간을 기본 독립 변수로 사용하는 예측 도구입니다. 소매업체는 종종 이 모델을 사용하여 제품 수요를 예측하고 그에 따라 재고를 관리할 수 있습니다.
분류 / 회귀 트리
분류 또는 회귀 트리는 범주형 및 연속 대상 변수의 값을 모두 예측할 수 있는 예측 모델링 기술입니다. 모델은 예측된 데이터를 기반으로 이진 규칙 세트를 생성하여 새로운 관찰 헤드 아래에서 유사한 대상 변수의 가장 큰 비율을 분류하고 그룹화합니다. 이러한 규칙을 사용하면 생성된 새 그룹이 새 관찰의 예측 값이 됩니다.
신경망
신경망은 뇌의 기능과 유사한 방식으로 작동하도록 설계되었습니다. 자극이 뇌에서 행동을 가능하게 하는 신경 세포의 발화를 일으키는 것처럼 신경망은 임계값 요구 사항이 있는 입력을 사용합니다. 이러한 입력은 크기에 따라 노드를 '발사'하거나 '발사하지 않습니다'. 이러한 발사 또는 비 발사 신호는 네트워크의 여러 계층에 숨겨져 있을 수 있는 다른 응답과 결합됩니다. 출력이 생성될 때까지 프로세스가 계속 반복됩니다. 거의 즉각적인 출력이 이점이며, 이 기술은 효율성을 위해 자율주행차에 광범위하게 사용됩니다.
K-최근접 이웃
과거 관찰 결과에 의존하여 새로운 관찰을 분류하는 기술입니다. K-최근접 이웃은 모델이 아니라 데이터에 의해 구동됩니다. 여기서 데이터에 대한 기본 가정은 없습니다. 데이터 입력을 해석하는 데 사용되는 복잡한 프로세스도 없습니다. 새로운 관측치는 가장 가까운 K-이웃을 식별하고 다수 값을 할당하여 분류됩니다.
비지도 학습
여기서는 감독되지 않은 작업을 검사하여 얻은 데이터를 기반으로 기본 패턴을 관찰합니다. 여러 추천 시스템에서는 비지도 학습을 사용하여 일반적인 사용자 패턴을 추적하고 더 나은 고객 상호 작용을 위해 개인화된 추천을 제공합니다. 비지도 데이터 마이닝에 사용되는 일부 분석 모델은 다음과 같습니다.
- 클러스터링
- 연관성 분석
- 주요 구성 요소 분석
- 실천에서의 지도 및 비지도 접근 방식

데이터 마이닝이 중요한 이유는 무엇이며 어디에 사용됩니까?
매년 생성되는 데이터의 양은 놀라울 정도로 방대합니다. 그리고 이미 엄청난 수치마저도 2년마다 두 배로 증가하고 있습니다. 디지털 세계는 약 90%가 비정형 데이터로 구성되어 있지만 이것이 정보의 양이 많을수록 지식이 더 좋아진다는 의미는 아닙니다. 데이터 마이닝은 이에 대한 변경을 목표로 하며 이를 통해 기업은 다음을 수행할 수 있습니다.
- 반복되는 많은 정보를 체계적으로 선별합니다.
- 관련 정보를 추출하고 최대한 활용하여 더 나은 결과를 도출합니다.
- 정보에 입각한 의사 결정 속도를 높입니다.
다양한 부문에 걸친 분석 노력의 중심에는 데이터 마이닝이 있습니다. 다음은 그 중 일부가 사용하는 방식입니다.
통신 산업
마케팅이든 아니든 통신 산업은 경쟁이 치열하고 여러 방향으로 끌려가는 고객을 상대합니다. 데이터 마이닝 방법을 사용하여 방대한 양의 데이터를 파악하고 선별함으로써 이 부문은 더 많은 수의 성공적인 영업 및 고객 상호작용을 보장하는 대상 캠페인을 생성할 수 있습니다.
보험 부문
이 부문에서는 종종 규정 준수 문제, 광범위한 사기, 위험 평가 및 관리, 경쟁 시장에서의 고객 유지를 처리해야 합니다. 보험 회사는 데이터 마이닝을 통해 상품 가격을 잘 책정하고 기존 고객에게 더 나은 옵션을 제공하는 동시에 신규 가입도 장려할 수 있습니다.
교육 부문
학생의 실력 향상 상황에 대한 데이터 기반 뷰를 통해 교육자는 필요할 때 학생에게 더 나은 개인화된 관심을 제공할 수 있습니다. 그리고 필요한 학생 그룹에 대한 중재 전략을 조기에 구축할 수 있습니다.
제조 산업
생산 라인의 고장이나 품질 저하는 모든 제조 산업에 막대한 손실을 초래할 수 있습니다. 기업은 데이터 마이닝을 통해 공급망을 더 잘 계획할 수 있습니다. 즉, 가능한 고장을 조기에 감지하여 처리할 수 있고, 품질 검사를 더욱 강화할 수 있으며, 생산 라인의 중단을 최소화할 수 있습니다.
은행 산업
은행 부문은 데이터 마이닝 및 자동화된 알고리즘에 크게 의존하여 금융 시스템에서 발생하는 수십억 건의 거래를 이해합니다. 이를 통해 금융 조직은 시장 위험에 대한 이해를 얻고 사기를 더 빨리 감지하며 규제 요구 사항 준수를 관리하고 마케팅 투자에 대한 최적의 수익을 얻을 수 있습니다.
소매 부문
천문학적인 수의 소매 거래가 발생함에 따라 해당 부문에서 많은 데이터를 사용하여 소비자에 대한 더 나은 통찰력을 얻습니다. 데이터 마이닝은 고객 관계를 개선하고 마케팅 캠페인을 최적화하며 판매를 예측하는 데 도움이 됩니다.
데이터 마이닝 프로세스
아래에 설명된 대로 데이터 마이닝 프로세스에는 네 가지 기본 단계가 있습니다.
문제 정의
모든 데이터 마이닝 프로젝트의 첫 번째 단계는 목표와 요구 사항을 이해하는 것입니다. 이는 비즈니스 관점에서 지정되어야 하며 기본 구현 계획도 마련되어 있어야 합니다. 비즈니스 문제가 더 많이 판매할 수 있는 것이라면 데이터 마이닝 문제는 '어떤 종류의 고객이 제품을 구매할 가능성이 있는가?'가 될 것입니다. 구현은 인구 통계, 가족 규모, 연령, 거주지 등을 포함한 초기 고객 관계 및 속성과 같은 데이터를 기반으로 모델을 만드는 것으로 시작됩니다.
데이터 수집 및 준비
두 번째 단계에서는 데이터 수집 및 탐색을 다룹니다. 수집된 데이터를 검토하면 비즈니스 문제를 해결하기 위한 기반이 얼마나 정확한지 알 수 있습니다. 이 단계에서 일부 데이터 매개 변수를 삭제하거나 몇 가지 새 매개 변수를 가져오기로 결정할 수 있습니다. 여기서 데이터 품질 문제를 해결하고 데이터에서 가능한 패턴을 스캔할 수 있습니다.
데이터 준비 단계에서는 테이블, 사례 및 속성 선택과 같은 작업을 다룹니다. 또한 데이터 정리 및 변환, 중복 제거, 입력 제목 표준화 및 기타 데이터 검사도 다룹니다.
모델 구축 및 평가
이 세 번째 단계에서는 다양한 모델링 기법을 선택하여 적용하고 매개변수를 최적의 수준으로 보정합니다. 모델 구축의 이 초기 단계에서는 더 작고 잘 고려된 데이터 세트로 작업하는 것이 가장 좋습니다. 이 시점에서 모델이 비즈니스 문제를 어떻게 해결하는지 다시 평가하는 것이 좋습니다. 이 단계에서는 어떠한 형태의 개선도 추가할 수 있습니다.
모델 배포
최종 배치 단계에서는 수집된 데이터에서 통찰력과 실행 가능한 정보를 얻을 수 있습니다. 그런 다음 이러한 지식을 대상 환경 내에 배치할 수 있습니다. 배치에는 새 데이터에 모델 적용, 모델 세부 정보 추출, 애플리케이션에 모델 통합 등이 포함될 수 있습니다.
데이터 마이닝의 도전 과제
의심할 여지 없이 데이터 마이닝은 강력한 프로세스이지만, 특히 증가하는 양의 복잡한 빅데이터를 처리하기 때문에 많은 어려움이 따릅니다. 이 모든 데이터를 수집하고 분석하는 것은 점점 더 복잡해지고 있습니다. 다음은 데이터 마이닝과 관련된 가장 중요한 몇 가지 도전 과제입니다.
빅 데이터
빅 데이터와 관련하여 네 가지 주요 과제가 있습니다.
- 볼륨: 대용량 데이터에는 스토리지의 문제가 있습니다. 게다가, 이렇게 많은 양의 데이터를 검토하는 것은 정확한 데이터를 찾는 문제를 수반합니다. 데이터 마이닝 도구가 이러한 볼륨을 처리할 경우 처리 속도가 느려집니다.
- 다양성: 주어진 순간, 방대한 양의 데이터가 수집되고 저장됩니다. 데이터 마이닝 도구는 다양한 종류의 데이터 형식을 처리할 수 있어야 하며, 이는 어려운 도전 과제입니다.
- 속도: 요즘 데이터 수집 속도가 예전보다 훨씬 빨라져 문제가 될 수 있습니다.
- 진실성: 특히 데이터의 볼륨, 다양성 및 속도의 요소를 고려할 때 이러한 방대한 데이터 볼륨의 정확성은 어려울 수 있습니다. 이 경우의 주요 과제는 데이터의 양과 품질의 균형을 맞추는 것입니다.
과적합 모델
이 모델에서는 복잡하고 예측에 도달하는 데 너무 많은 독립 변수를 사용합니다. 과적합의 위험은 볼륨과 다양성이 증가함에 따라 증가합니다. 결과적으로 모델은 기본 추세를 표시하는 것이 아니라 샘플에서 자연 오류를 표시하기 시작합니다. 변수 수를 줄이면 관련 없는 모델이 생성되고 너무 많이 추가하면 모델이 제한을 받습니다. 문제는 사용된 변수의 적절한 조정과 예측 정확도의 균형을 찾는 것입니다.
규모 비용
볼륨과 속도가 증가함에 따라 기업은 데이터 마이닝의 모든 이점을 활용하기 위해 모델을 확장하는 작업을 수행해야 합니다. 이를 위해 기업은 다양한 컴퓨팅 성능, 서버 및 소프트웨어를 투자해야 합니다. 이것이 항상 기업에게 쉬운 예산 배분은 아닐 수도 있습니다.
개인 정보 및 보안
스토리지 요구 사항은 지속적으로 증가하고 있으며 기업은 요구사항을 충족하기 위해 클라우드로 눈을 돌리고 있습니다. 그러나 이와 함께 데이터에 대한 고급 보안 조치가 필요합니다. 데이터 개인 정보 보호 및 보안 조치가 취해질때 다양한 내부 규칙과 규정이 시행되어야 합니다. 일하는 방식의 변화가 필요하며 이는 많은 사람들에게 어려운 문제입니다.
관련 데이터는 요즘과 같은 경쟁 시대에 비즈니스의 운영에 매우 중요합니다. 데이터 마이닝은 조직의 전략 수립에 도움이 됩니다. 데이터 마이닝은 기업이 이러한 우위를 확보할 수 있도록 지원하는 핵심 요소입니다. 제대로 하는 것이 가장 중요합니다.
