회귀 분석이란 무엇입니까?

회귀 분석은 둘 이상의 변수 간의 관계를 보여주는 통계적 방법입니다. 일반적으로 그래프로 표현되는 이 방법은 종속 변수와 독립 변수 간의 관계를 테스트합니다. 일반적으로 독립 변수는 종속 변수에 따라 변경되며 회귀 분석은 해당 변경에서 가장 중요한 요소에 대한 답을 찾으려고 시도합니다.

회귀 분석 다이어그램

우리는 데이터 기반 결정을 내려야 한다는 것을 알고 있지만 말 그대로 수백만 또는 수조 개의 데이터 포인트가 있는 경우 어디서부터 시작해야 할까요? 다행스럽게도 인공 지능(AI)과 머신 러닝 (ML)은 엄청난 양의 데이터를 가져와 몇 시간 만에 구문 분석하여 더 이해하기 쉽게 만들 수 있습니다. 그런 다음 관계를 더 자세히 조사하는 것은 분석가의 몫입니다.

회귀 분석의 예

현실 세계에서 회귀 분석이 사용되는 시나리오는 다음과 같을 수 있습니다.

소매 기업은 다음 달(또는 종속 변수)의 판매 수치를 예측해야 합니다. 날씨, 새 모델 출시, 경쟁업체가 수행하는 작업 또는 외부 포장 도로에서 진행 중인 유지 관리 작업 등을 포함하여 그 수치를 둘러싼 변수(독립 변수)가 너무 많기 때문에 알기가 어렵습니다.

계정의 Bob이나 영업 현장에서 10년 동안 일한 Rachel과 같은 많은 사람들이 자신의 견해를 가지고 있을 수 있습니다. 그러나 회귀 분석은 측정 가능한 모든 변수를 정렬하고 어떤 변수가 영향을 미칠 것인지 논리적으로 나타낼 수 있습니다. 분석을 통해 판매에 영향을 미치는 요인과 변수가 서로 상호 작용하는 방식을 알 수 있습니다. 이는 기업이 더 나은 데이터 기반 의사 결정을 내리는 데 도움이 됩니다.

이 소매 기업 예에서 종속 변수는 판매이고 독립 변수는 날씨, 경쟁자 행동, 보도 유지 관리 및 새 모델 출시입니다.

회귀 분석에서 회귀선 사용

회귀 분석을 시작하기 위해 데이터 사이언티스트는 변수에 대해 필요한 모든 데이터를 수집합니다. 여기에는 상당한 기간 동안의 판매량 수치와 같은 기간의 강우량을 포함한 날씨가 포함될 것입니다. 그런 다음 데이터를 처리하여 차트로 표시합니다.

분석에서 Y축에는 항상 종속 변수 또는 테스트하려는 항목이 포함됩니다. 이 경우 매출 수치. X축은 독립변수인 강우량 인치를 나타냅니다. 이 간단한 가상 차트를 보면 비가 올 때 매출이 증가한다는 것을 알 수 있습니다. 이는 양의 상관 관계입니다. 그러나 강우량이 특정한 값을 가질 때 얼마를 팔 수 있는지 정확히 알수는 없습니다. 이 문제는 회귀선을 추가하여 해결할 수 있습니다.

이것은 데이터에 가장 잘 맞는 것과 종속변수와 독립변수 사이의 관계를 보여주는 선입니다. 이 예에서 회귀선이 데이터 사이로 지나는 것을 볼 수 있으며, 강우량에 관계없이 어떤 일이 일어날지 시각적으로 예측합니다.

회귀선은 공식을 사용하여 예측을 계산합니다. Y = A + BX. Y는 종속변수(매출), X는 독립변수(강우량), B는 선의 기울기, A는 Y가 선을 가로막는 점입니다.

데이터 사이언스에서 정교한 프로그램은 이러한 모든 계산을 1초 만에 실행하여 매우 정확한 데이터 기반 예측을 생성합니다.

/resources/ebook-download/become-data-science-superhero-6-easy-steps
당신은 어떤 데이터 사이언스 슈퍼 히어로인가요?
이 전자 책을 다운로드하여 데이터 사이언티스트로서 차별화되는 데 필요한 여섯 가지 주요 기술을 알아보십시오.

다중 회귀

회귀당 하나의 종속 변수만 있을 수 있지만 독립 변수는 여러 개가 있을 수 있습니다. 이를 일반적으로 다중 회귀라고 합니다.

이를 통해 통계학자는 변수 간의 복잡한 관계를 식별할 수 있습니다. 결과는 더 복잡하지만 단순한 1변수 회귀 분석보다 더 현실적인 결과를 생성할 수 있습니다. 소매 예에서 날씨, 제품 출시 및 경쟁업체 광고가 매장 판매에 미치는 영향을 보여줍니다.

오차항은 무엇입니까?

회귀 분석은 인과 관계를 예측하지 않고 변수 간의 관계만 예측합니다. 강우량이 판매 수치에 영향을 미친다는 것이 명백하다고 말하고 싶은 유혹이 있지만 이것이 사실이라는 증거는 없습니다. 독립변수는 종속변수의 완벽한 예측변수가 될 수 없습니다.

오차항은 공식을 신뢰할 수 있는 확실성을 보여주는 수치입니다. 오차항이 클수록 회귀선이 확실하지 않습니다. 오차항이 50%이면 변수가 우연보다 낫지 않음을 나타냅니다. 또는 85%라고 하면 독립 변수가 종속 변수에 영향을 미칠 가능성이 상당하다는 것을 나타냅니다.

상관관계는 인과관계와 같지 않습니다. 매출 증가를 유발하는 것이 비가 오는 것 때문이 아니라 또 다른 독립 변수 때문일 수 있습니다. 변수가 연결된 것처럼 보이지만 완전히 다른 것이 있을 수 있으며 여러 분석을 실행해야만 비즈니스에서 관련된 요소를 더 명확하게 이해할 수 있습니다. 회귀분석에서 직접적인 원인과 결과를 예측하는 것은 거의 불가능합니다.

이것이 회귀 분석에 일반적으로 많은 변수가 포함되어 판매 증가 또는 감소의 실제 원인을 찾을 가능성이 더 높은 이유입니다. 물론 여러 독립 변수를 포함하면 결과가 엉망이 될 수 있지만 우수한 데이터 사이언티스트와 통계 전문가는 데이터를 정렬하여 정확한 결과를 얻을 수 있습니다.

도움이 될 수 있는 또 다른 것은 비즈니스에 대한 지식입니다. 비가 많이 내리는 날에는 매장에서 더 많은 제품을 판매할 수 있지만, 데이터 사이언티스트들이 영업 직원에게 이야기하면 비오는 날 무료로 제공되는 커피를 사러 오는 사람들이 더 많다는 것을 알 수 있습니다. 그렇다면 매출 증가의 원인은 비인가요, 공짜 커피인가요?

이것은 기업에서 약간의 시장 조사를 해야 함을 의미합니다. 고객에게 특정 날짜에 구매한 이유를 묻습니다. 커피가 그들을 끌어들여 놓았고, 비가 그들을 머물게 한 다음, 그들이 사고자 했던 제품을 보았을 것입니다. 따라서 판매 증가의 원인은 비이지만 무료 커피도 고려해야 합니다. 다른 하나가 없으면 동일한 결과가 나오지 않습니다.

회사는 회귀 분석을 어떻게 사용할 수 있습니까?

일반적으로 회귀 분석은 다음 목적으로 사용됩니다.

  • 현상을 시도하고 설명
  • 미래의 사건 예측
  • 제조 및 배송 프로세스 최적화
  • 오류 해결
  • 새로운 통찰력 제공

현상 설명

특정 날짜에 판매가 급증하는 이유(변수), 특정 달에 서비스 콜이 증가한 이유, 특정 요일에만 렌트카를 늦게 반납하는 이유(변수)를 찾으려고 할 수 있습니다.

예측하기

회귀 분석에서 사람들이 특정 판촉 후에 더 많은 제품을 구매한 것으로 나타났다면 기업은 어떤 광고를 실행할 지 또는 어떤 판촉을 사용할 지에 대해 정확한 결정을 내릴 수 있습니다.

회귀 분석의 예측은 다양한 상황과 시나리오를 다룰 수 있습니다. 예를 들어, 얼마나 많은 사람들이 광고판을 보게 될지 예측하는 것은 경영진이 광고에 대한 투자가 좋은 아이디어인지 결정하는 데 도움이 될 수 있습니다. 이 광고판은 어떤 시나리오에서 좋은 투자 수익을 제공할까요?

보험사와 은행에서는 회귀분석의 예측을 많이 사용합니다. 얼마나 많은 모기지 소유자가 대출금을 제때 상환할 것인가? 얼마나 많은 보험 계약자가 자동차 사고를 당하거나 집에서 도난을 당할 것인가? 이러한 예측을 통해 위험 평가가 가능하지만 최적의 수수료 및 프리미엄 가격도 예측할 수 있습니다.

프로세스 최적화

제과점에서는 쿠키의 유통 기한과 요리할 때 오븐의 온도 사이에 관계가 있을 수 있습니다. 여기서 최적화의 결과는 쿠키의 쫄깃한 품질을 유지하면서 가장 긴 저장 수명이 될 것입니다. 콜 센터는 고객 만족도를 최대화하기 위해 특정 시간 내에 전화에 응답하도록 직원을 교육하거나 더 많은 직원을 고용할 수 있도록 불만 건수와 대기 시간 간의 관계를 알아야 할 수 있습니다. 물론 통화량은 하루 종일 변경되어 경영진이 직원 수준에 대해 교육을 받고 최적화된 결정을 내릴 수 있도록 합니다.

오류 해결

점장이 기발한 아이디어를 냅니다. 영업 시간을 연장하면 매출이 증가합니다. 결국 관리자는 하루에 4시간 더 영업을 하면 그에 상응하는 매출 증가를 의미한다고 설명합니다. 단, 매장을 더 오래 열어두는 것이 항상 이익 증가를 의미하는 것은 아닙니다. 회귀 분석을 실행하면 매출 증가가 이러한 매출 비용을 충당하지 못할 수 있음을 보여줍니다. 이러한 정량적 분석은 경영진의 결정을 뒷받침합니다.

새로운 통찰력

대부분의 기업에는 종종 혼돈된 상태의 대용량 데이터가 있습니다. 회귀 분석을 사용하여 이 데이터는 과거에 발견되지 않았을 수 있는 변수 간의 관계에 대한 정보를 산출할 수 있습니다. 판매 시점 데이터를 사용하면 하루 중 바쁜 시간, 수요 급증 또는 이전에 발견하지 못한 높은 판매 날짜를 발견할 수 있습니다.

회귀 분석의 과제

상관관계는 인과관계와 같지 않습니다. 두 변수 사이의 관계를 표시할 수 있지만 변수 중 하나가 다른 변수의 원인으로 된다는 것을 증명하지는 않습니다. 어떤 사람들은 회귀 분석에서 긍정적인 관계를 볼 때 그것이 원인과 결과의 분명한 신호라고 생각합니다. 그러나 앞서 논의한 바와 같이 회귀 분석은 원인과 결과가 아닌 변수 간의 관계만 보여줍니다. 실생활에 실제로 존재하지 않는 관계에 대해 가정하지 않도록 주의해야 합니다.

독립 변수는 제어할 수 없을 수도 있습니다. 예를 들어 비가 오면 판매량이 증가한다는 것을 알지만 날씨를 제어할 수는 없습니다. 그 변수가 중요합니까? 마케팅, 매장 레이아웃, 직원 행동, 기능 및 프로모션과 같은 많은 내부 요인을 제어할 수 있습니다. 비가 오기를 기다리는 것은 좋은 판매 전략이 아닙니다.

GI:GO (가비지 인: 가비지 아웃)

데이터 사이언티스트의 역할 중 상당 부분은 데이터를 정리하는 것입니다. 이는 제공된 데이터만큼만 계산이 우수하기 때문입니다. 입력 정보가 쓰레기라면 회귀 분석의 결과도 마찬가지입니다. 통계 및 데이터 정리는 일부 불규칙성 또는 불완전성을 관리하고 제어할 수 있지만 결과 예측이 정확하려면 데이터가 정확해야 합니다.

오차항을 무시합니다. 데이터가 결과의 60%를 설명한다고 결과가 나온다면 나머지 40%에는 조사해야 할 중요한 정보가 있을 수 있습니다. 다음과 같이 자문해야 합니다. 이 계산이 신뢰할 수 있을 만큼 정확합니까, 아니면 여기에 더 큰 요인이나 변수가 있습니까? 종종 경험이 풍부한 관리자나 비즈니스와 관련된 사람이 결과를 살펴보도록 하는 것이 온전한 확인이 될 수 있습니다. 직관과 비즈니스 영역 지식은 누락되거나 잘못 귀속되는 것이 없도록 하기 때문에 중요합니다.