로지스틱 회귀란 무엇입니까?

로지스틱 회귀는 이벤트가 발생할 확률을 결정하는 데 사용되는 통계 모델입니다. 특성 간의 관계를 보여주고 특정 결과의 확률을 계산합니다.

로지스틱 회귀 다이어그램

로지스틱 회귀는 머신 러닝(ML)에서 정확한 예측을 생성하는 데 사용됩니다. 그래픽 결과가 아니라는 점을 제외하고 선형 회귀와 유사하며 대상 변수가 이진입니다. 값은 1 또는 0입니다.

측정 가능한 항목에는 설명 변수/특성(측정 대상 항목)과 결과인 응답 변수/목표 이진 변수의 두 가지 유형이 있습니다.

예를 들어, 학생이 시험에 합격될지 불합격될지 예측하려고 할 때 공부한 시간이 특징이고 응답 변수에는 합격 또는 불합격의 두 가지 값이 있습니다.

로지스틱 회귀에는 세 가지 기본 종류가 있습니다.

  1. 이진 로지스틱 회귀: 여기서 범주형 응답에 대해 가능한 결과는 두 가지뿐입니다. 위의 예에서와 같이 학생은 합격하거나 불합격합니다.
  2. 다항 로지스틱 회귀: 여기에는 응답 변수에 순서가 없는 3개 이상의 변수가 포함될 수 있습니다. 예를 들어 레스토랑에서 식사하는 사람들이 특정 종류의 음식(채식, 고기 또는 완전채식)을 선호하는지 예측하는 것이 있습니다.
  3. 순서 로지스틱 회귀: 다항 회귀와 마찬가지로 3개 이상의 변수가 있을 수 있습니다. 그러나 측정에는 순서가 있습니다. 예를 들어 1에서 5까지의 척도로 호텔을 평가하는 경우를 들 수 있습니다.

로지스틱 회귀에 사용되는 가정

로지스틱 회귀로 작업할 때 설정된 몇 가지 가정이 있습니다.

  • 이진 로지스틱 회귀에서는 응답 변수가 이진이어야 합니다. 결과는 둘 중 어느 하나입니다.
  • 원하는 결과는 응답 변수의 요인 수준 1로 표시되어야 하며 원하지 않는 결과는 0입니다.
  • 의미를 가지는 변수만 포함해야 합니다.
  • 독립변수는 본질적으로 서로 독립적이어야 합니다. 다중 공선성이 거의 또는 전혀 없어야 합니다.
  • 로그 오즈와 독립 변수는 선형적으로 관련되어야 합니다.
  • 로지스틱 회귀는 대규모 크기 샘플에만 적용해야 합니다.
당신은 어떤 데이터 사이언스 슈퍼 히어로인가요?
당신은 어떤 데이터 사이언스 슈퍼 히어로인가요?
이 전자 책을 다운로드하여 데이터 사이언티스트로서 차별화되는 데 필요한 여섯 가지 주요 기술을 알아보십시오.

로지스틱 회귀의 적용

로지스틱 회귀를 사용할 수 있는 분야와 방법에는 여러 가지가 있으며 여기에는 의학 및 사회 과학의 거의 모든 분야가 포함됩니다.

보건 의료

예를 들어, 외상 및 상해 심각도 점수(TRISS)입니다. 이는 전 세계적으로 상해를 받은 환자의 사망률을 예측하는 데 사용됩니다. 이 모델은 로지스틱 회귀를 적용하여 개발되었습니다. 수정된 외상 점수, 부상 심각도 점수 및 환자의 연령과 같은 변수를 사용하여 건강 결과를 예측합니다. 사람이 특정 질병에 걸릴 가능성을 예측하는 데까지 사용할 수 있는 기술입니다. 예를 들어, 당뇨병, 심장병과 같은 질병은 연령, 성별, 체중 및 유전적 요인과 같은 변수를 기반으로 예측할 수 있습니다.

정치

로지스틱 회귀를 사용하여 선거를 예측할 수도 있습니다. 미국에서 민주당, 공화당 또는 무소속 지도자가 집권할 것인가? 이러한 예측은 연령, 성별, 거주지, 사회적 지위 및 이전 투표 패턴(변수)과 같은 변수를 기반으로 하여 투표 예측(응답 변수)을 생성합니다.

제품 테스트

로지스틱 회귀를 엔지니어링에서 사용하여 테스트 중인 시스템 또는 프로토타입 제품의 성공 또는 실패를 예측할 수 있습니다.

마케팅

LR은 고객의 문의가 판매로 전환될 가능성, 구독이 시작 또는 종료될 가능성 또는 새로운 제품 라인에 대한 잠재적인 고객 관심을 예측하는 데 사용할 수 있습니다.

금융 부문

금융 부문에서 사용하는 예는 신용 카드 회사에서 이를 사용하여 고객이 지불을 불이행할 가능성을 예측하는 것입니다. 구축된 모델은 고객에게 신용 카드를 발급하기 위한 것일 수도 있고 아닐 수도 있습니다. 모델은 특정 고객이 "채무 불이행" 또는 "채무 불이행이 아닌" 여부를 말할 수 있습니다. 이를 은행 용어로 "채무 불이행 성향 모델링"이라고 합니다.

전자상거래

같은 맥락에서 전자 상거래 회사는 미디어 전반에 걸친 광고 및 판촉 캠페인에 막대한 투자를 합니다. 그들은 어떤 캠페인이 가장 효과적이며 잠재적인 타겟 고객으로부터 가장 응답을 받을 가능성이 높은 옵션을 확인하기를 원합니다. 모델 세트는 고객을 "응답자" 또는 "비응답자"로 분류합니다. 이 모델을 응답성 모델링이라고 합니다.

로지스틱 회귀 결과에서 얻은 통찰력을 통해 기업은 전략을 최적화하고 비용과 손실을 줄여 비즈니스 목표를 달성할 수 있습니다. 로지스틱 회귀는 마케팅 캠페인에서 투자 수익(ROI)을 극대화하는 데 도움이 되며 장기적으로 회사의 수익에 도움이 됩니다.

로지스틱 회귀 분석의 장점과 단점

장점

로지스틱 회귀는 매우 효율적이고 엄청난 양의 계산 리소스를 필요로 하지 않기 때문에 널리 사용됩니다. 쉽게 해석할 수 있으며 입력 기능을 확장할 필요가 없습니다. 정규화하기 쉽고, 그것이 제공하는 결과는 잘 보정된 예측 확률입니다.

선형 회귀에서와 마찬가지로 로지스틱 회귀는 출력 변수와 관련이 없는 속성 및 상관 관계가 있는 속성이 생략될 때 더 효율적으로 작동하는 경향이 있습니다. 따라서 피쳐 엔지니어링은 로지스틱 및 선형 회귀 성능의 효율성에서 중요한 역할을 합니다.

로지스틱 회귀는 또한 쉽게 구현되고 학습하기 쉬우므로 다른 복잡한 알고리즘의 성능을 측정하는 데 도움이 되는 훌륭한 기준이 됩니다.

단점

로지스틱 회귀는 비선형 문제를 해결하는 데 사용할 수 없으며 불행히도 오늘날의 많은 시스템은 비선형입니다. 또한 로지스틱 회귀는 사용 가능한 가장 강력한 알고리즘이 아닙니다. 훨씬 더 좋고 더 복잡한 예측을 생성할 수 있는 몇 가지 대안이 있습니다.

로지스틱 회귀는 또한 데이터 표시에 크게 의존합니다. 이는 필요한 모든 독립 변수를 식별하지 않는 한 출력이 가치가 없음을 의미합니다. 이산적인 결과의 경우 로지스틱 회귀는 범주형 결과를 예측하는 데만 사용할 수 있습니다. 그리고 마지막으로 과적합에 취약한 것으로 알려진 이력이 있는 알고리즘입니다.