시계열 분석이란 무엇입니까?
시계열 분석은 시계열 데이터와 추세 분석을 다루는 통계 기법입니다. 시계열 데이터는 일정한 시간 간격으로 측정되었거나 특정 시간 간격으로 수집된 주기적인 시간 간격을 따릅니다. 즉, 시계열은 단순히 시간에 따라 정렬된 일련의 데이터 지점이며 시계열 분석은 이 데이터를 이해하는 프로세스입니다.
비즈니스 맥락에서 시계열 데이터의 예에는 일정 기간 동안 파악해야 하는 모든 추세가 포함됩니다. Google 추세 보고서는 분석할 수 있는 시계열 데이터의 한 유형입니다. 과거의 동향을 기반으로 한 수요 및 공급 예측과 같은 훨씬 더 복잡한 애플리케이션도 있습니다.

시계열 데이터의 예시
경제학에서 시계열 데이터는 국내총생산(GDP), 소비자 물가 지수, S&P 500 지수 및 실업률일 수 있습니다. 데이터 세트는 연방 준비 경제 데이터에서 한 국가의 국내총생산일 수 있습니다.
사회과학의 관점에서 시계열 데이터는 출생률, 이민 데이터, 인구 증가 및 정치적 요인일 수 있습니다.
시계열 데이터의 통계적 특성이 항상 기존의 통계적 방법에 적합한 것은 아닙니다. 따라서 시계열 데이터를 정확하게 분석하려면 시계열 분석이라고 하는 고유한 도구와 방법이 필요합니다.
특정 측면은 시계열 분석 프로세스의 필수적인 부분입니다. 분석가는 데이터가 다음과 같은지 식별할 수 있어야 합니다.
- 정상성은 시계열의 중요한 측면입니다. 시계열은 시간 경과에 따라 평균(평균) 및 분산과 같은 통계적 특성이 변경되지 않는 경우, 정지 상태로 결정됩니다. 이 값은 일정한 분산과 평균을 가지며 공분산은 시간과 별개입니다.
- 계절성은 주기적인 변동을 나타냅니다. 예를 들어, 전력 소비를 보면 일반적으로 낮에는 높고 밤에는 낮아집니다. 쇼핑 패턴의 경우, 온라인 매출은 연휴 동안 급증했다가 감소합니다.
- 자기상관은 관측치 사이의 시차 함수로서의 관측치 간의 유사도입니다. 자기상관 데이터를 플로팅하면 정현파 함수와 유사한 그래프가 생성됩니다.
데이터: 유형, 용어 및 개념
일반적으로 데이터는 다음 세 가지 유형 중 하나로 간주됩니다.
- 시계열 데이터: 변수가 다른 시점에 취하는 값에 대한 일련의 관측값입니다.
- 단면 데이터: 동일한 시점에 수집된 하나 이상의 변수에 대한 데이터입니다.
- 통합 데이터: 시계열 데이터와 횡단면 데이터의 조합입니다.
다음은 시계열 데이터 분석과 관련된 몇 가지 용어 및 개념입니다.
- 의존성: 의존성은 이전 시점에서 동일한 변수를 가진 두 관측치의 연관성을 나타냅니다.
- 정상성: 이 매개변수는 계열의 평균 또는 평균값을 측정합니다. 값이 주어진 기간 동안 일정하게 유지되거나 데이터 전체에 스파이크가 있거나 이러한 값이 무한대를 향하는 경향이 있는 경우, 정상성이 아닙니다.
- 차분: 차분은 시계열을 정상화하고 자동으로 발생하는 상관 관계를 제어하는 기술입니다. 하지만 모든 시계열 분석에 차이가 필요한 것은 아니며 그렇게 하면 정확하지 않은 추정이 생성될 수 있습니다.
- Curve Fitting: 회귀 방법으로서의 Curve Fitting은 선형 관계가 아닌 데이터에 유용합니다. 이러한 경우 곡선 피팅에 대한 수학 방정식은 실제 영향을 미치기에는 너무 많이 떨어지는 데이터가 시스템에서 사용하고 해석할 수 있는 고유한 공식을 사용하여 곡선으로 "회귀"되도록 합니다.
횡단면 데이터와 시계열 데이터 식별
시계열 데이터의 반대는 횡단면 데이터입니다. 개인, 조직 등 다양한 개체를 한 시점에서 관찰하여 추론하는 경우입니다. 두 가지 형태의 데이터 분석 모두 고유한 가치가 있으며 때로는 비즈니스에서 더 나은 결론을 도출하기 위해 두 가지 형태의 분석을 모두 사용합니다.
시계열 데이터는 과거의 영향을 받은 거의 모든 비즈니스 및 조직 애플리케이션 영역에서 찾을 수 있습니다. 이것은 경제, 사회 과학, 인류학에서 기후 변화, 비즈니스, 금융, 운영, 심지어 역학에 이르기까지 다양합니다. 시계열에서 시간은 종종 독립 변수이며 목표는 미래를 예측하는 것입니다.
시계열 분석의 가장 두드러진 이점은 시계열의 데이터 요소가 인접한 시간 기간에 선형 방식으로 수집되기 때문에 잠재적으로 관측치 간에 상관 관계를 만들 수 있다는 것입니다. 이 기능은 시계열 데이터를 횡단면 데이터와 별도로 설정합니다.
시계열 분석 기법
위에서 보았듯이 시계열 분석은 조직의 야심찬 목표가 될 수 있습니다. 모델 피팅에서 정확한 결과를 얻기 위해 다음과 같은 시계열 분석에 여러 수학적 모델 중 하나를 사용할 수 있습니다.
- Box-Jenkins 자기회귀 통합 이동 평균(ARIMA) 모델
- Box-Jenkins 다변수 모델
- Holt-Winters 지수 평활화
정확한 수학적 모델은 이 기사의 범위를 벗어나지만 여기에서 논의할 가치가 있는 이러한 모델의 일부 특정 응용 프로그램입니다.
ARIMA 및 다변량 품종의 Box-Jenkins 모델은 변수의 과거 동작을 사용하여 변수를 분석하는 데 가장 적합한 모델을 결정합니다. 분석을 위한 모든 시계열 데이터는 과거 값, 과거 오류 또는 둘 다의 선형 함수로 특성화될 수 있다고 가정합니다. 모델이 처음 개발되었을 때 사용된 데이터는 가스 용광로와 시간 경과에 따른 가변 거동에서 가져왔습니다.
대조적으로, Holt-Winters 지수 평활 모델은 정의 추세를 나타내고 계절에 따라 변하는 시계열 데이터를 분석하는 데 가장 적합합니다.
이러한 수학적 모델은 여러 측정 방법의 조합입니다. Holt-Winters 방법은 충분히 단순해 보일 수 있는 가중 평균을 사용하지만 이러한 값은 지수 평활화를 위해 방정식에 계층화됩니다.
시계열 분석의 응용
시계열 분석 모델은 두 가지 결과를 산출합니다.
- 관찰된 데이터 패턴을 생성한 기본 힘과 구조를 이해합니다. 복잡한 실제 시나리오는 설정된 패턴에 속하는 경우가 거의 없으며 시계열 분석을 통해 시간이 지남에 따라 관찰된 모든 변수와 함께 연구를 수행할 수 있습니다. 이 응용 프로그램은 일반적으로 감염률 증가에 대한 기후 변화의 영향과 같이 점진적으로 그리고 일정 기간에 걸쳐 발생하는 프로세스를 이해하기 위한 것입니다.
- 프로세스가 예측, 모니터링 또는 특정 피드백 루프로 이동할 수 있도록 수학적 모델을 가능한 한 정확하게 맞추십시오. 이것은 규모에 맞게 운영하고 성공하기 위해 얻을 수 있는 모든 정보가 필요한 비즈니스를 위한 사용 사례입니다.
데이터가 수치적이고 분석 프로세스가 수학적으로 보이지만 시계열 분석은 거의 추상적으로 보일 수 있습니다. 그러나 모든 조직은 이러한 방법을 오늘날에도 많이 적용할 수 있습니다. 예를 들어, Amazon과 같은 대규모 글로벌 공급망이 다양한 기간에 걸친 이러한 복잡한 데이터의 해석으로 인해 유지되고 있다고 상상하는 것은 흥미롭습니다. 공급망이 최대 피해를 입었던 COVID-19 전염병 동안에도 공급망이 더 빨리 반등할 수 있었던 것은 하루, 일주일 내내 계속 발생하는 숫자와 이러한 숫자에 대한 이해 덕분입니다.
시계열 분석은 비즈니스 메트릭을 예측하는 데 사용할 수 있는 최상의 모델을 결정하는 데 사용됩니다. 주식 시장 가격 변동, 판매, 회전율 및 시계열 데이터를 사용하여 미래에 대한 예측을 할 수 있는 기타 모든 프로세스 등을 예로 들 수 있습니다. 이를 통해 경영진은 데이터의 시간 종속 패턴을 이해하고 비즈니스 메트릭의 추세를 분석할 수 있습니다.
실용적인 관점에서 조직의 시계열 분석은 주로 다음 용도로 사용됩니다.
- 경제 예측
- 판매 예측
- 유틸리티 연구
- 예산 분석
- 주식 시장 분석
- 수익률 예측
- 인구 조사 분석
- 공정 및 품질 관리
- 재고 연구
- 워크로드 예측
시계열 분석의 장점
데이터 분석가는 시계열 분석에서 많은 것을 얻을 수 있습니다. 다양한 시계열 모델의 적용을 통해 원시 데이터를 정리하고, 이를 이해하고, 예측에 도움이 되는 패턴을 발견하는 것부터 많은 것을 수행할 수 있습니다.
시계열 분석의 몇 가지 장점은 다음과 같습니다.
데이터를 정리하고 혼란스러운 요소를 제거합니다.
데이터 정리는 노이즈를 필터링하거나 이상값을 제거하거나 다양한 평균을 적용하여 데이터에 대한 더 나은 전체 관점을 얻습니다. 노이즈를 필터링하여 신호를 조닝(zoning)하는 것을 의미합니다. 시계열 분석 프로세스는 모든 노이즈를 제거하고 기업이 일상에서 일어나는 일을 진정으로 더 명확하게 파악할 수 있도록 합니다.
데이터에 대한 이해 제공
시계열 분석에 사용되는 모델은 데이터 세트에 있는 데이터의 진정한 의미를 해석하는 데 도움이 되므로 데이터 분석가의 삶이 더 쉬워집니다. 자기상관 패턴과 계절성 측정을 적용하여 특정 데이터 포인트를 예상할 수 있는 시점을 예측할 수 있습니다. 더욱이, 정상성 측정은 상기 데이터 포인트의 값의 추정치를 얻을 수 있습니다.
이는 기업이 조직의 핵심 기능에 의미가 없는 숫자와 숫자가 아닌 데이터를 보고 시간과 공간에 따른 패턴을 볼 수 있음을 의미합니다.
예측 데이터
시계열 분석은 데이터를 예측하는 기초가 될 수 있습니다. 시계열 분석은 본질적으로 미래 데이터 포인트를 예측하기 위한 기반을 형성하는 데이터의 패턴을 발견하기 위한 기능을 갖추고 있습니다. 시계열 분석의 이러한 예측 측면은 비즈니스 영역에서 매우 인기가 있습니다. 대부분의 데이터 분석이 과거 데이터를 사용하여 통찰력을 소급하여 얻는 반면 시계열 분석은 미래를 예측하는 데 도움이 됩니다. 경영진이 더 나은 비즈니스 결정을 내리는 데 도움이 되는 것은 바로 이 가장자리입니다.
시계열 분석의 단점
시계열 분석은 완벽하지 않습니다. 더 많은 데이터 포인트와 모델이 필요한 단일 연구의 일반화로 인해 어려움을 겪을 수 있습니다. 인적 오류는 올바른 데이터 모델을 잘못 식별하여 출력에 눈덩이처럼 불어나는 영향을 미칠 수 있습니다.
적절한 데이터 포인트를 얻는 것도 어려울 수 있습니다. 시계열 분석과 대부분의 다른 통계 문제 간의 주요 차이점은 시계열에서 관측치가 항상 독립적인 것은 아니라는 점입니다.
예를 들어, 단일 기회 이벤트는 이후의 모든 데이터 요소에 영향을 미칠 수 있으며 이러한 이벤트 중 문제의 분석에 영향을 미칠 수 있는 이벤트를 정확하게 측정하는 것은 모든 데이터 과학자에게 달려 있습니다. 과거 데이터를 유용하게 만들 수 있는 예측에 유사점이 있습니까?

시계열 분석의 미래
시계열 분석은 고도로 발전된 데이터 분석 영역을 나타냅니다. 시계열 설명, 처리 및 예측에 중점을 둡니다. 시계열은 시간 순서가 지정된 데이터 세트입니다. 시계열을 해석할 때 분석에 적합한 모델을 선택하기 전에 자기 상관 패턴, 계절성 및 정상성을 고려해야 합니다. 기본, 미세 조정 및 고급에 이르는 여러 시계열 분석 모델이 있습니다. 고급 모델은 데이터 분석가가 시계열 동작을 훨씬 더 정확하게 예측하는 데 도움이 됩니다.
자동화 및 기계 학습 기술의 출현으로 이 정보를 이해하고 복잡한 계산을 수행하는 것이 예전만큼 어렵지 않고 과거와 미래에 대한 더 나은 이해를 위한 토대가 되었습니다.