데이터 사이언스란?

데이터 사이언스는 분석 방법, 도메인 전문성 및 기술의 융합을 통해 데이터에서 패턴을 찾고, 추출하고, 표면화하는 다학문적인 접근 방식입니다. 이 접근 방식에는 일반적으로 데이터 마이닝, 예측, 머신 러닝, 예측 분석, 통계 및 텍스트 분석 분야가 포함됩니다. 데이터가 놀라운 속도로 증가함에 따라 기업이 데이터에 대한 통찰력을 활용하기 위한 경쟁이 진행되고 있습니다. 그러나 대부분의 조직은 빅 데이터를 분석하여 통찰력을 찾고 회사가 몰랐던 문제를 조사할 수 있는 전문가가 부족합니다. 데이터 사이언스의 가치를 실현하고 수익을 창출하려면 조직은 예측 통찰력, 예측 및 최적화 전략을 비즈니스 및 운영 시스템에 도입해야 합니다. 이제 많은 기업이 지식 근로자에게 자체 머신 러닝 프로젝트 및 작업을 수행하는 데 도움이 되는 플랫폼을 제공하고 있습니다. 비즈니스에 투입되는 방대한 양의 데이터에서 추세와 기회를 추출하는 것은 조직에 경쟁 우위를 제공할 것입니다.

데이터 사이언스에는 설명, 진단, 예측 및 규범 기능이 포함됩니다. 다시 말하면, 데이터 사이언스를 통해 조직은 데이터를 사용하여 무슨 일이 일어 났는지, 왜 일어 났는지, 무슨 일이 일어날 지, 예상 결과에 대해 무엇을 해야 하는지를 파악할 수 있습니다.

데이터 사이언스의 작동 방식 이해

개념적으로 볼 때 데이터 사이언스 프로세스는 이해하기 매우 간단하며 다음 단계를 포함합니다:

  1. 비즈니스 문제 이해
  2. 원시 데이터 수집 및 통합
  3. 데이터 탐색, 변환, 정리 및 준비
  4. 데이터를 기반으로 모델 생성 및 선택
  5. 모델 테스트, 조정 및 배포
  6. 모델 모니터링, 테스트, 새로 고침 및 관리

데이터 사이언스의 작동 원리

비즈니스 문제 이해

데이터 사이언스 프로세스는 비즈니스 사용자가 해결하려고 하는 문제를 이해하는 것부터 시작됩니다. 예를 들어, 비즈니스 사용자는 "판매를 늘리려면 어떻게 해야 합니까?" 또는 "고객에게 판매하는 데 가장 적합한 기술은 무엇입니까?"라고 질문하고 이해할 수 있습니다. 이는 즉시 연구 가능한 가설로 이어지지 않는 매우 광범위하고 모호한 질문입니다. 이러한 비즈니스 문제를 연구 가능하고 테스트 가능한 가설로 나누는 것이 데이터 사이언티스트의 임무입니다. 예를 들어 "판매를 늘리려면 어떻게 해야 합니까?"라는 질문은 "어떤 조건이 매출 증가로 이어지는가? 그것이 프로모션, 날씨 또는 계절성인가?", “제약 조건에 따라 매출을 어떻게 최적화할 수 있는가?”,와 “각 매장의 내일/다음 주/다음 달 매출은 얼마일것 같은가?”같은 몇 가지 작은 질문으로 나눌 수 있습니다. 기억해야 할 중요한 것은 내려야 할 비즈니스 결정을 이해하고 거기에서 거꾸로 작업해야 한다는 것입니다. 미래에 한 시간/하루/한 주/한개월을 예측할 수 있다면 비즈니스 프로세스가 어떻게 변할까요?

원시 데이터 수집 및 통합

비즈니스 문제가 이해되면 다음 단계는 원시 데이터를 수집하고 통합하는 것입니다. 먼저 분석가는 어떤 데이터를 사용할 수 있는지 확인해야 합니다. 종종 데이터는 다양한 형식과 다양한 시스템으로 되어 있으므로 데이터 랭글링 및 데이터 준비 기법을 사용하여 원시 데이터를 사용할 특정 분석 기술에 적합한 사용 가능한 형식으로 변환하는 경우가 많습니다. 데이터를 사용할 수 없는 경우 데이터 사이언티스트, 데이터 엔지니어 및 IT는 일반적으로 서로 협력하여 테스트하려는 새 데이터를 샌드 박스 환경으로 가져옵니다.

데이터 탐색 및 준비

이제 데이터를 탐색할 수 있습니다. 대부분의 데이터 사이언스 실무자는 데이터를 그래프와 시각화로 구성하는 데이터 시각화 도구를 사용하여 데이터의 일반적인 패턴, 높은 수준의 상관 관계 및 잠재적 이상치를 알아볼 수 있습니다. 이 단계는 분석가가 문제 해결에 도움이 될 수있는 요소를 이해하기 시작하는 시기이기도 합니다. 이제 분석가는 데이터의 작동 방식과 고려해야 할 중요한 잠재적 요인에 대한 기본적인 이해를 얻었으므로 데이터를 변환하고 새 기능(일명 변수)을 만들고 모델링 준비를 합니다.

모델 테스트, 조정 및 배포

이 시기는 대부분의 분석가가 머신 러닝 , 딥 러닝 , 예측 또는 자연어 처리(일명 텍스트 분석)와 같은 기술을 사용하여 입력된 데이터에서 모델을 생성하는 알고리즘을 사용하여 다양한 모델을 테스트하는 시점입니다. 통계 모델 및 알고리즘이 데이터 세트에 적용되어 입력 예측 변수(예를 들어, 대상에 영향을 미치는 요인)를 기반으로 대상 변수(예를 들어, 예측하려는 항목)의 동작을 일반화합니다.

출력은 일반적으로 영향 지점에 가까운 의사 결정을 내리기 위해 대시 보드 또는 포함된 보고서에 표시되거나 비즈니스 시스템에 직접 삽입될 수있는 예측, 예측, 이상 및 최적화값입니다. 그런 다음 모델이 시각화 또는 비즈니스 시스템에 배포된 후 이전에 볼 수 없었던 새로운 입력 데이터의 점수를 매기는 데 사용됩니다.

모델 모니터링, 테스트, 새로 고침 및 관리

모델이 배포 된 후에는 실제 이벤트의 변화하는 동작으로 인해 데이터가 이동함에 따라 새로 고쳐지고 재학습될 수 있도록 모델을 모니터링해야 합니다. 따라서 조직은 프로덕션 모델의 변경 사항을 제어하고 관리하기 위한 모델 운영 전략을 마련하는 것이 필수적입니다.

대시 보드 및 프로덕션 시스템에 모델을 배포하는 것 외에도 데이터 사이언티스트는 시각화 또는 대시 보드 도구에서 호출할 수 있는 정교한 데이터 사이언스 파이프 라인을 만들 수도 있습니다. 종종 이 파이프 라인은 시티즌 데이터 사이언티스트가 조정할 수 있는 매개 변수 및 요소의 축소 및 단순화 세트를 가지고 있습니다. 이는 위에서 언급한 기술 부족 문제를 해결하는 데 도움이 됩니다. 따라서 시티즌 데이터 사이언티스트(종종 비즈니스 또는 도메인 전문가)는 관심있는 매개 변수를 선택하고 그 뒤에 숨겨진 복잡성을 이해하지 않고도 매우 복잡한 데이터 사이언스 워크 플로를 실행할 수 있습니다. 이를 통해 데이터 사이언스의 개입없이 다양한 시나리오를 테스트할 수 있습니다.

요약하면 데이터 사이언티스트는 데이터를 사용하여 스토리를 전달한 다음 비즈니스에서 실제 애플리케이션에 사용할 수 있는 예측 통찰력을 제공합니다. 아래 그래픽에 표시된 바와 같이 사용되는 프로세스는 다음과 같습니다:

  • 데이터 입력
  • 데이터 준비
  • 머신 러닝 적용
  • 모델 배포, 평가 및 관리
  • 데이터 출력

데이터 사이언스의 작동 원리
당신은 어떤 데이터 사이언스 슈퍼 히어로인가요?
당신은 어떤 데이터 사이언스 슈퍼 히어로인가요?
이 전자 책을 다운로드하여 데이터 사이언티스트로서 차별화되는 데 필요한 여섯 가지 주요 기술을 알아보십시오.

데이터 사이언스 프로세스의 주요 단계

비즈니스 이해

  • 내릴 비즈니스 결정 이해
  • 결정을 내리는 데 필요한 데이터 결정
  • 결정의 결과로 귀하의 비즈니스가 어떻게 변할 것인지 이해하기
  • 결정을 지원하는 데 필요한 아키텍처 결정
  • 여러 분야의 기술 및 프로젝트 관리 팀 구성

머신 러닝 프로세스 이해

  • 데이터 수집 및 통합
  • 데이터 탐색 , 준비 및 정리
  • 데이터 전처리, 변환 및 기능 생성
  • 모델 개발 및 선택
  • 모델 테스트 및 조정
  • 모델 배포

모델 운영 및 거버넌스 프로세스 이해

  • 모델 저장소, 문서화 및 버전 제어
  • 모델 스코어링, API 프레임워크 및 컨테이너 전략
  • 모델 실행 환경
  • 모델 배포, 통합 및 결과
  • 모델 모니터링, 테스트 및 갱신

데이터 사이언스에 필요한 기술은 무엇입니까?

비즈니스 기술: 협업, 팀워크, 커뮤니케이션, 도메인 전문성/비즈니스 지식

분석 기술: 데이터 준비, 머신 러닝, 통계, 지리 공간 분석 , 데이터 시각화

컴퓨터 과학/ IT 기술: 데이터 파이프 라인, 모델 배포, 모니터링, 관리, 프로그래밍/코딩

누가 데이터 사이언스를 사용합니까?

“숨은 인재” 일명 시티즌 데이터 사이언티스트: 매일 데이터를 사용하고 분석을 진행하여 포인트 앤 클릭 인터페이스로 특정 비즈니스 문제를 해결합니다.

"비즈니스 기반": 비즈니스 단위 주도 이니셔티브 및 비즈니스 운영 개선에 중점을 둡니다.

"전문가": 모든 기능 및 비즈니스 단위에서 작업하여 문제를 해결하고 IT와 협력하여 머신 러닝 모델을 운영합니다. 경영진으로부터 동의와 자금 지원을 받습니다.

“유능한 개인”: 다양한 데이터 소스를 활용하여 새로운 문제를 해결하고 머신 러닝을 사용한 솔루션 프로토 타입을 만들고 대규모 데이터 과학 워크 플로를 실행합니다. R, Python, Scala, Hadoop 및 Spark와 같은 도구를 선호합니다.

"이용되지 않은 잠재력": 참여하기를 원하지만, 재사용 가능한 템플릿을 제공하는 기술을 보유한 조직에서는 지원이나 교육을 받지 못했다고 생각합니다.

주요 데이터 사이언스 과제

  • 문제 이해 및 분석
  • 데이터 수집, 데이터 준비/정리 및 기본 탐색 데이터 분석
  • 모델 개발 및 테스트
  • 모델 배포, 모니터링 및 거버넌스
  • 결과를 비즈니스 의사 결정자에게 전달

데이터 사이언스는 어떤 문제를 해결합니까?

다음은 데이터 사이언스가 다양한 산업 분야에서 해결하고 있는 과제의 몇 가지 예입니다:

에너지

데이터 사이언스는 주로 에너지 부문에서 탐사, 생산 및 운영을 최적화하는 동시에 다음과 같은 수요를 예상하는 데 사용됩니다:

  • 장비 고장 예측
  • 미래 석유량 및 가격 예측
  • 배포 최적화
  • 배출 감소
  • 지반 구성 분석
  • 저장소 특성화

금융 및 보험

금융 및 보험 산업에서 데이터 사이언스는 주로 위험 감소, 사기 감지 및 고객 경험 최적화에 중점을 둡니다. 데이터 사이언스를 사용하는 몇 가지 예는 다음과 같습니다:

  • 신용 위험 예측
  • 사기 감지
  • 고객 분석
  • 포트폴리오 위험 관리
  • 고객 이탈 가능성 결정
  • SOX, Basel II와 같은 규정의 준수

의료

의료 분야에서 데이터 사이언스는 주로 치료의 질을 개선하고 운영을 개선하며 비용을 줄이는 데 사용됩니다.

  • 질병 위험 예측
  • 사기성 주장 감지
  • 맞춤형 약 복용량 처방
  • 이미지 분석에 의한 암의 감지
  • 청구 관리
  • 환자 안전 향상
  • 가장 위험에 처한 사람 결정

제약

제약 분야에서 데이터 사이언스는 주로 다음과 같은 안전성, 제품 품질 및 약물 효능을 보장하는 데 사용됩니다:

  • 최적 배치 결정
  • 임상 시험 분석
  • 제품 추적
  • 안정성 및 유통 기한 분석
  • 규정 준수를 위한 보고 및 분석 검증
  • 제조 프로세스, 데이터 분석

제조

제조 분야에서 데이터 사이언스는 프로세스를 최적화하고 품질을 개선하며 공급 업체를 모니터링하는 데 도움이 됩니다. 몇 가지 예는 다음과 같습니다:

  • 수율 향상
  • 스크랩, 재작업 및 반품 감소
  • 보증 사기 감지
  • 규정 준수
  • 장비 고장 예측 및 방지

데이터 사이언스가 직면한 과제

액세스할 수 없는 데이터

해결 방식:

  • 서로 다른 여러 소스의 데이터를 가상 데이터 계층으로 쉽게 결합
  • 데이터를 시각적으로 조작, 정리 및 변환하여 분석 준비
  • 내성 및 관계 발견을 사용하여 모델 구축을 위한 데이터 관계 이해 및 검증

오손 데이터

해결 방식:

  • AI 촉진 시각적 랭글링을 통한 변환의 자동 제안, 이상치 제거, 데이터 정리
  • 자동화된 데이터 상태를 확인하여 누락된 값을 채우고, 중요하지 않은 변수를 제거하여 분석을 위해 데이터를 준비
  • 다양한 소스에서 대규모로 데이터 서식 지정 및 준비

제한된 재능 및 전문성

해결 방식:

  • 자동화된 권장 사항 및 시각적 통찰력을 사용하여 복잡성 이해
  • 소수의 데이터 사이언티스트 뿐만 아니라 전체 팀의 창의력을 활용하고 종단 간 분석 수명주기에 걸쳐 협업
  • 시티즌 데이터 사이언티스트가 머신 러닝을 확장하기 위해 실행할 수 있는 재사용 가능한 매개 변수화된 템플릿 생성

사용되지 않는 결과

해결 방식:

  • 운영 시스템에 대한 배포를 단순화하여 영향을 받는 시점에서 머신 러닝을 비즈니스 프로세스에 포함
  • 모델 모니터링, 재교육 및 거버넌스로 데이터 사이언스 운영
  • 데이터 파이프 라인, 모델 구축, 점수 매기기 및 앱 개발과 같은 종단 간 분석 수명주기 전반에 걸쳐 성공적인 핸드 오프 보장
데이터 사이언스 무료 평가판
TIBCO Data Science 사용해보기-무료 평가판
TIBCO Data Science를 사용하여 조직 전체에서 머신 러닝을 민주화하고 협업하며 운영합니다.

데이터 사이언스 과제 해결

모두를 위한 데이터 사이언스: 자동화, 재사용 가능한 템플릿 및 교차 기능 팀을 위한 공통 협업 프레임 워크를 사용하여 데이터 사이언스를 민주화하고 협업합니다

혁신 가속화: 거버넌스를 보장하면서 네이티브 알고리즘, 오픈 소스 및 파트너 에코 시스템을 사용하여 새롭고 유연한 솔루션을 신속하게 견본 제작합니다

AnalyticOps: 파이프 라인 모니터링, 관리, 업데이트 및 거버넌스를 통해 운영에 체계적으로 집중하여 데이터 사이언스의 가치를 수익화합니다

교육: 시티즌 데이터 사이언티스트 및 데이터 사이언스 관행을 배우고자 하는 다른 사람들에게 교육 및 훈련을 제공합니다.

전문가 조직: CoE를 구축하여 모범 사례를 장려하고 혁신과 재사용성을 촉진하여 데이터 사이언스가 기업 전체에 확장될 수 있도록 합니다