데이터 품질이란 무엇입니까?

데이터 품질은 데이터가 의도한 목적에 적합한 경우를 말합니다. 또한 데이터는 실제 구성을 정확하게 나타낼 때 고품질로 간주됩니다.

데이터 품질을 이해하려면 데이터를 그에 기반한 계층 구조의 기초로 봐야 합니다. 데이터를 토대로 하여 컨텍스트에 배치된 데이터인 정보가 제공됩니다. 실행 가능한 정보에서 지식이 나오며, 지식은 실천에 적용되면 지혜로 발전합니다. 데이터의 품질이 떨어지면 정보 품질이 저하되고, 이로 인해 계층 위로 올라가 비즈니스 의사 결정이 잘못됩니다.

데이터 품질 다이어그램

데이터가 의도한 목적에 적합하고 실제 구성을 나타내는 경우 고품질로 간주됩니다. 그러나 이것은 본질적으로 모순될 수도 있습니다.

예를 들어, 회사의 제품을 사용하는 고객에 대한 마스터 데이터 기록을 살펴보겠습니다. 마스터 기록의 데이터는 해당 고객에게 청구서를 발행하기에는 충분할 수 있지만 주소 및 전화 번호에 대한 정확한 세부 정보가 부족하면 고객 서비스 부서에 적합하지 않을 수 있으며 이는 비즈니스 문제로 이어질 수 있습니다.

이상적으로는 마스터 데이터 기록이 여러 용도로 사용되어야 합니다. 이를 위해서는 데이터가 의도한 목적에 적합하고 다른 비즈니스 목표에도 사용될 수 있도록 현실 기반 조정이 필요합니다. 이 조정은 데이터 수집에 과도한 리소스를 투자할 필요 없이 수행되어야 합니다. 다시 말하면, 데이터 품질 정의의 두 가지 측면의 균형이 필요합니다.

정확하지 않은 데이터 품질 불량으로 이어지는 원인으로는 인적 오류가 가장 큽니다. 저품질 데이터를 수정하는 작업은 시간이 많이 걸리고 엄청난 노력이 필요하며 인력, 더 우수한 프로세스 및 기술의 이상적인 조합이 필요합니다. 데이터 품질이 떨어지는 다른 이유로는 부서 간의 의사 소통 부족과 부적절한 데이터 전략을 들 수 있습니다. 이러한 문제를 해결하는 것은 사전 예방적 관리에 달려 있습니다.

데이터 및 분석 아키텍처 현대화
데이터 및 분석 아키텍처 현대화
다음 13 가지 사용 사례를 확인하여 오늘날의 복잡한 데이터 및 분석 환경을 지원하는 방법을 알아보십시오.

데이터 품질의 중요성

비즈니스 계층 전반에 걸쳐 좋은 품질의 데이터가 수익에 유리하게 작용한다는 것은 의심의 여지가 없습니다. 그러나 데이터 품질을 지속적으로 유지할 책임이 누구에게 있는지, 그리고 이러한 노력에 어떻게 자금을 지원할 것인지에 대해서는 의문으로 남아 있습니다. 데이터가 비즈니스에 미치는 긍정적 또는 부정적 영향을 파악하려면 데이터 품질을 1분 단위로 테스트해야 하는데 이는 상당히 어려울 수 있습니다. 데이터 품질을 보장하기 위해 프로토콜을 마련하는 것의 중요성은 다음 예에서 확인할 수 있습니다.

  • 기업의 마케팅 부서의 경우 데이터 중복 문제로 인해 마케팅 예산이 과도하게 지출될 수 있습니다. 예를 들어, 동일한 데이터베이스에서 잠재 고객 이름이 약간 변형된 마케팅 자료를 수신할 수 있습니다. 이는 고객을 실망시킬 뿐만 아니라 전체 고객 프로파일을 이중으로 작성할 수 있습니다.
  • 온라인 영업 부서는 셀프 서비스 구매 결정을 내리기 위한 의제를 추진하고 있을 수 있습니다. 그러나 기존 데이터베이스 내에 완전한 제품 데이터가 부족하고 제품 파트너 간에 제품 데이터가 신디케이션되는 방식으로 인해 데이터 품질은 구현하기 어려운 작업이 될 수 있습니다.
  • 프로세스를 자동화하고자 하는 공급망 부문의 경우, 서비스되는 모든 위치에 동일한 표준과 정확성을 적용할 수 없기 때문에 신뢰할 수 있는 위치 데이터를 달성하기 어렵습니다.
  • 재무 보고에 의존하는 부서의 경우 데이터가 일관되지 않거나 업데이트된 데이터가 없거나 명확한 데이터 매개 변수가 부족하기 때문에 단일 질문에 대한 광범위한 답변을 받는 문제가 발생합니다.

이 모든 것이 결합되어 비즈니스의 기업 측면에 극도로 부정적인 영향을 미치고 비즈니스 목표를 달성하기 어렵게 만듭니다. 이러한 목표의 대부분은 광범위한 비즈니스에서 공통적으로 적용됩니다.

데이터 품질이 좋지 않으면 기업은 다음과 같은 환경에 처하게 됩니다.

  • 새로운 시장 기회를 활용할 수 없습니다. 이로부터 기업의 이윤이 손상되고 성장 궤도가 방해받을 수 있습니다.
  • 비용 절감 조치를 취할 수 없습니다. 양질의 데이터가 부족하면 데이터를 사용하기 전에 많은 수동 검사와 수정이 필요합니다. 따라서 완전하고 일관된 데이터가 없으면 프로세스 자동화가 어려워집니다.
  • 양질의 데이터 없이는 규정 준수가 점점 더 어려워지기 때문에 규정 준수 요구 사항을 충족할 수 없습니다. 요구사항에는 개인 정보 보호 및 데이터 보호 규정과 같은 측면과 건강 및 안전 요구사항이 포함됩니다. 또한 재정적 제한 및 지침의 측면도 포함됩니다. 규정 준수 목표를 달성하려면 양질의 데이터를 확보하는 것이 필수적입니다.
  • 기업 데이터 자산에 대한 예측 분석 도구를 사용하는 데 어려움이 있게 됩니다. 이는 단기 및 장기 결정에 모두 영향을 미쳐 회사의 업무 진행을 극도로 어렵게 만듭니다. 직면한 문제는 데이터 중복, 데이터의 불완전, 불일치 및 부정확한 예측과 같은 문제로 인해 발생합니다.
O'Reilly 보고서: 통합 데이터 인프라 구축
O'Reilly 보고서: 통합 데이터 인프라 구축
기업의 3 분의 1만이 데이터 기반 조직으로 변경했습니다. 해결책은 무엇입니까? 이 전자책에서 알아보십시오!

품질 데이터의 이점

품질 데이터 생성에 투자하는 조직은 데이터를 활용하여 더 나은 비즈니스 결정을 내릴 수 있습니다.

더 나은 의사 결정을 촉진하는 고품질 데이터

오늘날 시장은 본질적으로 소비자 중심적 시장입니다. 기업은 고품질 데이터를 사용하여 더 나은 결정을 내릴 수 있습니다. 예를 들어, 데이터 분석 결과, 사람들이 평상시 금요일보다는 목요일에 밖에서 쇼핑과 식사를 하는 시간이 많아지기 시작했다면 기업은 그에 맞게 영업 시간을 늘리거나 고유한 제품을 제공하여 비즈니스를 주도할 수 있습니다.

더 우수한 팀 협업

조직의 많은 부서가 동일한 고품질 데이터에 지속적으로 액세스할 수 있을 때 결과는 훨씬 더 우수하고 커뮤니케이션은 더 효과적으로 됩니다. 이렇게 하면 모든 팀원이 브랜드뿐만 아니라 우선순위, 발신 메시지 측면에서 정렬 상태를 유지하는 것이 쉬워집니다. 이런 것들이 결합되어 더 우수한 결과를 담보합니다.

고객을 더 잘 이해하기

기업은 좋은 품질의 데이터를 통해 고객의 관심과 요구 사항을 더 잘 평가할 수 있습니다. 이를 통해 기업은 고객 요구에 따라 더 나은 제품을 만들어 성장할 수 있습니다. 생성된 캠페인은 단순한 추측이 아닌 소비자의 욕구와 데이터로부터의 직접적인 피드백에 기반하여 추진될 수 있습니다.

데이터 품질을 어떻게 평가합니까?

비즈니스 프로세스가 품질이 좋지 않은 데이터를 기반으로 하는 경우 조직이 상당한 손실을 입게 된다는 사실을 감안할 때 소유자와 관리자가 데이터 품질을 평가할 수 있는 방법을 이해하는 것이 필수적입니다. 이 방법에는 데이터 품질을 평가하는 지표 및 프로세스 설정이 포함됩니다. 기업은 객관적 평가와 주관적 평가 모두에서 데이터 높게 평가하기 위해 노력해야 합니다. 기업이 데이터 품질을 개선하려면 다음을 수행해야 합니다.

  • 객관적이고 주관적인 데이터 품질 지표 모두 구체적으로 평가
  • 결과를 분석하고 불일치의 원인 확인
  • 개선 방법 마련

주관적인 데이터 평가

조직은 주관적인 평가를 통해 이해 관계자, 분석가, 수집가 및 기타 당사자가 데이터 품질을 인식하는 방식을 측정하고 있습니다. 이해관계자 중 어느 한 명이 자신이 받은 데이터에 기초하여 결정을 내리지만 데이터가 부정확하거나 불완전하다고 판단되면, 결정에 영향을 미치게 됩니다. 그러므로 데이터 품질의 허점을 찾을 때 이를 고려해야 합니다.

객관적 데이터 평가

객관적인 데이터 품질 평가는 데이터 세트 내에서 기록된 측정 가능한 지표를 살펴보고 다음 두 가지 관점에서 평가하게 됩니다.

  • 특정 작업 내에서의 성능
  • 독립적으로 사용할 수 있는 지표 기반의 데이터셋이라는 관점

객관적인 데이터를 평가하는 이러한 지표를 설정하기 위해 조직은 특정 요구 사항에 맞는 핵심 성과 지표(KPI)를 개발하는 원칙에 따라 작업할 수 있습니다. 이들은 함수 형태로 알려져 있습니다. 함수 형태의 품질을 측정하는 방법에는 다음의 세 가지가 있습니다.

  • 단순비: 여기서 원하는 결과의 총 수는 가능한 총 결과로 측정됩니다. 범위는 일반적으로 0과 1 사이에 있으며 1이 가장 선호되는 결과입니다. 이 비율로 완전성과 일관성을 모두 측정할 수 있습니다. 여기서 중요한 점은 두 가지 차원을 모두 여러 가지 다른 방식으로 측정할 수 있으며, 조직이 최선의 대책을 마련하기 위해 기준을 설정해야 한다는 것입니다.
  • 최소값 또는 최대값: 여러 데이터 품질 변수를 처리하기 위해 만들어진 이 함수 형식은 최소값을 보수적인 숫자로, 최대값을 자유자재로 가집니다. 정확한 데이터 수준과 같은 변수는 최소값으로 표시됩니다. 적시성 또는/및 접근성과 같은 측면은 최대값으로 표현됩니다.
  • 가중 평균: 최소값의 대안으로 사용되며 조직에서 각 변수가 방정식에 가져오는 가치를 조사하고 이해하려고 할 때 사용할 수 있습니다.

조직이 모든 객관적 및 주관적 데이터 품질 지표를 평가한 후에는 프로세스를 간소화하는 데 도움이 되는 조치를 취할 수 있습니다. 취해진 조치가 효과적이고 일관되게 수행되지 않는 한 프로세스를 살펴보고 객관적인 결정을 내리는 데 시간을 투자하는 것은 시간 낭비입니다.

데이터 품질 개선 방법

모든 조직에서 데이터 품질 개선은 자격을 갖춘 인력, 지능형 프로세스 및 정확한 기술을 올바른 조합할 때 이뤄집니다. 이 모든 것이 사전 예방적인 최상위 관리와 결합되어 데이터 품질을 크게 개선하는 데 도움이 될 수 있습니다.

데이터 품질 차원

데이터 품질 개선 작업 시 주요 작업은 데이터 품질 차원의 범위를 향상시키는 것입니다. 가장 많이 취급하는 차원은 마스터 고객 데이터의 고유성 차원입니다. 이 데이터베이스는 두 개 이상의 입력 행에 엔터티(고객)의 동일한 데이터가 있을 수 있는 중복 문제가 자주 발생합니다. 데이터베이스에 이미 저장된 데이터의 중복 제거 기술뿐만 아니라 엔트리 포인트에서 데이터가 중복되지 않도록 하는 다양한 방법이 있습니다.

제품 마스터 데이터의 경우 고유성 차원은 크게 논할 문제가 아닙니다. 오히려 그것은 완전성 문제입니다. 완전성이 부족한 주된 이유는 제품 범주마다 요구 사항이 다르고 이러한 요구 사항이 모두 충족되지 않기 때문입니다. 많은 경우 제품 데이터의 적합성은 위치와 직접적인 관련이 있습니다(예: 단위 측정). 미국은 길이를 인치로 측정하지만 기타 국가에서는 센티미터로 측정합니다.

위치에 대한 마스터 데이터 작업에는 일관된 엔트리 템플릿이 부족하다는 문제가 있습니다. 전 세계적으로 다양한 형식이 사용되기 때문에 입력을 표준화하기가 매우 어려울 수 있습니다.

교차점에서 고려해야 할 측면

어느 시점에서는 위치와 고객 도메인이 교차할 것이고 정밀도를 유지하기 어려울 것입니다. 사용 사례마다 위치에 대한 정밀도 치수가 다르기 때문입니다.

이러한 교차가 성공적으로 이루어지도록 하려면 고객과 공유할 수 있는 제품의 관련 세부 정보를 기반으로 고객의 욕구를 이해하는 것이 중요합니다. 이는 고객 및 제품 마스터 데이터 도메인의 교차에 도움이 됩니다.

기본 데이터 품질 표준에 대한 6가지 기본 차원

상기 표준은 프로젝트마다 다를 수 있지만 기본은 일반적으로 동일하게 유지되어야 합니다. 고품질 데이터는 항상 이러한 6가지 기본 표준을 충족합니다.

  1. 포괄성: 데이터 세트가 완전한 것으로 간주되기 위해 채워야 하는 필수 필드를 살펴봅니다. 고객 데이터베이스의 경우 이름과 주소는 필수 항목이지만 제품이나 서비스에 따라 성별은 필수 항목이 아닐 수도 있습니다. 점점 더 Mr/Mrs/Ms를 제거하는 문제가 제기되고 있습니다. 이는 한 범주에 속하지 않는 사람들을 포함할 뿐만 아니라 간단히 말해서 알 필요가 없기 때문입니다.
  2. 일관성: 데이터의 모든 반복이 모든 보고서, 분석 결과 또는 작성 및 사용 중인 스프레드시트에서 동일한지 확인합니다. 이러한 불일치는 앞으로 나쁜 품질의 데이터로 이어질 수 있으므로 불일치를 찾아야 합니다. 좋은 소프트웨어는 불일치를 제거하거나 식별하는 데 도움이 되어야 합니다.
  3. 정확도: 모든 채널에서 단일 값을 보장하려면 일관성이 필요합니다. 반면 정확도는 데이터가 나타내는 현실을 반영하고 올바른 값을 처리합니다. 이것이 문제로 되는 경우 로봇 기술을 사용하여 데이터를 입력하면 인적 오류를 제거할 수 있습니다.
  4. 형식: 데이터 입력 형식의 일관성을 보장하는 것은 데이터 입력의 초석이 되어야 합니다. 제조 연도, 미국 또는 영어 날짜 형식? 모두 대문자?와 같은 가장 작은 세부 사항까지 단일 형식을 만들고 유지해야 합니다.
  5. 기간: 데이터의 효율성은 최종 사용자가 사용할 수 있도록 데이터를 가져올 때 데이터가 얼마나 최신 상태이고 얼마나 관련성이 있는지에 달려 있습니다. 데이터가 최신 상태이고 의사 결정자가 적시에 사용할 수 있으며 가장 최신 버전이면 적시성을 보장할 수 있습니다.
  6. 무결성: 데이터 세트가 조직에서 설정한 규칙 및 표준을 준수하는지 여부를 확인하는 기준입니다. 누락된 값은 데이터의 효율성을 방해할 수 있습니다.

이러한 차원을 분명히 준수하면 조직에 정확하고 고품질이며 품질 의사 결정에 필수적인 데이터 세트를 제공할 수 있습니다.