데이터 카탈로그란 무엇입니까?

데이터 카탈로그는 사용자가 필요한 정보를 빠르게 찾을 수 있도록 하는 회사의 데이터 자산 목록입니다. 카탈로그는 대부분 다른 데이터에 대한 기본 정보를 제공하고 그것이 무엇인지 설명하는 메타데이터입니다. 사용자는 데이터 관리 및 검색 도구와 결합한 데이터 카탈로그를 갖게 됩니다.

데이터 카탈로그 다이어그램

빅 데이터 시대에 데이터 카탈로그는 데이터 관리의 핵심 요소입니다. 데이터 작업을 하는 사람들은 데이터 카탈로그를 사용하여 분산적이어서 탐색하기 어려울 수 있는 조직의 전체 소스에서 필요한 데이터 자산을 검색합니다. 성공적인 데이터 카탈로그를 구현하면 필요한 데이터를 빠르게 찾을 수 있기 때문에 데이터 분석의 속도와 품질에서 큰 차이를 이루어낼 수 있습니다.

데이터 카탈로그는 조직에 많은 이점을 제공합니다. 첫째, 데이터 카탈로그는 사용자에게 올바른 형식, 올바른 보기, 적절한 시간에 적절한 제어 수준을 갖춘 모든 소스를 제공할 수 있습니다. 데이터 카탈로그를 사용하면 다중 클라우드 컨텍스트의 다양한 소스에서 제공하는 모든 정보를 찾을 수 있고 즉시 사용할 수 있습니다. 즉 사용자는 실시간 컨텍스트에서 모델을 구축하고 배포할 수 있습니다.

데이터 카탈로그를 사용하면 비즈니스 목적으로 데이터를 사용해야 하는 데이터 분석가에게 컨텍스트를 제공하는 것 외에도 메타데이터 관리 를 자동화할 수 있습니다. 이 자동화를 통해 데이터 카탈로그는 이해 관계자들이 필요에 따라 데이터를 관리하고 수집할 수 있는, 조직에서 가장 신뢰할 수 있는 단일 데이터 소스가 될 수 있습니다.

라이브러리는 데이터 카탈로그를 설명하는 데 사용되는 일반 매개물입니다. 라이브러리는 정보 자산(예: 책)을 비축하고 해당 정보 자산을 구성하는 시스템이 필요하기 때문에 이상적인 비유라는 것이 증명되었습니다. 이 비유에서 책은 정보 자산의 역할을 하는 반면 제목, 저자, ISBN 및 장르와 같은 책에 대한 정보는 메타데이터 역할을 합니다. 책, 해당 위치 및 기타 정보를 식별하기 위해 유지 관리되는 카탈로그는 데이터 카탈로그가 정확히 작동하는 방식입니다. 이를 통해 독자들은 이용 가능한 책의 목록을 찾고, 취향에 따라 분류하고, 필요한 책을 빨리 고를 수 있습니다.

O'Reilly 보고서: 통합 데이터 인프라 구축
O'Reilly 보고서: 통합 데이터 인프라 구축
기업의 3 분의 1만이 데이터 기반 조직으로 변경했습니다. 해결책은 무엇입니까? 이 전자책에서 알아보십시오!

데이터 카탈로그에 대한 비즈니스 요구 사항

비즈니스 데이터는 매일 엄청나게 증가하고 있습니다. 글로벌 데이터 영역은 2018년 33제타바이트(ZB)에서 향후 5년 동안 175ZB로 엄청나게 확장될 것으로 예상됩니다. 이 규모의 데이터는 처리 및 탐색하기가 어렵습니다. 데이터는 다양한 저장 기술을 사용하여 다양한 형식으로 여러 클라우드 제공업체에 저장할 수 있습니다. 데이터는 유효 기간이 있고 데이터 세트가 항상 변경(새 데이터 세트를 추가하거나 기존 데이터 세트에서 새 데이터 세트를 파생하는 등)되기 때문에 시간이 지남에 따라 데이터 품질이 저하될 수 있습니다. 또한 데이터 과학자에서 개발자, 비즈니스 사용자에 이르기까지 사용자 유형이 다양하며, 각 사용자들은 데이터와 관련하여 각기 다른 요구 사항과 기술을 가지고 있습니다. 사용자는 비즈니스 사용자가 비즈니스 문제를 해결해야 할 때마다 항상 IT에 의존하여 새로운 솔루션을 구축할 수는 없습니다. 이 모든 것을 관리할 방법이 필요합니다.

데이터 카탈로그는 논리적이고 기략 있는 방식으로 데이터를 구조화하기 위한 핵심 단계입니다. 다음과 같은 이점을 얻을 수 있어 조직에 중요한 자산임을 입증할 수 있습니다.

  • 데이터의 품질, 구조, 사용 및 통계에 대한 정보를 포함하는 데이터 저장소 생성
  • 사용자가 실제 데이터와 함께 메타데이터에 액세스할 때 데이터에 대해 원격으로 공동 작업을 수행
  • 데이터를 자동으로 자주 업데이트하여 데이터 저장 공간 전반에 걸쳐 데이터를 정확하고 일관되게 유지
  • 데이터 계보에 액세스하고 소스, 수정 및 데이터 액세스와 같은 정보 보기
  • 이해 관계자와 데이터 자산을 안전한 방식으로 공유
데이터 및 분석 아키텍처 현대화
데이터 및 분석 아키텍처 현대화
다음 13 가지 사용 사례를 확인하여 오늘날의 복잡한 데이터 및 분석 환경을 지원하는 방법을 알아보십시오.

데이터 카탈로그의 핵심 요소

데이터 카탈로그는 여러 가지 방법으로 생성할 수 있지만 효율적인 데이터 카탈로그의 성공적인 구현을 위해서는 다음과 같은 요소가 필요합니다.

커넥터 및 큐레이션 도구

데이터 카탈로그는 데이터에 대한 단일 신뢰 장소 역할을 합니다. 커넥터는 데이터베이스의 물리적 데이터 세트를 매핑합니다. 따라서 데이터 카탈로그를 강화하기 위해 다양한 커넥터를 갖는 것이 중요합니다. Salesforce, SQL 쿼리, 비즈니스 인텔리전스 또는 데이터 통합 도구와 같은 여러 소스에서 메타데이터를 수집할 수 있으므로 이 데이터도 선별하는 것이 중요합니다. 검증 및 인증은 데이터 카탈로그의 효율성을 높이고 데이터 거버넌스를 지속 가능한 프로세스로 만드는 중요한 프로세스입니다.

자동화

데이터 카탈로그의 자동화를 통해 데이터 사용자는 데이터 문제의 유효성 검사 및 수정과 같은 중요한 프로세스에 집중할 수 있습니다. 이를 통해 데이터 카탈로그의 속도와 민첩성을 향상시키고 조직 내 데이터 세트를 풍부하게 할 수 있습니다.

효율적인 검색 옵션

검색은 데이터 카탈로그의 기본 구성 요소입니다. 강력한 검색 기능은 데이터 사용자에게 광범위한 선택 옵션을 제공하고 데이터에 대한 편리한 액세스를 제공합니다. 따라서 한 번에 고급 검색을 수행하려면 여러 매개변수를 사용할 수 있어야 합니다.

계보 또는 수명 주기 추적

계보를 통해 조회한 데이터의 수명 주기를 엿볼 수 있습니다. 불일치가 있는 경우 데이터 사용자는 데이터 카탈로그를 사용하여 쉽게 계보를 추적하여 문제를 찾고 수정할 수 있습니다. 또한 이를 통해 조직의 다양한 소스와 데이터 유형 간의 차이점을 이해할 수 있습니다.

유니버설 용어집 및 데이터 사전

조직의 데이터는 큰 가치를 가지는 부분이므로 모든 잠재적 이해 관계자가 쉽게 액세스하고 이해할 수 있어야 합니다. 일반적으로 데이터 카탈로그는 데이터 사전과 용어집으로 구성됩니다. 데이터 사전은 의미, 다른 데이터와의 관계, 출처, 사용 및 형식을 포함하여 카탈로그의 데이터에 대한 모든 메타데이터(일반적으로 테이블에 저장됨)의 집합입니다. 용어집을 통해 조직 구성원은 카탈로그에 사용된 비즈니스 용어를 식별하고 회사 전체에서 동일한 방식으로 사용할 수 있습니다.

프로파일링

데이터 프로파일링은 데이터의 완전성, 정확성, 일관성 및 적시성을 평가하는 프로세스입니다. 기본적으로 데이터 프로파일링은 비즈니스 문제를 해결하기 위한 데이터의 유용성을 결정합니다. 이 프로파일링은 여러 데이터 소스에서 데이터를 수집할 때 데이터 풀을 유지 관리하는 데 중요합니다.