O que é um catálogo de dados?

Um catálogo de dados é um inventário dos ativos de dados de uma empresa para que os usuários possam encontrar rapidamente as informações de que precisam. O catálogo é constituído principalmente de metadados que fornecem informações básicas sobre outros dados e descrevem o que são. Combinados com gerenciamento de dados e ferramentas de pesquisa, você tem um catálogo de dados.

Diagrama do catálogo de dados

Na era do big data, os catálogos de dados são um componente chave no gerenciamento de dados. As pessoas que trabalham com dados usam catálogos de dados para pesquisar ativos de dados necessários em todas as fontes de uma organização, que podem estar espalhadas e difíceis de navegar. As implementações bem-sucedidas do catálogo de dados podem fazer uma grande diferença na velocidade e na qualidade da análise de dados porque ajudam os usuários a encontrar rapidamente os dados de que precisam.

Os catálogos de dados oferecem vários benefícios para a organização. Em primeiro lugar, um catálogo de dados pode fornecer aos usuários todas as fontes certas, no formato certo, na visualização certa, na hora certa, com o nível certo de controle. Os catálogos de dados garantem que todas as informações que você possui em todas as suas diferentes fontes em um contexto de várias nuvens possam ser encontradas e obtidas imediatamente. Isso significa que os usuários podem construir e implantar modelos em um contexto em tempo real.

Além de oferecer contexto aos analistas de dados que precisam usar os dados para fins comerciais, os catálogos de dados também possibilitam automatizar o gerenciamento de metadados. Essa automação permite que o catálogo de dados se torne a única fonte de dados mais confiável em sua organização, tornando-o colaborativo para que as partes interessadas selecionem e coletem dados conforme necessário.

Uma biblioteca é uma analogia comum usada para descrever catálogos de dados. Uma biblioteca se revela a metáfora ideal, pois armazena ativos de informação (como livros) e requer um sistema para organizar esses ativos de informação. Nessa analogia, enquanto os livros atuam como ativos de informação, as informações sobre o livro, como título, autor, ISBN e gênero, atuam como metadados. Um catálogo mantido para identificar os livros, sua posição e outras informações é exatamente como funciona um catálogo de dados. Ele permite que os leitores encontrem a lista de livros disponíveis, selecionem de acordo com seu gosto e escolham os livros de que precisam rapidamente.

Relatório O'Reilly: Construindo uma Infraestrutura de Dados Unificada
Relatório O'Reilly: Construindo uma Infraestrutura de Dados Unificada
Apenas um terço das empresas evoluiu para organizações orientadas por dados. Qual é a solução? Descubra neste e-book!

Necessidades de negócios para um catálogo de dados

Os dados de negócios estão crescendo tremendamente a cada dia. Espera-se que a esfera de dados global se expanda de 33 Zettabytes (ZB) em 2018 para enormes 175 ZB em cinco anos. Dados nessa escala são difíceis de manusear e navegar, podendo ser armazenados em vários provedores de nuvem, em diferentes formatos, com diferentes tecnologias de armazenamento. Sua qualidade pode diminuir ao longo do tempo, pois os dados têm um prazo de validade e os conjuntos de dados estão sempre mudando (você está adicionando novos conjuntos, derivando novos conjuntos de conjuntos de dados existentes etc.). Você também tem diferentes tipos de usuários, de cientistas de dados a desenvolvedores e usuários de negócios, cada um com diferentes requisitos e conjuntos de habilidades quando se trata de dados. Você nem sempre pode depender da TI para criar uma nova solução toda vez que um usuário precisa resolver um problema de negócios. Você precisa de uma maneira de gerenciar tudo isso.

Um catálogo de dados é um passo fundamental para a estruturação de dados de maneira lógica e engenhosa. Pode revelar-se um ativo importante para uma organização, pois pode ajudar a:

  • Criar um reservatório para os dados, incluindo informações sobre a qualidade, estrutura, uso e estatísticas dos dados
  • Permitir aos usuários colaborar remotamente nos dados à medida que acessam os metadados junto com os dados reais
  • Garantir que os dados sejam precisos e consistentes em toda a esfera de dados, atualizando-se automaticamente e com frequência
  • Acessar a linhagem dos dados e visualizar informações como fonte, modificações e acessos aos dados
  • Compartilhar ativos de dados com as partes interessadas de maneira segura
Modernize seus dados e arquitetura analítica
Modernize seus dados e arquitetura analítica
Confira esses 13 casos de uso para aprender como dar suporte ao complexo cenário atual de dados e análises.

Fatores-chave de um catálogo de dados

Um catálogo de dados pode ser criado de várias maneiras, mas para garantir a implementação bem-sucedida de um catálogo de dados eficiente, os seguintes fatores são necessários.

Conectores e ferramentas de curadoria

Um catálogo de dados serve como um único local de confiança para dados. Os conectores mapeiam os conjuntos de dados físicos em seu banco de dados; portanto, é importante ter uma ampla gama de conectores para reforçar o catálogo de dados. Como os metadados podem ser coletados de várias fontes, como Salesforce, consultas SQL, business intelligence ou ferramentas de integração de dados, é importante organizar esses dados também. A validação e a certificação são processos importantes que aumentam a eficiência de um catálogo de dados e tornam a governança de dados um processo sustentável.

Automação

A automação em catálogos de dados permite que os usuários de dados se concentrem em processos cruciais, como validação e correção de problemas. Isso aumenta a velocidade e a agilidade do catálogo de dados e enriquece os conjuntos de dados dentro da organização.

Opções de pesquisa eficientes

A pesquisa é o principal componente de um catálogo de dados. Um poderoso recurso de pesquisa oferece uma ampla variedade de opções de seleção aos cidadãos de dados e oferece acesso conveniente aos dados. Portanto, é importante ter vários parâmetros disponíveis para realizar pesquisas avançadas de uma só vez.

Linhagem ou rastreamento do ciclo de vida

A linhagem oferece um noção do ciclo de vida dos dados visualizados. Em caso de discrepâncias, os usuários podem usar o catálogo de dados para rastrear facilmente a linhagem para localizar o problema e corrigi-lo. Também ajuda a entender a diferença entre várias fontes e tipos de dados na organização.

Glossário universal e dicionário de dados

Os dados de uma organização são uma grande parte de seu valor, e por isso precisam ser acessíveis e fáceis de entender por todas as partes interessadas em potencial. Normalmente, um catálogo de dados é composto por um dicionário de dados e um glossário. O dicionário de dados é uma coleção de todos os metadados (geralmente armazenados em tabelas) sobre os dados em seu catálogo, incluindo significado, relacionamentos com outros dados, origem, uso e formato. O glossário permite que os membros da organização identifiquem os termos comerciais utilizados no catálogo e os utilizem da mesma forma em toda a empresa.

Criação de perfil de dados

A criação de perfil de dados é o processo de avaliação de seus dados quanto à integridade, precisão, consistência e pontualidade. Basicamente, o perfil de dados determina a utilidade dos dados para resolver problemas de negócios. Isso é importante para a manutenção de seu pool de dados ao coletar dados de várias fontes.