O que é a qualidade de dados?

A qualidade de dados é quando os dados se encaixam no propósito para o qual foram destinados. Os dados também são considerados de alta qualidade quando representam com precisão construções do mundo real.

Para entender isso, você precisa ver os dados como a pedra fundamental de uma hierarquia construída sobre eles. Sobre a base dos dados, vem a informação, que são dados colocados em contexto. Da informação útil vem o conhecimento, que se transforma em sabedoria quando é aplicado. Dados de má qualidade resultarão em má qualidade da informação, e isso sobe na hierarquia, resultando em más decisões de negócios.

Diagrama de qualidade de dados

Quando os dados se encaixam em um propósito pretendido e representam construções do mundo real, eles são considerados de alta qualidade. No entanto, isso também pode ser de natureza contraditória.

Um exemplo é o registro de dados mestres de um cliente que usa um produto da empresa. Os dados do cadastro podem ser suficientes para emitir uma fatura para o referido cliente, mas a falta de detalhes precisos de endereço e telefone pode não ser o ideal para o departamento de atendimento ao cliente, e isso pode gerar um problema comercial.

Idealmente, o registro de dados mestres deve servir a vários propósitos. Para isso, é necessário um alinhamento do mundo real, onde os dados se encaixam na finalidade pretendida e também podem ser usados para outros objetivos de negócios. Isso deve ser feito sem uma necessidade desproporcional de recursos para coletar dados. Em outras palavras, é necessário um equilíbrio entre os dois aspectos da definição de qualidade de dados.

O erro humano está no topo da lista como motivo de imprecisão que leva a dados de má qualidade. Trabalhar na correção de dados de baixa qualidade é demorado, exige um esforço hercúleo e precisa de uma combinação ideal de pessoas, melhores processos e tecnologias. Outras razões para a qualidade inferior dos dados incluem a falta de comunicação entre os departamentos e estratégias de dados inadequadas. A resolução desses problemas depende de um gerenciamento proativo.

Modernize seus dados e arquitetura analítica
Modernize seus dados e arquitetura analítica
Confira esses 13 casos de uso para aprender como dar suporte ao complexo cenário atual de dados e análises.

Importância da qualidade dos dados

Em toda a hierarquia de uma empresa, não há dúvida de que dados de boa qualidade funcionam a favor do resultado final. No entanto, permanecem as questões sobre quem é responsável por garantir que a qualidade dos dados permaneça consistentemente boa e como esses esforços serão financiados em uma organização. A qualidade dos dados precisa ser testada em um nível minucioso para entender seu impacto – positivo ou negativo – em um negócio, e isso pode ser bastante difícil. A importância de implementar protocolos para garantir a qualidade dos dados pode ser vista nos exemplos a seguir:

  • Para o departamento de marketing da sua empresa, o problema de duplicatas nos dados pode levar ao gasto excessivo do orçamento de marketing. Por exemplo, o mesmo banco de dados pode receber materiais de marketing com pequenas variações no nome de um cliente em potencial. Isso pode não apenas frustrar o cliente, mas também criar duplicações inteiras de perfis de clientes.
  • O departamento de vendas online pode estar promovendo a criação de uma decisão de compra de autoatendimento. Mas, com a ausência de dados de produtos completos nos bancos de dados existentes e com a forma como os dados de produtos são distribuídos entre os parceiros de produtos, a qualidade dos dados pode ser uma tarefa difícil de implementar.
  • Para a parte da cadeia de suprimentos do seu negócio, onde você pode querer automatizar processos, é difícil obter dados de localização confiáveis porque os mesmos padrões e precisão dos dados de localização não podem ser aplicados a todos os locais que estão sendo atendidos.
  • Para departamentos que dependem de relatórios financeiros, o problema de receber uma ampla gama de respostas para uma única pergunta ocorre devido a ausência de dados atualizados, inconsistência nos dados ou ausência de parâmetros claros.

Tudo isso se junta para criar um impacto drasticamente negativo nos aspectos corporativos de um negócio e dificultar o cumprimento dos objetivos de negócios. A maioria desses objetivos é comum em uma ampla gama de negócios.

Sem uma boa qualidade de dados, as empresas:

  • Serão incapazes de aproveitar as novas oportunidades de mercado. Isso pode prejudicar suas margens de lucro e dificultar sua trajetória de crescimento.
  • Não serão capazes de introduzir medidas de redução de custos. A falta de dados de boa qualidade exige que muitas inspeções e correções manuais sejam feitas antes que eles possam ser usados. A automação de processos torna-se então difícil sem dados completos e consistentes.
  • Não serão capazes de atender a requisitos de conformidade, pois isso será cada vez mais difícil sem dados de boa qualidade. Os requisitos abrangem aspectos como regulamentos de privacidade e proteção de dados, bem como requisitos de saúde e segurança. Também abrangem aspectos de restrições financeiras e diretrizes. Ter dados de boa qualidade é essencial para atingir os objetivos de conformidade.
  • Terão dificuldades em fazer uso de ferramentas de análise preditiva em ativos de dados corporativos. Isso pode afetar as decisões de curto e longo prazo, tornando as coisas extremamente difíceis para uma empresa em termos de progresso. Os desafios enfrentados surgem de questões como duplicação de dados, dados incompletos, inconsistência e imprecisão das previsões.
Relatório O'Reilly: Construindo uma Infraestrutura de Dados Unificada
Relatório O'Reilly: Construindo uma Infraestrutura de Dados Unificada
Apenas um terço das empresas evoluiu para organizações orientadas por dados. Qual é a solução? Descubra neste e-book!

Os benefícios dos dados de qualidade

As organizações que estão investindo na criação de dados de qualidade são capazes de aproveitar os dados para tomar melhores decisões de negócios.

Dados de alta qualidade facilitam a melhor tomada de decisão

O mercado hoje é naturalmente centrado no consumidor. Com dados de alta qualidade, as empresas poderão facilitar melhores decisões. Por exemplo, se uma análise de dados mostrar que as pessoas começaram a passar cada vez mais tempo ao ar livre fazendo compras e jantando às quintas-feiras do que às sextas-feiras, as empresas podem optar por permanecer abertas por mais tempo ou disponibilizar ofertas exclusivas para impulsionar os negócios.

Colaboração de equipe aprimorada

Quando os vários departamentos de uma organização têm acesso constante aos mesmos dados de alta qualidade, o resultado é uma comunicação muito melhor e mais eficaz. Isso torna mais fácil para todos os membros da equipe permanecerem alinhados em termos de prioridades e mensagens, bem como em relação à marca. Tudo isso se combina para garantir melhores resultados.

Entender melhor o cliente

Com dados de boa qualidade, as empresas podem avaliar melhor os interesses e as necessidades dos clientes. Isso ajuda uma organização a crescer criando produtos melhores, voltados às necessidades do cliente. As campanhas criadas podem ser conduzidas com base nos desejos do consumidor e no feedback direto dos dados, e não apenas em estimativas.

Como você avalia a qualidade dos dados?

Dado que as organizações podem perder consideravelmente se os processos de negócios forem baseados em dados de má qualidade, torna-se imperativo que proprietários e gerentes entendam como a qualidade dos dados pode ser avaliada. Essa tarefa inclui a configuração de métricas e processos que avaliam a qualidade dos dados. As empresas precisarão trabalhar para aprimorar a qualidade dos dados em avaliações objetivas e subjetivas. Para que as empresas melhorem a qualidade dos dados, elas devem:

  • Avaliar profundamente as métricas de qualidade de dados objetivas e subjetivas
  • Analisar resultados e verificar as causas de quaisquer discrepâncias
  • Trabalhar em maneiras de melhorar

Avaliações de dados subjetivas

Com avaliações subjetivas, as organizações estão medindo como as partes interessadas, analistas, coletores e outras partes percebem a qualidade dos dados. Se qualquer uma das partes interessadas tomar uma decisão com base nos dados recebidos, mas achar que eles são imprecisos ou incompletos, essa decisão será afetada. Isso deve ser levado em consideração ao buscar lacunas na qualidade dos dados.

Avaliações de dados objetivas

As avaliações objetivas da qualidade dos dados analisam indicações mensuráveis, que são registradas em um conjunto de dados e, em seguida, avaliadas a partir de duas perspectivas:

  • Seu desempenho dentro de uma tarefa específica
  • Do ponto de vista de que é um conjunto de dados baseado em métricas que pode ser usado independentemente

Para definir essas métricas para avaliação de dados objetiva, as organizações podem trabalhar em princípios para desenvolver indicadores-chave de desempenho (KPIs) que atendam às suas necessidades específicas. Estes são conhecidos como formas funcionais. Existem três maneiras pelas quais as formas funcionais são medidas para qualidade:

  • Razão simples: aqui, o número total de resultados desejados é medido com o total de resultados possíveis. O intervalo geralmente situa-se entre 0 e 1, sendo 1 o resultado mais preferido. Tanto a completitude quanto a consistência podem ser medidas com essa razão. O problema aqui é que ambas as dimensões podem ser medidas de várias maneiras diferentes, e as organizações precisarão ter critérios estabelecidos para que as melhores medidas surjam.
  • Mínimo ou máximo: criada para lidar com múltiplas variáveis de qualidade de dados, essa forma funcional tem o mínimo como um número conservador e o máximo como um número mais liberal. As variáveis, como o nível de precisão dos dados, são marcadas pelo mínimo. Aspectos como pontualidade e/ou acessibilidade são representados pelo máximo.
  • Média ponderada: são uma alternativa ao mínimo e podem ser utilizadas quando uma organização está tentando investigar e entender o valor que cada variável traz para a equação.

Depois que uma organização avaliou todas as métricas de qualidade de dados objetivas e subjetivas, ela pode passar a tomar medidas que ajudarão a simplificar seus processos. Dedicar tempo para analisar os processos e tomar decisões objetivas é uma perda de tempo, a menos que as ações tomadas sejam eficazes e consistentemente executadas.

Como melhorar a qualidade dos dados

Para qualquer organização, melhorar a qualidade dos dados é algo ligado à combinação certa de pessoas qualificadas, processos inteligentes e tecnologias precisas. Tudo isso, combinado com um gerenciamento proativo de alto nível, pode ajudar a melhorar substancialmente a qualidade dos dados.

Dimensões da qualidade dos dados

Ao trabalhar para melhorar a qualidade dos dados, a principal tarefa é trabalhar para melhorar a gama de dimensões da qualidade dos dados. A dimensão mais abordada é a da unicidade dos dados mestres do cliente. Esse banco de dados geralmente sofre com a duplicação, onde duas ou mais linhas de entrada podem ter os mesmos dados de uma entidade (o cliente). Existem várias maneiras de garantir que os dados não sejam duplicados, no ponto de entrada ou com técnicas de deduplicação de dados já armazenados em bancos de dados.

No caso de dados mestres de produto, a dimensão de unicidade não é um grande problema a ser enfrentado. O problema crucial é o da completitude. A principal razão para a falta de completitude é que diferentes categorias de produtos terão requisitos variados, e nem todos eles serão atendidos. Em muitos casos, a conformidade dos dados do produto tem relação direta com o local (por exemplo, medidas de unidade). Enquanto os EUA medem o comprimento em polegadas, o resto do mundo mede em centímetros.

Trabalhar com dados mestres em relação ao local traz o problema da falta de um modelo de entrada consistente. Com tantos formatos variados usados em todo o mundo, padronizar as entradas pode ser extremamente difícil.

Aspectos a considerar nas interseções

Em algum ponto, os domínios de localização e cliente vão se cruzar, e a dimensão de precisão será difícil de manter. Isso ocorre porque diferentes casos de uso utilizam diferentes dimensões de precisão para localização.

Para permitir que essa interseção aconteça com sucesso, é importante entender os desejos dos clientes, a partir dos quais detalhes relevantes de um produto podem ser compartilhados com eles. Isso ajudará na interseção dos domínios de dados mestres do cliente e do produto.

Seis dimensões principais para basear os padrões de qualidade de dados

Esses padrões podem variar de um projeto para outro, mas a base geralmente deve permanecer a mesma. Dados de alta qualidade sempre terão esses seis padrões básicos.

  1. Abrangência: veja quais campos essenciais precisam ser preenchidos para que um conjunto de dados seja considerado completo. No caso de um banco de dados de clientes, nome e endereço serão absolutamente obrigatórios, mas dependendo do produto ou serviço, o sexo pode não ser. Cada vez mais, a remoção de Sr./Sra./Srta. é considerada, não apenas por razões de inclusividade para aqueles que não se encaixam em nenhuma categoria, mas porque simplesmente seu conhecimento não é necessário.
  2. Consistência: certifique-se de que todas as iterações de qualquer dado sejam as mesmas em quaisquer relatórios, resultados de análises ou planilhas que estejam sendo criados e usados. Procure por inconsistências, pois elas podem levar a dados de má qualidade no futuro. Um bom software deve ajudar a remover ou identificar inconsistências.
  3. Precisão: a consistência é necessária para garantir um valor único em todos os canais. A precisão, por outro lado, assegura que esses valores sejam corretos e reflitam a realidade que os dados representam. Se isso for um problema, o uso de robótica para inserir dados pode remover o erro humano.
  4. Formato: garantir que os formatos de entrada de dados sejam consistentes deve ser a pedra angular da entrada de dados. Crie um formato único e cumpra-o, mesmo nos mínimos detalhes, como o ano de fabricação. Formato de data americano ou inglês? Tudo em maiúsculas?
  5. Temporalidade: a eficácia de qualquer dado é o quão atual e relevante ele é no momento em que é recuperado para uso pelo usuário final. Quando os dados estão atualizados, disponíveis para os tomadores de decisão no momento certo e são a versão mais atualizada de si mesmos, a temporalidade pode ser garantida.
  6. Integridade: este é um critério que verifica se um conjunto de dados está em conformidade com as regras e os padrões estabelecidos pela organização. Valores ausentes podem atrapalhar a eficácia dos dados.

Garantir que essas dimensões sejam claramente observadas fornecerá às organizações conjuntos de dados precisos, de alta qualidade e indispensáveis para a tomada de decisões de qualidade.