Avançar para o conteúdo

6 Dimensões de Qualidade de Dados

As Dimensões de Qualidade de Dados surgem para nos ajudar a resolver um novo problema: ter muitos dados já não é mais suficiente, é preciso ter dados com qualidade e integridade.

Já se sabe que criar modelos, previsões ou relatórios baseados apenas em uma enorme quantidade de dados não garante resultados confiáveis e que realmente ajudarão o seu negócio.

As Dimensões de Qualidade de Dados servem como um guia para conhecermos nossos dados e entendermos suas limitações. Avaliar as dimensões, permite reconhecer falhas na coleta, integração e análise de dados. E se pensamos nas novas leis de proteção e privacidade de dados, saber quais e como são os dados que estamos tratando faz toda a diferença.

Permite direcionar planos de ação para encontrar a causa raiz de problemas maiores e garantir que os dados que usamos tem a qualidade máxima, levando a mais agilidade, confiança e lucro nos resultados.

Ainda, se mantivermos a Qualidade de Dados podemos descobrir novos usos antes não imaginados e expandir as possibilidades do nosso empreendimento!

As principais dimensões de Qualidade de Dados são

  • Acurácia
  • Completude
  • Unicidade
  • Consistência
  • Validade
  • Temporalidade

Origem dos problemas com as dimensões de qualidade de dados

Existem algumas questões básicas que acabam gerando problemas de Qualidade de Dados, como:

  • Documentação desatualizada, em desacordo com os processos atuais
  • Documentação confusa, incompleta ou com erros
  • Falta de integração entre as diferentes bases de dados
  • “Dados herdados” sem especificação ou metadata
  • Falta de padronização de registros ou das regras de negócio
  • Falta de conhecimento sobre a forma com que os dados são coletados
  • Falta de conhecimento de termos de negócio e objetivos
  • Falta de padronização de datas, nomes e outros atributos




As 6 Dimensões de Qualidade de Dados

Uma dimensão, neste caso, é o tetmo usado para descrever um atributo dos dados que pode ser medido ou avaliado em relação a padrões definidos para determinar a qualidade dos dados.

Podemos utilizar essa dimensão para avaliar um dataset, uma base de dados ou um único atributo de um banco de dados, por exemplo.

As Dimensões de Qualidade de Dados são importantes permitem criar um Plano de Qualidade de Dados, onde definimos valores mínimos a serem alcançados por cada métrica e o plano de ação para atingir esse resultado.

Podemos, inclusive, definir pesos ou prioridades para cada Dimensão, de modo a definir qual área atacar primeiro.

Não confunda com o conceito de dimensão em esquemas de Data Warehouse.

A tradução de cada Dimensão pode variar com a referência.

Se você quiser saber ainda mais sobre as Dimensões da Qualidade de Dados, baixe o ebook gratuito aqui.

Acurácia – Accuracy

Considerada por muitos autores a Dimensão de Qualidade de Dados mais importante, representa o quão corretamente os dados descrevem o “mundo real”.

Se não houver precisão, a informação pode não ser válida para uso.

No caso de um cadastro de cliente, a Acurácia é atingida quando os dados do cliente em questão estão atualizados e de acordo com a sua realidade. Por exemplo, se o cliente muda de endereço e essa mudança não se reflete na base de dados, não há Acurácia. O mesmo acontece se, a cada ano, não há mudança na idade registrada do cliente.

Também podemos analisar datas. Supondo que uma transação tenha sido feita no dia 07/06/22, mas está registrada como 06/07/22, temos um problema de Acurácia.

Completude – Completeness

A completude é a proporção de dados existentes em relação a todos os atributos presentes.

Em outras palavras, avaliaremos quanta informação está faltando em cada item dos nossos dados.

Essa Dimensão de Qualidade de Dados pode ser representada através da porcentagem de valores nulos ou brancos ou da porcentagem de valores não-nulos.

Você conhece o Problema do Valor Nulo? Ele pode ser um desafio ao medirmos essa Dimensão! Saiba mais aqui.

Supondo uma base de dados de clientes de uma loja virtual, por exemplo: podemos avaliar se cada cliente tem informação de e-mail, endereço ou número de telefone. Se algum destes for faltante, a completude da nossa base de dados reduz.

Outro detalhe importante: dados mandatórios devem ter sempre completude de 100%




Unicidade – Uniqueness

A Unicidade, ou Singularidade, é uma Dimensão de Qualidade de Dados que se refere a termos apenas um registro único de algo – por exemplo, um número de identificação.

Essa Dimensão também impacta na consistência dos dados, uma vez que o número de registros do “mundo real” deve ser o mesmo presente no dataset.

Por exemplo, se uma empresa tem 300 funcionários mas o banco de dados indica 320, temos uma singularidade de 300/320 * 100 = 93.75. O que pode ter acontecido neste caso são funcionários que trocaram de cargo e foram inseridos duas vezes, ou talvez alguma abreviação ou troca de nome, que levou um único funcionário a ter dois registros diferentes.

Fique atento aos casos em que está correto existir mais de um registro!

Consistência – Consistency

A Dimensão é medida pela diferença entre a comparação de duas ou mais representações de alguma coisa, em relação a uma definição.

Ok, vamos tentar de novo. A Dimensão de Consistência diz que deve-se comparar um item de uma base de dados ou dataset com a mesma representação desse item em outro local.

Por exemplo, o banco de dados de clientes de uma concessionária indica um CPF, que está de acordo com o CPF do mesmo cliente no banco de dados de carros vendidos. Nos dois locais diferentes, a informação do CPF está consistente.

Atenção: é possível haver Consistência sem haver Precisão ou Conformidade.

Validade – Validity

Essa Dimensão de Qualidade de Dados compara a representação do dado em relação a sua definição. Avaliaremos o formato, tipo, valores permitidos e outros atributos do dado.

Sendo assim, deve-se comparar como os dados estão realmente definidos no banco de dados e na documentação, buscando que sempre estejam compatíveis e da forma esperada para não haver erros em análises.

Um exemplo simples é em numa base de dados de clientes. Se a idade do cliente for definida como “M”, este valor deve rejeitado ou considerado inválido, pois é esperado um número. O que pode ter acontecido é que houve uma troca na posição de colunas ou erro de digitação.

Temporalidade – Timeliness

É a capacidade que o dado tem de representar corretamente um momento no tempo. Tem também relação com a velocidade de atualização dos dados.

Um problema nesta dimensão também indica problemas na Precisão dos dados.

Um exemplo: vamos supor que o tempo definido para a atualização dos contatos de emergência de uma escola seja de 2 dias. Um aluno pediu a troca de um contato no dia 1º, mas essa nova informação entrou no banco de dados apenas do dia 4. Houve um atraso de 3 dias, quebrando o requisito de temporalidade.

Se você quiser saber ainda mais sobre as Dimensões da Qualidade de Dados, baixe o ebook gratuito aqui.

Como garantir as Dimensões de Qualidade de Dados?

Para obter dados com qualidade, é preciso conhecer os seus dados e entender os seus processos.

Podem aparecer problemas desde a coleta e inserção dos dados, durante a integração e transformações e até no momento de realizar as análises.

Uma maneira de garantir que seus critérios mínimos de Qualidade de Dados sejam cumpridos é introduzir processos que realizem a limpeza, padronização e controle dos dados.

Isso pode ser alcançado através de diferentes ferramentas de ETL, necessidades bem definidas, controles de versão e um Programa de Gestão e Governança de Dados Consciente.

Leia mais: Integração de Dados

Vantagens de garantir as Dimensões de Qualidade de Dados

As principais vantagens de manter o controle das Dimensões de Qualidade de Dados são:

  • Menos custos em corrigir algum erro causado por falta de qualidade de dados. É mais barato prevenir do que corrigir!
  • Acesso mais rápido a dados críticos
  • Maior eficiência e agilidade nos processos
  • Maior facilidade em encontrar novas possibilidades com os dados
  • Orientação a dados mais eficiente
  • Melhora no processo de decisão e confiabilidade de resultados
  • Processos mais éticos e justos
  • Maior independência da equipe

Exemplos práticos do uso de Dimensões de Qualidade de Dados

  • Campanhas de marketing: endereços de e-mail incorretos ou faltantes teriam um impacto significativo, uma vez que clientes em potencial não serão contactados e recursos seriam desperdiçados
  • Detalhes pessoais errados podem levar a oportunidades de vendas perdidas ou um aumento nas reclamações de clientes
  • Logística: mercadorias podem ser enviadas para os locais errados ou a medição incorreta da carga podem levar a problemas grandes como falta de espaço para o carregamento, envio de transportes a mais do que o necessário e realização de trajetos maiores sem necessidade
  • Relatórios Financeiros: definição incorreta de taxas e moedas pode causar problemas em balanços
  • Datas incorretas: podem atrasar pedidos, gerar problemas de contabilidade, gerar registros duplicados e muito mais
  • Problema do Valor Nulo




2 comentários em “6 Dimensões de Qualidade de Dados”

  1. Pingback: Metodologias CRISP-DM e SEMMA - Diário de Dados

  2. Pingback: Desafios da Gestão de Dados no Esporte - Diário de Dados

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *