Semelhante à forma como os engenheiros de software usam testes de unidade para identificar códigos com erros antes de serem enviados para produção, os engenheiros de dados geralmente aproveitam os Testes de Dados para detectar e evitar que possíveis problemas de qualidade dos dados se movam posteriormente.
Leia todos os tópicos:
- A Observabilidade de Dados é Essencial para o DataOps
- Por que a Observabilidade de Dados é Importante?
- Os Principais Recursos das Ferramentas de Observabilidade de Dados
- Observabilidade de Dados versus Testes de Dados
- Observabilidade de Dados versus Monitoramento de Pipeline de Dados
- Observabilidade de Dados versus Qualidade dos Dados
- Observabilidade de Dados versus Engenharia de Confiabilidade de Dados
- Qualidade dos Dados versus Confiabilidade dos Dados
- Sinais de que VOCÊ precisa de uma Plataforma de Observabilidade de Dados
- O Futuro da Observabilidade de Dados
Essa abordagem funcionou (na maior parte) até que as empresas começaram a ingerir tantos dados que um único ponto de falha simplesmente não era viável.
Encontrei inúmeras equipes de dados que enfrentam problemas consistentes de qualidade de dados, apesar de um regime de testes rigoroso. É desanimador e um mau uso do tempo de seus engenheiros.
A razão pela qual até mesmo os melhores processos de teste são insuficientes é porque existem dois tipos de problemas de qualidade de dados: aqueles que você pode prever ( incógnitas conhecidas ) e aqueles que você não pode ( incógnitas desconhecidas ).
Algumas equipes terão centenas (!) de testes para cobrir a maioria das incógnitas conhecidas, mas não têm uma maneira eficaz de cobrir as incógnitas desconhecidas.
Alguns exemplos de incógnitas cobertas pela observabilidade de dados incluem:
- Um painel ou relatório do Looker que não está sendo atualizado e os dados desatualizados passam despercebidos por vários meses – até que um executivo de negócios vai acessá-los no final do trimestre e percebe que os dados estão errados.
- Uma pequena alteração na base de código da sua organização que faz com que uma API pare de coletar dados que alimentam um campo crítico no painel do Tableau.
- Uma alteração acidental no seu esquema JSON que transforma 50.000 linhas em 500.000 durante a noite.
- Uma alteração não intencional acontece em seu ETL, ELT ou ETL reverso que faz com que alguns testes não sejam executados, levando a problemas de qualidade de dados que passam despercebidos por alguns dias.
- Um teste que faz parte dos seus pipelines há anos, mas que não foi atualizado recentemente para refletir a lógica de negócios atual.
- Em um artigo do Medium , Gilboa Reif, engenheiro de dados sênior do Vimeo, descreve como o uso de observabilidade de dados e monitores de dimensão em escala ajuda a resolver a lacuna de incógnitas que as ferramentas de código aberto e de transformação deixam em aberto.
Por exemplo, se a percentagem nula numa determinada coluna for anómala, isto pode ser um indicador de um problema mais profundo que é mais difícil de antecipar e testar.
O CTO da Choozle, Adam Woods, diz que a Observabilidade de Dados dá à sua equipe uma visão mais profunda do que o teste manual ou o monitoramento poderiam fornecer.
Sem uma ferramenta de Observabilidade de Dados, poderíamos ter cobertura de monitoramento nas tabelas resultantes finais, mas isso pode esconder muitos problemas. Você pode não ver algo pertencente a uma pequena fração das dezenas de milhares de campanhas naquela tabela, mas o [cliente] que está executando essa campanha verá isso. Com a Observabilidade de Dados chegamos a um nível em que não precisamos fazer concessões. Podemos ter alertas em todas as nossas 3.500 mesas.
Resumindo, a observabilidade dos dados é diferente e mais eficaz do que os testes porque fornece cobertura ponta a ponta, é escalonável e possui linhagem que ajuda na análise de impacto.
Clique aqui e nos contate via What's App para avaliarmos seus projetos
Comente e compartilhe este artigo!
Leia também:
Nenhum comentário:
Postar um comentário