O Data Pipeline demonstra uma série de ferramentas e ações para organizar e transformar dados em diferentes sistemas de armazenamento e análise, automatizando o processo de ETL.
Por exemplo, pode-se coletar informações sobre os dispositivos dos clientes, localização e duração da sessão, rastreando suas compras e interação com o atendimento ao cliente da Marca.
O Data Pipeline de Big Data geralmente inclui os estágios de ingestão, data lake, preparação e computação, armazenamento de dados e apresentação.
Data Lake vs Data Warehouse
O Data Lake armazena dados brutos e, normalmente, a finalidade dos dados ainda não é determinada, mas os dados internos são altamente acessíveis e rápidos para fazer alterações.
O Data Warehouse armazena dados processados para fins específicos, geralmente em uso no momento. A acessibilidade pode ser mais complicada (compare com Data Lake) e cara para atualizar.