✔ Programação GLOBAL®: Apache Spark - TOP Ferramentas de Análise de Dados para Analistas de Dados

Apache Spark - TOP Ferramentas de Análise de Dados para Analistas de Dados

O Apache Spark é uma estrutura de software que permite aos analistas de dados e cientistas de dados processarem rapidamente vastos conjuntos de dados.

+ Ferramentas para analisar:

O Apache Spark foi desenvolvido pela primeira vez em 2012 antes de ser doado para a Fundação Apache de software sem fins lucrativos.

O Apache Spark foi projetado para analisar Big Data não estruturado, distribuindo tarefas de análise computacionalmente pesadas em muitos computadores. Enquanto outras estruturas semelhantes existem (por exemplo, Apache Hadoop) a Centelha é excepcionalmente rápida.

O Apache Spark usando RAM em vez de memória local, é cerca de 100x mais rápido que o Hadoop. E é por isso que é frequentemente usado para o desenvolvimento de modelos de Aprendizado de Máquina pesados.

Tipo de ferramenta: Estrutura de processamento de dados.

Disponibilidade: Fonte aberta.

Usado principalmente para: Processamento de big data, aprendizado de máquina.

Profissionais: Rápido, dinâmico, fácil de usar.

Contras: Sem sistema de gerenciamento de arquivos, interface rígida do usuário.

Leia também

O Apache Spark ainda tem uma biblioteca de algoritmos de Aprendizado de Máquina, MLlib, incluindo classificação, regressão e algoritmos de clustering, para citar alguns.

Reveja o básico:

Visualização de Dados Interativa | Filtros de Parametrização - 1ª das QUATRO Maneiras de se Fazer Isso

No lado negativo, consumir tanta memória significa que Spark é computacionalmente caro.

Leia também

O Apache Spark também não possui um sistema de gerenciamento de arquivos, por isso geralmente precisa de integração com outros softwares, ou seja, o Hadoop.

Comente e compartilhe este artigo!

brazilsalesforceeffectiveness@gmail.com

Série BI | Marketing e Inteligência de Mercado: