O Apache Spark é uma estrutura de software que permite aos analistas de dados e cientistas de dados processarem rapidamente vastos conjuntos de dados.
+ Ferramentas para analisar:
O Apache Spark foi desenvolvido pela primeira vez em 2012 antes de ser doado para a Fundação Apache de software sem fins lucrativos.
O Apache Spark foi projetado para analisar Big Data não estruturado, distribuindo tarefas de análise computacionalmente pesadas em muitos computadores. Enquanto outras estruturas semelhantes existem (por exemplo, Apache Hadoop) a Centelha é excepcionalmente rápida.
O Apache Spark usando RAM em vez de memória local, é cerca de 100x mais rápido que o Hadoop. E é por isso que é frequentemente usado para o desenvolvimento de modelos de Aprendizado de Máquina pesados.
Tipo de ferramenta: Estrutura de processamento de dados.
Disponibilidade: Fonte aberta.
Usado principalmente para: Processamento de big data, aprendizado de máquina.
Profissionais: Rápido, dinâmico, fácil de usar.
Contras: Sem sistema de gerenciamento de arquivos, interface rígida do usuário.
O Apache Spark ainda tem uma biblioteca de algoritmos de Aprendizado de Máquina, MLlib, incluindo classificação, regressão e algoritmos de clustering, para citar alguns.
No lado negativo, consumir tanta memória significa que Spark é computacionalmente caro.
O Apache Spark também não possui um sistema de gerenciamento de arquivos, por isso geralmente precisa de integração com outros softwares, ou seja, o Hadoop.
Nenhum comentário:
Postar um comentário