Apache Spark - TOP Ferramentas de Análise de Dados para Analistas de Dados

Apache Spark - TOP Ferramentas de Análise de Dados para Analistas de Dados

O Apache Spark é uma estrutura de software que permite aos analistas de dados e cientistas de dados processarem rapidamente vastos conjuntos de dados.

+ Ferramentas para analisar:

KNIME - TOP Ferramentas de Análise de Dados para Analistas de Dados 


Tableau - TOP Ferramentas de Análise de Dados para Analistas de Dados

 
SAS  - Statistical Analysis System - TOP Ferramentas de Análise de Dados para Analistas de Dados

Apache Spark - TOP Ferramentas de Análise de Dados para Analistas de Dados

Jupyter Notebook - TOP Ferramentas de Análise de Dados para Analistas de Dados

Linguagem R - TOP Ferramentas de Análise de Dados para Analistas de Dados 

 Python - TOP Ferramentas de Análise de Dados para Analistas de Dados

Microsoft Excel - TOP Ferramentas de Análise de Dados para Analistas de Dados


O Apache Spark foi desenvolvido pela primeira vez em 2012 antes de ser doado para a Fundação Apache de software sem fins lucrativos. 

O Apache Spark foi projetado para analisar Big Data não estruturado, distribuindo tarefas de análise computacionalmente pesadas em muitos computadores. Enquanto outras estruturas semelhantes existem (por exemplo, Apache Hadoop) a Centelha é excepcionalmente rápida. 

O Apache Spark usando RAM em vez de memória local, é cerca de 100x mais rápido que o Hadoop. E é por isso que é frequentemente usado para o desenvolvimento de modelos de Aprendizado de Máquina pesados.

Tipo de ferramenta: Estrutura de processamento de dados.
Disponibilidade: Fonte aberta.
Usado principalmente para: Processamento de big data, aprendizado de máquina.
Profissionais: Rápido, dinâmico, fácil de usar.
Contras: Sem sistema de gerenciamento de arquivos, interface rígida do usuário.



Leia também
Business Intelligence na Indústria Farmacêutica - Intro - Um Facilitador da Transformação
Qual o papel do BI - Business Intelligence - na Indústria Farmacêutica?
Business Intelligence na Indústria Farmacêutica - Indo além da Excelência Operacional
Business Intelligence na Indústria Farmacêutica - Impulsionando a Mudança Organizacional

Apache Spark ainda tem uma biblioteca de algoritmos de Aprendizado de MáquinaMLlib, incluindo classificação, regressão e algoritmos de clustering, para citar alguns. 

Reveja o básico: 

Visualização de Dados Interativa | Exibição Dinâmica do Painel de Parâmetros - 4ª das QUATRO Maneiras de se Fazer Isso

Visualização de Dados Interativa | Drill-down com Vinculação - 3ª das QUATRO Maneiras de se Fazer Isso

Visualização de Dados Interativa | Vinculação de Parâmetros - 2ª das QUATRO Maneiras de se Fazer Isso 

Visualização de Dados Interativa | Filtros de Parametrização - 1ª das QUATRO Maneiras de se Fazer Isso  

No lado negativo, consumir tanta memória significa que Spark é computacionalmente caro. 

Leia também
Grande parte dos Dados está em Vários Lugares - Location - PRIMEIRA DAS 5 Razões pelas quais os Dados de Saúde são Únicos e Difíceis de Medir

Dados Estruturados e Desestruturados - Structured vs Non-Structured - SEGUNDA DAS 5 Razões pelas quais os Dados de Saúde são Únicos e Difíceis de Medir

Definições Inconsistentes/Variáveis - Data Definitions - TERCEIRA DAS 5 Razões pelas quais os Dados de Saúde são Únicos e Difíceis de Medir

Dados Complexos - Data Complexity - QUARTA DAS 5 razões pelas quais os Dados de Saúde são Únicos e Difíceis de Medir

Alteração dos Requisitos Regulatórios - Regulations & Requirements - QUINTA DAS 5 razões pelas quais os Dados de Saúde são Únicos e Difíceis de Medir

Apache Spark também não possui um sistema de gerenciamento de arquivos, por isso geralmente precisa de integração com outros softwares, ou seja, o Hadoop.


Comente e compartilhe este artigo!


brazilsalesforceeffectiveness@gmail.com



Série BI | Marketing e Inteligência de Mercado:

Indústria Farmacêutica - BI | Marketing e Inteligência de Mercado - Os Benefícios das Soluções

Indústria Farmacêutica - BI | Marketing e Inteligência de Mercado - Aplicando o BI

Indústria Farmacêutica - BI | Marketing e Inteligência de Mercado - Como funciona o Business Intelligence

Indústria Farmacêutica - BI | Marketing e Inteligência de Mercado - Devo Investir em Soluções de BI?

Indústria Farmacêutica - BI | Marketing e Inteligência de Mercado


Série SELO RARO:

Série SELO RARO - Copie os Dados de um Arquivo para Outro Série SELO RARO - Substitua Células Vazias por um Valor
Série SELO RARO - Mostrar Linhas Escondidas Série SELO RARO - Classificar Números

Série SELO RARO - Excluir Linhas e Colunas Vazias 
Série SELO RARO - Remova Espaços Vazios

Série SELO RARO - Encontre Células em Branco Série SELO RARO - Destaque Valores Duplicados

Série SELO RARO - Destaque os 10 Principais Valores Série SELO RARO - Compare e Destaque Um Valor Maior do que Outros Valores

Série SELO RARO - Destaque Células com Comentários Série SELO RARO - Destaque Células com Palavras Mal Escritas



Leia também:

eBook: Série DONUT PROJECT 2015: Projetos e Códigos de Visual Basic for Applications - Autor: André Luiz Bernardes  eBook: Série Top 10 Funções: Top 10 Funções VBA para o Microsoft Excel - Autor: André Luiz Bernardes

eBook: Série Funções Poderosas: 13 Funções Poderosas no MS Excel - Autor: André Luiz Bernardes  eBook: Série Visual Basic For Application: Criando Logs de acesso: Dicas e Códigos de Visual Basic for Applications - Autor: André Luiz Bernardes

eBook: Série VBA Tips: Rastrei seus Dashboards, Scorecards, Reports, Relatórios, Planilhas e Aplicações - Dicas e Códigos - Autor: André Luiz Bernardes  eBook: Série Data Science: Big Data, Como? - Autor: André Luiz Bernardes

eBook: Série Smarter Analytic: 5 Previsões de Big Data - Autor: André Luiz Bernardes 

Nenhum comentário:

Postar um comentário

diHITT - Notícias