TIPS - Grandes Bancos de Dados - Volumetria - Largest Database


Inline image 2


















A maioria de nós colecionamos coisas quando crianças: Rochas, gibis, moedas, selos, brinquedos, e até mesmo erros. Todos tentamos, tanto quanto possível, compilar a maior e mais interessante coleção possível. 

Alguns podem até mesmo ter sido capazes de acumular uma coleção com  centenas (ou milhares) de itens. Mas, como sempre acontece nas nossas histórias, ficamos mais velhos, nossas coleções ficam menores e, eventualmente, os nossos interesses morrem.

Mas como você já deve ter sido informado, as corporações são grandes organismos que demonstram comportamentos similares aos que temos individualmente. Digo similares, porque diferentes de nós os motivos destas é lucrar e em alguns casos, juntávamos apenas para nos entreter. Neste momento, existem organizações ao redor de todo o mundo envolvidas no 'negócio' de coleções. 

Aqueles que desenvolvem aplicações em banco de dados certamente tem muita curiosidade para saber qual o maior banco de dados do mundo. Talvez pense quanto tempo demoram certa atomizações, a execução de certas PROC, ou mesmo o rebuild de alguns índices.

Estas organizações ao redor do globo, estão cumulando coisas, e seu apetite e número de itens nas suas coleções ascendem aos trilhões. Em muitos casos, essas coleções ou bancos de dados, consistem em itens que usamos todos os dias. 

O site Business Intelligence Lowdown (BIL) publicou uma matéria em que lista os 10 maiores bancos de dados do mundo em 2008. É importante ressaltar que esse artigo não consultou fontes oficiais das empresas citadas.

Na lista abaixo, busquei cobrir alguns destes grandes bancos de dados:


Livraria Nacional dos Estados Unidos da América


Nem mesmo a era digital pode impedir que a maior biblioteca do mundo acabe nesta lista. A Library of Congress (LC) possui mais de 130 milhões de itens que vão desde livros de culinária, passando por jornais coloniais, indo até os processos do governo dos EUA. Estima-se que a parte de texto da Biblioteca do Congresso é composta de 20 terabytes de dados. A LC expande a uma taxa de 10.000 itens por dia e toma cerca de 850 km de espaço de prateleira.

Se estiver pesquisando um tópico e não puder encontrar a informação certa na internet, LC deve ser o seu destino. Para os pesquisadores de história dos EUA, cerca de 5 milhões de peças da memória americana do acervo do LC podem ser encontradas online.

Infelizmente para nós, a LC não tem planos de digitalizar a totalidade do seu conteúdo (mas o Google está aí prá isso e já tem projetos similares em vários países do mundo), no entanto, qualquer pessoa com um RIC (Reader Identification Card - Cartão válido de identificação da biblioteca), pode acessar a coleção.

Em números
    • 130 milhões de itens (livros, fotografias, mapas, etc)
    • 29 milhões de livros
    • 10.000 novos itens adicionados a cada dia
    • 820 km de prateleiras
    • 5 milhões de documentos digitalizados
    • 20 terabytes de informações em texto

Inline image 1


CIA - Agência Central de Inteligência

Central Intelligence Agency


Agência Central de Inteligência (CIA) está no 'negócio' de recolher e distribuir informações sobre pessoas, lugares e coisas, por isso não deve lhe  surpreender que estejam nesta lista. Embora pouco se saiba sobre o tamanho total do banco de dados da CIA, é certo que a agência reuniu uma grande quantidade de informações em ambos os setores público e privado através de trabalhos de campo e invasões digitais.


Talvez não saiba, mas partes do banco de dados da CIA estão disponíveis para o público, isso devido ao FOIA (Freedom of Information Act), Electronic Reading RoomThe World Fact Book,e várias publicações de inteligência relacionadas. A biblioteca FOIA inclui centenas de milhares de documentos oficiais (e, ocasionalmente, ultra-sensível) do governo dos EUA disponibilizados ao público por via eletrônica. A biblioteca cresce a uma taxa de 100 artigos por mês e contém temas que vão desde o desenvolvimento nuclear no Paquistão até o tipo de cerveja disponível durante a Guerra da Coréia. O World Fact Book apresenta informações gerais sobre cada país e território no mundo, incluindo mapas, números de população, as capacidades militares e muito mais.


Em números

    • 100 itens do FOIA adicionados a cada mês
    • Dados estatísticos de mais de 250 países e entidades
    • Número desconhecido de informação classificada

Amazon



Amazon, a maior loja de varejo do mundo, mantém registros extensos em seus 59 milhões de clientes ativos, incluindo informações pessoais em geral (endereço, número de telefone, etc), recomendações, listas de presentes, e praticamente qualquer tipo de dados que o site possa extrair de seus usuários enquanto eles são registrados. A Amazon também mantém mais de 250.000 livros com o texto completo disponíveis on-line e permite aos usuários comentar e interagir em praticamente todas as páginas do site, tornando a Amazon uma das maiores comunidades on-line do mundo.

Estes dados, juntamente com os milhões de itens cadastrados em estoque que a Amazon vende a cada ano - e os milhões de itens no inventário da Amazon Associates Sell - contribuem para um banco de dados muito grande. Dois dos maiores bancos de dados da Amazon combinados têm mais de 42 terabytes de dados, e isso é apenas o começo das coisas. 
Talvez você possa dizer que 42 terabytes não parece ser muita coisa. Mas pense no tamanho disto ao imaginar que estes 42 terabytes de dados podem ser convertidos em 37 trilhões de posts nos fóruns da Amazon.

Em números

    • 59 milhões de clientes ativos
    • Mais de 42 Terabytes de dados

YouTube



Após menos de dois anos de operações o YouTube acumulou a maior biblioteca de vídeo (e, posteriormente, uma das maiores bases de dados) do mundo. O YouTube atualmente possui uma base de usuários que ascende a mais de 100 milhões de vídeos por dia, contabilizando mais de 60% de todos os vídeos assistidos online no mundo.

Em agosto de 2006, o Wall Street Journal estimou o tamano da  base de dados doYouTube em pelo menos 45 Terabytes de vídeos. Embora não soe terrivelmente alto em relação à quantidade de dados disponíveis na internet, oYouTube vem experimentando um período de crescimento substancial (mais de 65.000 novos vídeos por dia), o que significa que o tamanho do banco de dados doYouTube potencialmente mais do que dobrou em 5 meses.

Estimar o tamanho do banco de dados do YouTube é particularmente difícil devido aos diferentes tamanhos e comprimentos de cada vídeo. No entanto, se alguém fosse realmente ambicioso (e um pouco indulgente), poderia projetar que o banco de dados do YouTube esperam crescer até 20 terabytes de dados no próximo mês.



Dado: 65.000 vídeos por dia X 30 dias por mês = 1.950.000 vídeos por mês, 1 terabyte = 1.048.576 megabytes. Suponhamos que cada vídeo tem um tamanho de 1MB, o YouTube seria de esperar crescer 1,86 terabytes no próximo mês. Da mesma forma, se assumirmos que cada vídeo tem um tamanho de 10MB, se esperaria que o YouTube crescesse 18,6 terabytes no próximo mês.

Em números

    • 100 milhões de videos observados por dia
    • 65.000 videos adicionados a cada dia
    • 60% de todos os videos vistos online
    • Pelo menos 45 terabytes de videos

ChoicePoint



Imagine precisar pesquisar uma lista telefônica que contenha um bilhão de páginas em busca de um número de telefone. Quando os funcionários daChoicePoint querem saber algo sobre você, eles têm que fazer exatamente isso. Se impresso, o banco de dados da ChoicePoint se estenderia até a lua e voltaria 77 vezes.


ChoicePoint está no negócio de aquisição de informações sobre a população americana - endereços e números de telefone, registros de direção, antecedentes criminais, etc, a ChoicePoint tem tudo isso. Na sua grande maioria, os dados daChoicePoint são vendidos pela melhor oferta, incluindo o governo norte-americano.


Mas o quanto é que a ChoicePoint realmente sabe? Em 2002 a ChoicePoint foi capaz de ajudar as autoridades a resolver um caso de um estuprador em série na Filadélfia e em Fort Collins, depois de apresentar uma lista de 6 potenciais suspeitos apontados no DNA da sua mineração de dados na sua bases de dados de registros pessoais. Em 2001 a ChoicePoint foi capaz de identificar os restos mortais de vítimas do World Trade Center através da correspondência de DNA encontrada em fragmentos ósseos com as informações fornecidas por membros da família da vítima em conjunto com os dados encontrados em suas bases de dados.


Em números

    • 250 Terabytes de informações pessoais
    • Informação sobre 250 milhões de pessoas

Sprint



Sprint é uma das grandes empresas de telecomunicações que são notórias por ter imensas bases de dados e manter o controle de todas as chamadas que ocorrem em sua rede. Os Bancos de dados da Sprint processam mais de 365 milhões de registros com os detalhes das chamadas operacionais por diaO banco de dados da Sprint está distribuída em 2,85 trilhões de linhas  de dados, tornando-o o banco de dados com o maior número de linhas (inserções de dados se você quiser) no mundo. No seu auge, o banco de dados foi submetido a mais de 70.000 chamadas por segundo.

Em números

    • 2.85 Trilhões de linhas no Banco de Dados
    • 365 Milhões de chamadas processadas por dia
    • Pico de até 70.000 chamadas por segundo

Google


Na verdade não há muito o que se saiba sobre o verdadeiro tamanho do banco de dados do Google, afinal de contas a Google mantém suas informações trancadas em um cofre que envergonharia o Fort Knox.
Em média, o Google está sujeito a 91 milhões de buscas por dia, as quais respondem por cerca de 50% de toda a atividadede busca na Internet. O Google armazena a busca que cada usuário faz em suas bases de dados. Depois de alguns anos de buscas, este número equivale a mais de 33 trilhões de entradas de dados. Dependendo do tipo da arquitetura das bases de dados deGoogle, este número pode compreender centenas de terabytes de informação.
Google também está no negócio de coleta de informações sobre os seus usuários. Combina as consultas de pesquisas dos usuários com informações fornecidas pelos cookies do Google armazenados no computador de um usuário para criar perfis virtuais.
Para completar, o Google está experimentando atualmente taxas de expansão recorde, assimilando em vários domínios da Internet, incluindo mídia digital (Google Video, YouTube), publicidade (anúncios do Google), e-mail (Gmail), e muito mais. Essencialmente, quanto mais o Google se expande, a mais informações suas bases de dados serão submetido.
Em termos de bancos de dados de internet, o Google é o rei.
Em  números
  • 91 milhões de buscas por dia
  • Contabiliza 50% de todas as buscas efetuadas na Internet
  • Perfis Virtuais de incontáveis usuários

AT&T

Semelhante a Sprint, nos Estados Unidos a "mais antiga empresa de telecomunicaçõesAT&T mantém um dos maiores bancos de dados do mundo. Arquitetonicamente a AT&T ostenta inúmeros títulos, incluindo o de maior volume de dados em um banco de dados único (312 terabytes) e o segundo maior número de linhas em um banco de dados único (1,9 trilhões).
Os 1,9 trilhões de registros de chamadas incluem dados sobre o número chamado. Além disso registra o tempo e a duração da chamada e várias outras categorias de faturamento. A AT&T é tão meticulosa com seus registros que mantiveram os dados telefônicos de uma décadas atrás - muito antes de que a tecnologia para armazenar centenas de terabytes de dados se tornassem disponíveis.
Em números
  • 323 Terabytes de informação
  • 1.9 Trilhões de chamadas telefônicas

NERSC - National Energy Research Scientific Computing Center


O segundo maior banco de dados do mundo pertence à National Energy Research Scientific Computing Center (NERSC) em Oakland, Califórnia. A NERSC pertence e é operada pelo Lawrence Berkeley National Laboratory e o Departamento de Energia dos EUAO banco de dados contém  uma série de informações, incluindo a investigações sobre energia atômica, experimentos de física de alta energia, as simulações do início do universo e muito mais. A aposta de muitos em viajar no tempo é ir até os supercomputadores da NERSC e observar o big bang.



O banco de dados NERSC abrange 2,8 petabytes de informação e é operado por mais de 2.000 cientistas computacionais. Para colocar o tamanho de NERSC em perspectiva, a quantidade total de palavras faladas na história da humanidade está estimada em 5 exabytesem termos relativos, a base de dados do NERSC é equivalente a 0,055% desse tamanho.



Apesar de não parecer muito à primeira vista, quando considera o fato de que 6 bilhões de seres humanos em todo o mundo falam mais de 2.000 palavras por dia, a magnitude desse número se torna aparente.

Em números

    • 2.8 Petabytes de dados
    • Operado por 2.000 cientistas computacionais


WDCC - World Data Centre for Climate


Se você tivesse um computador de € 35.000.000 Super por aí, no que você iria usá-lo? No mercado de ações? Construiria a sua própria internet? Tente uma extensa investigação sobre o clima se há uma máquina lá fora, que tem a resposta para o aquecimento global, esta pode ser a que é operada pelo Max Planck Institute for Meteorology e o German Climate Computing CentreThe World Data Centre for Climate (WDCC) este é o maior banco de dados no mundo.
O WDCC possui 220 terabytes de dados prontamente acessíveis na web, incluindo informações sobre pesquisa de clima, além de antecipadas tendências climáticas, bem como 110 terabytes (ou 24.500 DVD) de avaliação de dados de simulação do clima. Para completar, seis petabytes de informações adicionais estão armazenados em fitas magnéticas para fácil acesso. Como a quantidade de dados é de seis petabyte você pergunta? Tente 3 vezes a quantidade de todas as bibliotecas norte-americanas de pesquisa acadêmica conteúdo combinados
Em Números
  • 220 Terabytes de dados na web
  • 6 Petabytes de dados adicionais
  
Bancos de dados adicionais

Os bancos de dados a seguir também são únicos [e grandes], por isso os estou mencionando também.
Nielsen Media Research / Nielsen Net Ratings
Mais conhecido por seu tamanho na medição de audiência televisiva e suas habilidades na composição de classificação, a empresa está no negócio de medirtelevisão, rádio, mídia impressa e internet. O banco de dados necessário para processar estatísticas tais como as buscas diárias do Google na internet é nada menos do que enorme.


Alfândega dos Estados Unidos
banco de dados da Alfândega dos EUA é o único que requer informações sobre centenas de milhares de pessoas e objetos que entram e saem das fronteiras dos Estados Unidos instantaneamente. Para que isso seja possível, o banco de dados foi especialmente desenvolvido para processar consultas próximo do instantâneo.


HPSS

Existem várias bases de dados em todo o mundo, e utilizando uma tecnologia semelhante à encontrada na NERSCHPSS usa uma tecnologia conhecida como Sistema de armazenamento de alto desempenhoVários outros bancos de dados HPSS maciços incluindo o Lawrence Livermore National Laboratory (LLNL), Sandia National Laboratories, Los Alamos National Laboratory,Commissariat à l'énergie atomique et aux énergies alternatives (CEA)e muito mais.


Yahoo!
Um artigo da ComputerWorld citou que o maior banco de dados do mundo é do Yahoo!, que possui um banco de dados na casa dos 2 PetaBytes.

Esse artigo faz-nos pensar sobre quais são as bases de dados disponíveis aqui mesmo no Brasil: Receita Federal,Controle de tráfego, etc...Qual será a dimensão dessas bases de dados?

References: Focus.com


Tags: Database, Largest, volumetria, terabyte, exabyte, pentabyte, LC, CIA, Amazon, Youtube, Choicepoint, Sprint, Google, AT&T, NERSC, WDCC, Nielsen, Nielsen Media Research, Nielsen Net Ratings, United States Customs, HPSS, Commissariat à l'énergie atomique et aux énergies alternatives, CEA, Lawrence Livermore National Laboratory, LLNL, VLDB, Very Large Database






       



Nenhum comentário:

Postar um comentário

diHITT - Notícias