Já sabemos que o Large Hadron Collider (LHC) será o maior e mais caro experimento de física já realizado pela humanidade. A colisão de partículas relativísticas em energias inimagináveis (até a marca de 14 TeV até o final da década) gerará milhões de partículas (conhecidas e ainda a serem descobertas), que precisam ser rastreadas e caracterizadas por enormes detectores de partículas. Esse experimento histórico exigirá um grande esforço de coleta e armazenamento de dados, reescrevendo as regras de manipulação de dados. A cada cinco segundos, as colisões do LHC geram o equivalente a um DVD de dados, que é uma taxa de produção de dados de um gigabyte por segundo. Para colocar isso em perspectiva, um computador doméstico comum com uma conexão muito boa pode ser capaz de baixar dados a uma taxa de um ou dois megabytes por segundo (se você tiver muita sorte! Recebo 500 kilobytes / segundo). Assim, os engenheiros do LHC criaram um novo tipo de método de manipulação de dados que pode armazenar e distribuir petabytes (milhões de gigabytes) de dados para colaboradores do LHC em todo o mundo (sem envelhecer e ficar cinza enquanto aguarda um download).
Em 1990, a Organização Européia de Pesquisa Nuclear (CERN) revolucionou a maneira como vivemos. No ano anterior, Tim Berners-Lee, físico do CERN, escreveu uma proposta para gerenciamento de informações eletrônicas. Ele propôs a idéia de que as informações poderiam ser transferidas facilmente pela Internet usando algo chamado "hipertexto". Com o passar do tempo, Berners-Lee e o colaborador Robert Cailliau, um engenheiro de sistemas do CERN, montaram uma única rede de informações para ajudar os cientistas do CERN a colaborar e compartilhar informações de seus computadores pessoais sem precisar salvá-las em dispositivos de armazenamento pesados. O hipertexto permitiu aos usuários navegar e compartilhar texto através de páginas da Web usando hiperlinks. Berners-Lee então criou um editor de navegador e logo percebeu que essa nova forma de comunicação poderia ser compartilhada por um grande número de pessoas. Em maio de 1990, os cientistas do CERN chamaram essa nova rede de colaboração de Rede mundial de computadores. De fato, o CERN foi responsável pelo primeiro site do mundo: http://info.cern.ch/ e um exemplo inicial de como esse site se parece pode ser encontrado no site do World Wide Web Consortium.
Portanto, o CERN não é estranho ao gerenciamento de dados pela Internet, mas o novo LHC exigirá tratamento especial. Conforme destacado por David Bader, diretor executivo de computação de alto desempenho do Instituto de Tecnologia da Geórgia, a largura de banda atual permitida pela Internet é um enorme gargalo, tornando outras formas de compartilhamento de dados mais desejáveis. "Se eu olhar o LHC e o que ele está fazendo no futuro, a única coisa que a Web não conseguiu fazer é gerenciar uma riqueza fenomenal de dados, ”Ele disse, o que significa que é mais fácil salvar grandes conjuntos de dados em discos rígidos de terabytes e enviá-los na postagem aos colaboradores. Embora o CERN tenha abordado a natureza colaborativa do compartilhamento de dados na World Wide Web, os dados que o LHC irá gerar sobrecarregarão facilmente as pequenas larguras de banda atualmente disponíveis.
É por isso que o LHC Computing Grid foi projetado. A grade lida com a vasta produção de conjuntos de dados do LHC em camadas, a primeira (Nível 0) está localizado no CERN perto de Genebra, Suíça. A camada 0 consiste em uma enorme rede paralela de computadores contendo 100.000 CPUs avançadas que foram configuradas para armazenar e gerenciar imediatamente os dados brutos (1s e 0s de código binário) liberados pelo LHC. Vale a pena notar, neste ponto, que nem todas as colisões de partículas serão detectadas pelos sensores, apenas uma fração muito pequena pode ser capturada. Embora apenas um número comparativamente pequeno de partículas possa ser detectado, isso ainda se traduz em uma enorme produção.
A camada 0 gerencia partes dos dados emitidos ao enviá-los por linhas de fibra óptica dedicadas de 10 gigabits por segundo para 11 Nível 1 sites na América do Norte, Ásia e Europa. Isso permite que colaboradores como o Relativistic Heavy Ion Collider (RHIC) no Brookhaven National Laboratory em Nova York analisem dados do experimento ALICE, comparando resultados das colisões de íons de chumbo do LHC com seus próprios resultados de colisão de íons pesados.
Nos computadores internacionais de nível 1, os conjuntos de dados são empacotados e enviados para 140 Nível 2 redes de computadores localizadas em universidades, laboratórios e empresas privadas em todo o mundo. É neste ponto que os cientistas terão acesso aos conjuntos de dados para realizar a conversão do código binário bruto em informações úteis sobre energias e trajetórias de partículas.
O sistema de camadas é muito bom, mas não funcionaria sem um tipo de software altamente eficiente chamado "middleware". Ao tentar acessar dados, o usuário pode desejar informações espalhadas pelos petabytes de dados em diferentes servidores em diferentes formatos. Uma plataforma de middleware de código aberto chamada Globus terá a enorme responsabilidade de reunir as informações necessárias sem problemas, como se essas informações já estivessem dentro do computador do pesquisador.
É essa combinação do sistema de camadas, conexão rápida e software engenhoso que pode ser expandida além do projeto do LHC. Em um mundo em que tudo está se tornando "sob demanda", esse tipo de tecnologia pode tornar a Internet transparente para o usuário final. Haveria acesso instantâneo a tudo, desde dados produzidos por experimentos do outro lado do planeta até a exibição de filmes em alta definição sem esperar a barra de progresso do download. Assim como a invenção do HTML de Berners-Lee, o LHC Computing Grid pode revolucionar a maneira como usamos a Internet.
Fontes: Scientific American, CERN