News

CENTROS TECNOLÓGICOS PROPÕEM A FORMAÇÃO DE UM GRID NACIONAL DE COMPUTAÇÃO

Sexta-Feira, 12 de Abril de 2002 Fonte: http://www.comciencia.br/noticias/12abr02/cenapad.htm

O grupo de pesquisa que estuda raios cósmicos no Instituto de Física da Universidade Estadual de Campinas (Unicamp) recebeu no dia 11 de abril os pesquisadores Bruno Schulze, do Laboratório Nacional de Computação Científica (LNCC), e Fernando Whitaker, do Centro de Processamento de Alto Desempenho (Cenapad) da Unicamp. Schulze e Whitaker apresentaram a proposta enviada em março para o Ministério da Ciência e Tecnologia (MCT), para a formação de um grid nacional de alto desempenho, visando a atingir uma capacidade computacional aproximada de 2 TeraFlops (medida padrão da velocidade de processamento dos computadores).

A idéia de grid - com o sentido de malha, rede - de máquinas é formar uma grande base computacional para operar sistemas que exijam maior desempenho, o que é mais dificil de se obter em máquinas individuais. Trabalhando juntas, de forma integrada, várias máquinas, que poderão estar alocadas em diferentes localidades do país, poderão rodar uma mesma aplicação simultaneamente, garantindo resultados mais rápidos.

Esse tipo de aplicação inclui problemas grandes que exigem muitos cálculos, como no caso da genômica, da previsão climática e da fisica computacoinal, por exemplo. Esse tipo de aplicação já vem sendo feita pelos Cenapads instalados em algumas instituições de pesquisa como a Unicamp, o Laboratório Nacional de Computação Cientifica, a Universidade Federal do Rio Grande do Sul, a Universidade Federal de Minas Gerais e o Instituto Nacional de Pesquisas Espaciais, entre outros. Recentemente, por exemplo, uma pesquisa realizada com o auxílio do Cenapad-SP, sediado na Unicamp, foi capa da revista norte-americana Physical Review Letters. Mas a integração dessas máquinas que já operam nos Cenapads, uma vez integradas entre si, e contando ainda com um reforço extra, vão possibilitar aplicações maiores e que permitirão resultados mais rápidos para as pesquisas.

A conexão desses Centros possibilitará uma integração mais eficiente das diversas pesquisas regionais, permitindo comparação e reunião de informações em nível nacional. Bruno Schulze dá o exemplo de pesquisas ambientais que podem estar sendo realizadas simultaneamente em várias estações do grid, regionalmente. Essas informações podem ser utilizadas por todas as estações ligadas. "A idéia é fazer com que as máquinas localizadas em diferentes regiões se comportem como uma única grande máquina", afirma o pesquisador.

Em princípio, o projeto deverá utilizar o Sistema Nacional de Processamento de Alto Desempenho (Sinapad), operado pela integração dos Cenapads. Essa integração permite otimizar os recursos computacionais e humanos e atingir uma escala de computação de alto desempenho que permitirá ao país atender problemas de grande relevância nacional.

Outros países possuem grids como este, com estrutura semelhante. Schulze conta que vários sistemas internacionais utilizam a seguinte estrutura: um cluster (conjunto, agrupamento) maior, a nível nacional (chamado tier 1); um cluster intermediário ou regional (tier 2) e um cluster institucional (tier 3). "Isso tem uma certa lógica do ponto de vista de estruturar o sistema disponibilizando os recursos para um maior número de pessoas, ou os recursos localmente que cada instituição possui para aplicações menores. Algumas coisas não precisam sair do âmbito da instituição e outras sim. Isso facilita também a migração de aplicações paralelas para aplicações mais distribuídas", diz Schulze.

Custos e parcerias

Edmundo Guizolphe Castro, pesquisador do Cenapad da Unicamp, diz que o sistema nacional deverá utilizar o backbone da Rede Nacional de Pesquisa (RNP), que já conecta redes de pesquisa e educação em todo o Brasil. Mas para o grid nacional, a RNP deverá disponibilizar uma banda específica. "Hoje, a rede é usada para mail, para troca de dados, há uma mistura de aplicações. Para este tipo de aplicação que estamos propondo, é necessário ter uma banda maior. Por essa razão a RNP tem que ser uma parceira no jogo, pois é ela quem vai dar a infra-estrutura de rede. Mas terá que ser separada da que existe hoje", admite Castro.

Espera-se também contar com parcerias do setor privado. Segundo Schulze, empresas como Itautec, SUN e IBM vêm desenvolvendo softwares para operar nesse sistema de clusters (e grids). Elas certamente terão interesse em ser parceiras nesse projeto, que deverá gerar também pesquisas no setor de computação. A criação de novos programas irá atender aplicações como as que os Cenapads vêm operando, bem como proporcionar o desenvolvimento de novos sistemas para atender melhor o próprio sistema de grid, que conecta diversas máquinas ao mesmo tempo, localizadas em espaços físicos distantes.

Os custos para a implementação do grid, apresentados na proposta enviada para o MCT, são de aproximadamente R$ 30 milhões, a serem gastos em quatro anos. Segundo Castro, esse custo é bastante inferior ao dispendido pelas redes implantadas no exterior. "O sistema implantado pela National Science Foundation, por exemplo, dispõe de US$ 53 milhões", afirma.

Schulze ressalta que o projeto prevê um investimento maior no primeiro ano, de R$ 13,8 milhões. Isso porque a primeira fase vai exigir a aquisição de equipamentos. "Se bem que na informática, em dois anos os equipamentos já estão obsoletos, e isso precisará ser revisto constantemente". O projeto, de interesse para o MCT, poderá se beneficiar dos recursos oriundos dos fundos setorias, tanto para projetos de áreas específicas que sejam contempladas por eles, como biotecnologia, petróleo e aero-espacial, como pelo fundo verde-amarelo. A atuação conjunta de universidades, institutos de pesquisa e empresas permite que o projeto seja um forte candidato a receber recursos desses fundos.

Além da RNP e dos sete Cenapads (Unicamp, UFRGS, UFMG, LNCC, UFRJ, INPE e Ceará), alguns centros institucionais estão contemplados no projeto. Eles estão localizados na Universidade de São Paulo, na Universidade do Estado do Rio de Janeiro e na Universidade Federal Fluminense. A infra-estrutura prevista para facilitar o desenvolvimento do grid nacional consiste em uma estrutura de um cluster de PCs maior, a ser localizado no LNCC - este seria o tier 1 -, um conjunto de clusters nos Cenapads - tier 2 - e um conjunto de clusters menores - tier 3 - localizados nos outros centros institucionais. O cluster maior deverá ter uma capacidade entre 0,5 e 1 TeraFlop, e os clusters menores, uma capacidade somada entre 0,9 e 1,5 TeraFlop.

Segundo o pesquisador Bruno Schulze, existem dois tipos de clusters. Um dedicado, no qual várias máquinas concentradas em um único local estão voltadas para essa aplicação e outra linha de trabalho que são os clusters ad hoc. O sistema ad hoc funciona da seguinte maneira: há um servidor, por exemplo, na Unicamp e indivíduos espalhados pelo país, que possuem computadores individuais, se conectam a esse servido e disponibilizam recursos de sua máquina para que se distribua processamento sobre elas. No final se obtém um conjunto de máquinas disponibilizadas para o uso de uma aplicação distribuída. A pessoa pode ou não estar usando a máquina. O sistema utiliza essas máquinas apenas quando a máquina está ociosa (como um salva-tela) e quando o usuário volta a usar a sua máquina o sistema para de rodar nessa máquina e aguarda o próximo intervalo para voltar. Mas o sistema continua operando nas demais máquinas interligadas. Isso é possível fazer através de um software.

Tanto para essa utilização como para interligar os equipamentos dos Cenapads e dos centros institucionais, a segurança tem que ser tratada. "Quando você usa a web você está correndo esse risco o tempo todo. Toda a parte de segurança e de autorização de uso tem que fazer parte do sistema. O sistema não pode estar vulnerável à colocação de versões maliciosas ou alteração de dados", afirma Schulze.