Infraestrutura e Capacidade Computacional

O LaMCAD conta com uma excelente infraestrutura física para fornecimento estável de energia e climatização apropriada no recinto dos equipamentos e também para acesso remoto ao parque computacional do laboratório. Essa infraestrutura é fundamental para poder fornecer aos usuários recursos computacionais de ponta com alta disponibilidade e confiabilidade. 

Os recursos computacionais estão distribuídos em dois ambientes distintos: um dedicado exclusivamente à computação em nuvem (Ambiente Cloud) e outro somente para computação em clusters de alta performance (Ambiente HPC). Os recursos alocados em cada ambiente são descritos a seguir.

Ambiente Cloud

 

O ambiente Cloud se destina à computação em nuvem e funciona basicamente através da criação e disponibilização de máquinas virtuais (VMs) e containers aos usuários. A infraestrutura destinada a esse ambiente é composta por um total de 10 servidores blade, 1 servidor de rack e 1 storage, sendo todos Dell/EMC. As especificações desses equipamentos são apresentadas a seguir.

  • 10 servidores blade, cada um configurado com:
    • 20 núcleos em 2 processadores Intel Xeon E5 
    • 128 GB de memória RAM
    • 558 GB em discos locais
  • 1 servidor de rack configurado com:
    • 20 núcleos em 2 processadores Intel Xeon Silver 
    • 128 GB de memória RAM
    • 2,2 TB em discos locais
  • 1 storage configurado com:
    • 8 núcleos em 2 processadores Intel Quad-Core
    • 32 GB de memória RAM
    • 140 TB em discos

Em suma, o ambiente Cloud conta com uma estrutura que reúne 220 núcleos de processamento, cerca de 1,5 TB de memória RAM e 148 TB de armazenamento.

Ambiente HPC

 

O ambiente HPC é reservado para computação em clusters, que são sistemas de computadores trabalhando em conjunto na execução de cálculos que demandam alto poder de processamento. Cada computador no cluster é denominado nó (node). Dentre os nós, existe aquele responsável pelo gerenciamento do cluster, chamado de head node. Os demais nós, que são efetivamente os que são utilizados para rodar os cálculos, são denominados compute nodes. Todos os servidores do ambiente HPC são Dell/EMC e as configurações dos nós são descritas abaixo.

  • 1 head node configurado com:
    • 40 núcleos em 2 processadores Intel Xeon Gold 6148
    • 96 GB de memória RAM
    • 49 TB de armazenamento
  • 8 compute nodes Intel, cada um configurado com:
    • 40 núcleos em 2 processadores Intel  Xeon Gold 6148
    • 96 GB de memória RAM
    • 4,8 TB em discos locais
  • 10 compute nodes AMD, cada um configurado com:
    • 64 núcleos em 2 processadores AMD EPYC 7452
    • 256 GB de memória RAM
    • 2 TB em disco local
  • 2 compute nodes Intel com GPU, cada um configurado com:
    • 20 núcleos em 2 processadores Intel Xeon E5 2650(v3)
    • 128 GB de memória RAM
    • 1 GPU NVIDIA Tesla K40 com 2888 Cuda Cores e 12 GB de memória RAM
    • 600 GB em discos locais
  • 1 compute node AMD com GPU, configurado com:
    • 64 núcleos em 2 processadores AMD EPYC 7452
    • 256 GB de memória RAM
    • 1 GPU NVIDIA Tesla V100 com 640 Tensor Cores e 32 GB de memória RAM
    • 2 TB em disco local
  • 1 storage configurado com:
    • 20 núcleos em 2 processadores Intel Xeon Silver
    • 192 GB de memória RAM
    • 144 TB em discos

No total, o ambiente HPC conta com 1064 núcleos de processamento, 3,8 TB de memória RAM e 193 TB de armazenamento. Todo o ambiente está interconectado através de uma rede Infiniband de 100 Gbps (exceto os 2 nós com GPU K40 que estão conectados ao ambiente através de rede Ethernet de 10 Gbps).

A performance teórica do cluster é de 52,2 teraflops e a estimativa de performance real é de 30,5 teraflops.