Infraestrutura e Capacidade Computacional
O LaMCAD conta com uma excelente infraestrutura física para fornecimento estável de energia e climatização apropriada no recinto dos equipamentos e também para acesso remoto ao parque computacional do laboratório. Essa infraestrutura é fundamental para poder fornecer aos usuários recursos computacionais de ponta com alta disponibilidade e confiabilidade.
Os recursos computacionais estão distribuídos em dois ambientes distintos: um dedicado exclusivamente à computação em nuvem (Ambiente Cloud) e outro somente para computação em clusters de alta performance (Ambiente HPC). Os recursos alocados em cada ambiente são descritos a seguir.
O ambiente Cloud destina-se à computação em nuvem e funciona basicamente através da criação e disponibilização de máquinas virtuais (VMs) e containers aos usuários. A infraestrutura destinada a esse ambiente é composta por um total de 6 servidores de rack com solução VMware, 1 servidor de rack com solução Proxmox, 1 storage e 1 servidor de backup, sendo todos Dell/EMC. As especificações desses equipamentos são apresentadas a seguir.
- 6 servidores Dell EMC vSAN R7515 Ready Node com:
- 64 núcleos virtuais com processador AMD EPYC 75F3, 2.94 GHz
- 512 GB de memória RAM
- 1 storage VMware/vSAN de 400 TB de armazenamento All-Flash
- 1 servidor de Backup Dell EMC DD6400 Appliance com 32 TB de armazenamento
- 2 Switches Ethernet PowerSwitch DellEMC S5224F-ON
- 1 servidor de rack configurado com:
- 20 núcleos em 2 processadores Intel Xeon Silver 4114, 2,20 GHz
- 128 GB de memória RAM
- 2,2 TB de armazenamento
Em suma, o ambiente Cloud conta com uma estrutura que reúne 404 núcleos de processamento, cerca de 3 TB de memória RAM e 400 TB de armazenamento.
O que se destaca no ambiente Cloud é a solução VMware que oferece vários recursos para melhorar a eficiência, performance e segurança das máquinas virtuais.
A licença VMware utilizada contem as seguintes aplicações:
- VMware Cloud Foundation
- VMware Cloud Foundation Suite
- SDDC Manager
- vSphere
- vSan
- NSX
- vCenter Server
- vRealize Suite
- vRealize Log Insight
- vRealize Operations
- vRealize Lifecycle Manager
Os softwares Dell inclusos:
- Dell EMC PowerProtect Data Manger Essentials
- Data Protection Central
- PowerProtection Central
- PowerProtect DD Virtual
- Edition
- OpenManage Enterprise
- CloudIQ
- OS10
Utilizamos complementarmente o Proxmox, como solução de virtualização e conteinerização.
Além disto, adotamos também uma solução de gerenciamento de informações de segurança de eventos (SIEM) de código aberto, amplamente adotada por empresas brasileiras e internacionais devido à sua qualidade e facilidade de uso.
O SIEM Wazuh é reconhecido pela sua capacidade de coletar, analisar e correlacionar eventos de segurança em tempo real, fornecendo insights valiosos para proteção contra ameaças cibernéticas. Ele permite que as organizações monitorem e respondam a incidentes de segurança de maneira eficaz, garantindo a integridade e a confidencialidade dos dados.
O ambiente HPC é reservado para computação em clusters, que são sistemas de computadores trabalhando em conjunto na execução de cálculos que demandam alto poder de processamento. Cada computador no cluster é denominado nó (node). Dentre os nós, existe aquele responsável pelo gerenciamento do cluster, chamado de head node. Os demais nós, que são efetivamente os que são utilizados para rodar os cálculos, são denominados compute nodes. Todos os servidores do ambiente HPC são Dell/EMC e as configurações dos nós são descritas abaixo.
- Cluster Multiusuário:
- 1 head node configurado com:
- 40 núcleos em 2 processadores Intel Xeon Gold 6148
- 96 GB de memória RAM
- 49 TB de armazenamento
- 8 compute nodes Intel, cada um configurado com:
- 40 núcleos em 2 processadores Intel Xeon Gold 6148
- 96 GB de memória RAM
- 4,8 TB de armazenamento
- 10 compute nodes AMD, cada um configurado com:
- 64 núcleos em 2 processadores AMD EPYC 7452
- 256 GB de memória RAM
- 2 TB de armazenamento
- 2 compute nodes Intel com GPU, cada um configurado com:
- 20 núcleos em 2 processadores Intel Xeon E5 2650(v3)
- 128 GB de memória RAM
- 1 GPU NVIDIA Tesla K40 com 2888 Cuda Cores e 12 GB de memória RAM
- 600 GB de armazenamento
- 1 compute node AMD com GPU, configurado com:
- 64 núcleos em 2 processadores AMD EPYC 7452
- 256 GB de memória RAM
- 1 GPU NVIDIA Tesla V100 com 640 Tensor Cores e 32 GB de memória RAM
- 2 TB de armazenamento
- 1 compute node Supermicro AMD com GPU, configurado com:
- 192 núcleos em 2 processadores AMD EPYC 9654
- 768 GB de memória RAM
- 1 TB de armazenamento
- 3xGPU NVIDIA A100 Tensor Cores com 80 GB de memória RAM cada
- 1 storage configurado com:
- 20 núcleos em 2 processadores Intel Xeon Silver
- 192 GB de memória RAM
- 144 TB de armazenamento
- 1 head node configurado com:
- CEMPA:
- 1 headnode configurado com:
- 128 núcleos em 2 processadores AMD EPYC 7713
- 2,0 TB de memória RAM
- 9,7 TB de armazenamento
- 9 compute nodes Intel, cada um configurado com:
- 48 núcleos em 2 processadores Intel Xeon Gold 6248R
- 192 GB de memória RAM
- 2,0 TB de armazenamento
- 2 compute nodes AMD, cada um configurado com:
- 128 núcleos em 2 processadores AMD EPYC 7713
- 512 GB de memória RAM
- 1,92 TB de armazenamento
- 1 compute node Supermicro AMD com GPU, configurado com:
- 128 núcleos em 2 processadores AMD EPYC 9554
- 1,5 TB de memória RAM
- 32 TB de armazenamento
- 2xGPU NVIDIA H100 80GB PCIe 5.0 com NVLink Bridge
- 1 storage configurado com:
- 16 núcleos em 1 processador
- 128 GB de memória RAM
- 144 TB de armazenamento
- 1 headnode configurado com:
O ambiente HPC conta com um total de 2276 núcleos de processamento, 11,23 TB de memória RAM e 288 TB de armazenamento. Todo o ambiente está interconectado através de uma rede Infiniband de 100 Gbps (exceto os 2 nós com GPU K40 que estão conectados ao ambiente através de rede Ethernet de 10 Gbps). Do total mencionado anteriormente, 960 núcleos de processamento, 6,38 TB de memória RAM e 175 TB de armazenamento estão destinados ao CEMPA.
A performance teórica do cluster é de 245,4 teraflops.