12.1.1.1 : HPC et infrastructures
- A Deep Dive into the Latest HPC Software [S31286]
- Comme toujours il faut utilier les capacités du langage et les bibliothèque fournies par les constructeurs
- Ils ajoutent des pragmas pour OpenACC
- Maintenant HPC SDK intègre les bibliotèques de communication (MPI, etc) dans HPC-X
- HPC => Scaling with discipline
- Cuda supporte les nombres complexes
- Ça scale super bien sur 1024 A100 (quasiment x = y)
- HPC-X optimise beaucoup les échanges de données en MPI
- Toujours legate pour faire du numpy et du panda sur GPU, scalable
- On veut tout exploser en graphe ansynchrone
- Il faut utiliser le parallélisme standard (qui est aussi rapide et standard que OpenACC)
- HPC SDK pret pour ARM
- Cudart pour optimiser python
- CuQuantum pour simuler des calculs quantiques (1000 qbit => 9ans en classique => 4 jours en GPU)
- Advancing Exascale: Faster, Smarter, and Greener! (Presented by Atos) [SS32805]
- Faster, Smarter, Greener
- Atos : Decarbonized Digital World Leager
- Ils veulent déployer les premiers accélérateurs quantique d'ici 2023
- Simulation des proteines de spikes du coronavirus
- $10^24$ bytes (1 yottabyte) by 2030
- Juelich supercomputer - 3744 A100 => 25 GFlops/W
- Leronardo Cineca $~250$ PFlops, 2021, 3456 A100 (tous les noeuds sont reliés à tous les autres), AI acceleration
- Weather Forecast Workflow : simulation du climat planétaire avec une résolution de 1 km
- Safran qui simule une chambre à combustion à hydrogène pour hélicoptère
- 2010 0.23 GFlops/W => 2020 25GFlops/W (Juelich), free cooling
- Traditional Data Center : $100 \%$ calcul, $100 \%$ refroidissement
- Water cooling Data Center : $100 \%$ calcul, $50 \%$ refroidissement
- Direct liquid cooling Data Center : $100 \%$ calcul, $5 \%$ refroidissement
- Overcoming HPC Application Communication Bottlenecks with Intelligent and Automatic Resource Selection [S31547]
- Utilisation de HCA (High Content Analysis for High Throughpout Imaging)
- Placement de jobs automatique
- NVTAGS : Topology-Aware GPU Selection (on prend en compte la topologie des communications pour cibler les GPU)
- On peut donner des poids, suivant la vitesse des communications (local, global, etc)
- NVTAGS tune permet d'espionner les communication MPI, faire un profile pour mieux cibler les GPU
- Il peut gérer avec Slurm ou MPI (avec éventuellement singularity)
- Sur 8 A100 on peut avoir de 23 à $42\%$ de speed up
- Sur 32 V100 on va de 43 à $405\%$ , c'est énnorme
- Go Beyond HPC: GPU Direct Storage, Parallel File Systems, and More (Presented by NetApp) [SS33181]
- On fait une copy sur le GPU sans passer par le CPU (même si les données sont extèrnes)
- Il ont un test à 17Go/s en lecture
- Optimizing Communication on GPU-Based HPC Systems for Dask and cuML Using MVAPICH2-GDR [S31627]
- Optimisation des communications GPU-GPU
- pour le HPC et aussi le Machine Learning et le Deep Learning
- Dask : Apache
- cuML : cuda Machine Learning
- Avec MPI 4
- Ils font de la communication entre worker sans passer par le scheduler, ce qui gagne de temps, et permet la scalabilité
- 2 backend de communication (TCP et UCX)
- Il utilise RAPIDS
- Globalement, on peut suivre la présentation très vite, car ils lisent tous leur slides
- C'est relié à High Performance Big Data (HiBD) et High Performance Deep Learning (HiDL)
- Simplify Integrating Large-Scale Hybrid CPU and GPU Systems to Accelerate HPC Workloads (Presented by QCT) [SS32967]
- Hybrid CPU-GPU system (et aussi des noeuds avec beaucoup de mémoire)
- For HPC and AI applications in industry
- Quality inspection
- On pousse les GPU à fond car il déchirent en terme de performance
- C'est hybride car il y a du GPU et du CPU mais aussi car il faut que l'administrateur système, le développeur et l'utilisateurs y trouve leur compte.
- QCT-QxSmart HPC/AI solution
- Tout est installé (il y a même Jupyter-lab), mais pas de trace de anaconda
- VMD et MCL pour visualiser les données
- Infiniband
- Avec 8 GPU, ils ont un speed up de 9 (potentiellement du à des phénomènes de chargement liés à la mémoire disponible)
- Do more with less (avoir de bonnes pratiques pour optimiser les applications industrielles). Rejoint le Forum ORAP d'il y a deux ans (par pitié, arrêtez de faire des softs monolithique de 300000 lignes, on ne dira jamais assez que c'est une connerie)
- Performance Portability on HPC Accelerator Architectures with Modern Techniques: the ParFlow Blueprint [S31306]
- A Purpose-Built HGX A100 Server for HPC and Data Science (Presented by GIGABYTE) [SS32765]
- Advanced containerized workloads in HPC environment: the Selene example [S31704]
- Exploiting Hierarchical Algorithms on Ever-More Hierarchical Architectures [S32799]
HPC sur ARM :
- HPC Applications on ARM+NVIDIA A100 [S32758]
- Accelerating HPC Applications with Arm and NVIDIA GPUs [T3198]