12.1.1.1 : HPC et infrastructures

  • A Deep Dive into the Latest HPC Software [S31286]
    • Comme toujours il faut utilier les capacités du langage et les bibliothèque fournies par les constructeurs
    • Ils ajoutent des pragmas pour OpenACC
    • Maintenant HPC SDK intègre les bibliotèques de communication (MPI, etc) dans HPC-X
    • HPC => Scaling with discipline
    • Cuda supporte les nombres complexes
    • Ça scale super bien sur 1024 A100 (quasiment x = y)
    • HPC-X optimise beaucoup les échanges de données en MPI
    • Toujours legate pour faire du numpy et du panda sur GPU, scalable
    • On veut tout exploser en graphe ansynchrone
    • Il faut utiliser le parallélisme standard (qui est aussi rapide et standard que OpenACC)
    • HPC SDK pret pour ARM
    • Cudart pour optimiser python
    • CuQuantum pour simuler des calculs quantiques (1000 qbit => 9ans en classique => 4 jours en GPU)
  • Advancing Exascale: Faster, Smarter, and Greener! (Presented by Atos) [SS32805]
    • Faster, Smarter, Greener
    • Atos : Decarbonized Digital World Leager
    • Ils veulent déployer les premiers accélérateurs quantique d'ici 2023
    • Simulation des proteines de spikes du coronavirus
    • $10^24$ bytes (1 yottabyte) by 2030
    • Juelich supercomputer - 3744 A100 => 25 GFlops/W
    • Leronardo Cineca $~250$ PFlops, 2021, 3456 A100 (tous les noeuds sont reliés à tous les autres), AI acceleration
    • Weather Forecast Workflow : simulation du climat planétaire avec une résolution de 1 km
    • Safran qui simule une chambre à combustion à hydrogène pour hélicoptère
    • 2010 0.23 GFlops/W => 2020 25GFlops/W (Juelich), free cooling
    • Traditional Data Center : $100 \%$ calcul, $100 \%$ refroidissement
    • Water cooling Data Center : $100 \%$ calcul, $50 \%$ refroidissement
    • Direct liquid cooling Data Center : $100 \%$ calcul, $5 \%$ refroidissement
  • Overcoming HPC Application Communication Bottlenecks with Intelligent and Automatic Resource Selection [S31547]
    • Utilisation de HCA (High Content Analysis for High Throughpout Imaging)
    • Placement de jobs automatique
    • NVTAGS : Topology-Aware GPU Selection (on prend en compte la topologie des communications pour cibler les GPU)
    • On peut donner des poids, suivant la vitesse des communications (local, global, etc)
    • NVTAGS tune permet d'espionner les communication MPI, faire un profile pour mieux cibler les GPU
    • Il peut gérer avec Slurm ou MPI (avec éventuellement singularity)
    • Sur 8 A100 on peut avoir de 23 à $42\%$ de speed up
    • Sur 32 V100 on va de 43 à $405\%$ , c'est énnorme
  • Go Beyond HPC: GPU Direct Storage, Parallel File Systems, and More (Presented by NetApp) [SS33181]
    • On fait une copy sur le GPU sans passer par le CPU (même si les données sont extèrnes)
    • Il ont un test à 17Go/s en lecture
  • Optimizing Communication on GPU-Based HPC Systems for Dask and cuML Using MVAPICH2-GDR [S31627]
    • Optimisation des communications GPU-GPU
    • pour le HPC et aussi le Machine Learning et le Deep Learning
    • Dask : Apache
    • cuML : cuda Machine Learning
    • Avec MPI 4
    • Ils font de la communication entre worker sans passer par le scheduler, ce qui gagne de temps, et permet la scalabilité
    • 2 backend de communication (TCP et UCX)
    • Il utilise RAPIDS
    • Globalement, on peut suivre la présentation très vite, car ils lisent tous leur slides
    • C'est relié à High Performance Big Data (HiBD) et High Performance Deep Learning (HiDL)
  • Simplify Integrating Large-Scale Hybrid CPU and GPU Systems to Accelerate HPC Workloads (Presented by QCT) [SS32967]
    • Hybrid CPU-GPU system (et aussi des noeuds avec beaucoup de mémoire)
    • For HPC and AI applications in industry
    • Quality inspection
    • On pousse les GPU à fond car il déchirent en terme de performance
    • C'est hybride car il y a du GPU et du CPU mais aussi car il faut que l'administrateur système, le développeur et l'utilisateurs y trouve leur compte.
    • QCT-QxSmart HPC/AI solution
    • Tout est installé (il y a même Jupyter-lab), mais pas de trace de anaconda
    • VMD et MCL pour visualiser les données
    • Infiniband
    • Avec 8 GPU, ils ont un speed up de 9 (potentiellement du à des phénomènes de chargement liés à la mémoire disponible)
    • Do more with less (avoir de bonnes pratiques pour optimiser les applications industrielles). Rejoint le Forum ORAP d'il y a deux ans (par pitié, arrêtez de faire des softs monolithique de 300000 lignes, on ne dira jamais assez que c'est une connerie)
  • Performance Portability on HPC Accelerator Architectures with Modern Techniques: the ParFlow Blueprint [S31306]
  • A Purpose-Built HGX A100 Server for HPC and Data Science (Presented by GIGABYTE) [SS32765]
  • Advanced containerized workloads in HPC environment: the Selene example [S31704]
  • Exploiting Hierarchical Algorithms on Ever-More Hierarchical Architectures [S32799]


HPC sur ARM :