Hardware

12.2.2 : Hardware

Inside the NVIDIA Hopper Architecture [S42663] (52min25s)
- Nouveau SM et Tensor Cores
- 4th gen tensor core
- FMA for float32 et float64
- DPX
- Thread block cluster (nouvelle hierarchie pour les blocs, gride et mémoire) garantis le co-scheduling des threads
- FP8
- Data management $30\%$ faster than previous
- Transformer engine (optimisation des transfers de données, peut être activé ou désactivé)
- Peut ajuster automatiquement les ranges des calculs pour garder la précision
- Performance du calcul paralelle (utilisation des caches, localité, et exécution asynchrone)
- Maintenant un SM représente moins d'un centième de la taille du GPU
- Communication bloc à bloc, les barrière sont dans la mémoire partagées et asynchrones (un thread peut faire autre chose en attendant, si il a déjà fini son calcul)
- Tensor Memory Acceleration (TMA) : Il s'occupe de l'adressage des données, ce n'est plus le thread qui le fait
- H100 NVlink : le switch peu faire le calcul de la réduction
- Les GPU envoient leur données qu'une fois au lieu de N GPU
- Confiential Computing : personne ne peut voir les données, même le sysadmin ou l'OS (sur CPU, GPU et multi-GPU) fait par le driver
- Toujours le MIG (7 instances max) (Maintenant aussi décodage d'image et vidéo par instance, pas le cas sur les A100)