Thread block cluster (nouvelle hierarchie pour les blocs, gride et mémoire) garantis le co-scheduling des threads
FP8
Data management $30\%$
faster than previous
Transformer engine (optimisation des transfers de données, peut être activé ou désactivé)
Peut ajuster automatiquement les ranges des calculs pour garder la précision
Performance du calcul paralelle (utilisation des caches, localité, et exécution asynchrone)
Maintenant un SM représente moins d'un centième de la taille du GPU
Communication bloc à bloc, les barrière sont dans la mémoire partagées et asynchrones (un thread peut faire autre chose en attendant, si il a déjà fini son calcul)
Tensor Memory Acceleration (TMA) : Il s'occupe de l'adressage des données, ce n'est plus le thread qui le fait
H100 NVlink : le switch peu faire le calcul de la réduction
Les GPU envoient leur données qu'une fois au lieu de N GPU
Confiential Computing : personne ne peut voir les données, même le sysadmin ou l'OS (sur CPU, GPU et multi-GPU) fait par le driver
Toujours le MIG (7 instances max) (Maintenant aussi décodage d'image et vidéo par instance, pas le cas sur les A100)