A100 80 GB => 2TB/s bandwidth (10 processors to stream)
NVlink 300GB/s bandwidth (in both direction). Je sais, ils annoncent 500 GB/s dans une autre présentation mais ce n'est que dans un sens à la fois.
PCIe Gen 4 31Gb/s bandwidth
On peut avoir des problèmes d'accès mémoire si l'utilisateur regarde des items très éloignés en mémoire
Ils entraînent leur model avec des batch de 8k éléments (au lieu de 256), mais ils utilisent des algo comme LARS, LAMB, etc, qui permettent d'avoir de bonne performances de convergence même avec de gros batch