11.7.5.3.2 : Perspectives
Le prototype est validé et permet d'enregistrer une accélération certaine. Toutefois notre démarche a ouvert encore plus de pistes à explorer pour récolter tous les gains en production. Citons notamment~:- exploitation sur GPU de la version simple précision
- exploitation sur GPU des produits de matrices de la bibliothèque cuBLAS
- mesure du speedup maintenant que la mémoire est mieux utilisée (au moins six fois mieux)
- gain de mémoire, et par là de vitesse, par désallocation au fil du calcul
- utilisation des fonctionnalités multi-GPU depuis OpenACC pour capitaliser sur les trois cartes de ipngrid01 ou les deux cartes de llracp01
- passage sur GPU de la partie structure nucléaire (économisant le plus gros des transferts mémoire) en utilisant de surcroît une éventuelle accélération de la diagonalisation de matrices sur GPU.
- production sur la plate-forme GPUs du CC-IN2P3 (combinaison de GPU sur plusieurs nœuds)
- test sous verrou pour identifier d'éventuelles perte de précision, maintenant que la taille bss a été drastiquement réduite par une meilleure utilisation des common.
- test sous valgrind de la version OpenMP maintenant que la taille bss a été drastiquement réduite par une meilleure utilisation des common.