NVIDIA CUDA 13.3 ajoute la programmation GPU par tuiles en C++

NVIDIA a publié CUDA 13.3, une version qui introduit la programmation GPU par tuiles directement en C++. Cette mise à jour vise à mieux utiliser les Tensor Cores tout en réduisant la complexité de l'écriture des noyaux.

Comment fonctionne la programmation par tuiles

La programmation par tuiles divise un calcul en petits blocs de taille fixe appelés tuiles. Ces tuiles correspondent aux schémas de flux de données internes du GPU, ce qui facilite le maintien de l'activité du matériel. Dans les versions précédentes de CUDA, les développeurs devaient gérer eux-mêmes cette correspondance. Désormais, le compilateur s'en charge, du moins pour de nombreux schémas courants.

Les Tensor Cores sont des circuits spécialisés à l'intérieur des GPU NVIDIA qui accélèrent les opérations de multiplication-accumulation matricielle. Ils sont essentiels pour l'entraînement et l'inférence en IA. Mais pour en tirer des performances optimales, il fallait souvent un réglage manuel complexe. L'abstraction de tuiles de CUDA 13.3 découpe automatiquement les opérations matricielles afin qu'elles exploitent plus souvent les Tensor Cores. Les développeurs écrivent un code plus simple et obtiennent néanmoins un bon débit.

Le développement des noyaux simplifié

L'un des plus grands points de difficulté dans la programmation GPU est la gestion des threads, de la mémoire partagée et de la synchronisation. Le nouveau modèle basé sur les tuiles abstrait ces détails. Au lieu d'écrire un noyau qui lance des milliers de threads et coordonne leur accès à la mémoire partagée, un programmeur peut exprimer le calcul comme des opérations sur des tuiles. Le compilateur CUDA mappe ensuite ces tuiles sur le matériel sous-jacent. Cela devrait réduire les bogues et accélérer le développement, en particulier pour les équipes novices en calcul GPU.

Disponibilité

CUDA 13.3 est disponible dès maintenant en téléchargement sur le site développeur de NVIDIA. Il prend en charge toutes les architectures GPU actuelles de NVIDIA, y compris les gammes Hopper et Blackwell. Les développeurs peuvent commencer à expérimenter immédiatement avec l'API par tuiles.

Cette mise à jour ne rend pas obsolètes les approches plus anciennes, mais elle établit une nouvelle voie par défaut pour écrire du code GPU efficace. L'adoption rapide par la communauté dépendra de la manière dont le compilateur mappe les opérations de tuiles sur le matériel réel — et si les performances égalent celles des noyaux réglés manuellement dans les charges de travail critiques.

Comment fonctionne la programmation par tuiles

Le développement des noyaux simplifié

Disponibilité

Articles Connexes