Loading market data...

NVIDIA CUDA 13.3 legger til flisbasert GPU-programmering i C++

NVIDIA CUDA 13.3 legger til flisbasert GPU-programmering i C++

NVIDIA har lansert CUDA 13.3, en versjon som introduserer flisbasert GPU-programmering direkte i C++. Oppdateringen tar sikte på å utnytte Tensor-kjerner bedre, samtidig som kompleksiteten i å skrive kjerner reduseres.

Slik fungerer flisbasert programmering

Flisbasert programmering deler en beregning opp i små, faste blokker kalt fliser. Disse flisene matcher GPUens interne datastrømsmønstre, noe som gjør det enklere å holde maskinvaren i arbeid. I tidligere versjoner av CUDA måtte utviklere håndtere denne tilordningen selv. Nå håndterer kompilatoren det, i hvert fall for mange vanlige mønstre.

Tensor-kjerner er spesialisert maskinvare inne i NVIDIA GPUer som akselererer matrisemultiplikasjon-akkumuleringsoperasjoner. De er sentrale for AI-trening og inferens. Men for å oppnå topp ytelse fra dem krevdes ofte intrikat manuell justering. CUDA 13.3s flisabstraksjon fliser automatisk matriseoperasjoner slik at de treffer Tensor-kjerner oftere. Utviklere skriver enklere kode og får likevel god gjennomstrømning.

Kjerneutvikling blir enklere

Et av de største smertene ved GPU-programmering er å håndtere tråder, delt minne og synkronisering. Den nye flisbaserte modellen abstraherer bort disse detaljene. I stedet for å skrive en kjerne som oppretter tusenvis av tråder og koordinerer deres tilgang til delt minne, kan en programmerer uttrykke beregningen som operasjoner på fliser. CUDA-kompilatoren tilordner deretter disse flisene til den underliggende maskinvaren. Dette bør redusere feil og fremskynde utviklingen, spesielt for team som er nye innen GPU-beregning.

Tilgjengelighet

CUDA 13.3 er tilgjengelig for nedlasting fra NVIDIAs utviklerside. Den støtter alle gjeldende NVIDIA GPU-arkitekturer, inkludert Hopper- og Blackwell-seriene. Utviklere kan begynne å eksperimentere med det flisbaserte APIet umiddelbart.

Oppdateringen avskriver ikke eldre tilnærminger, men den setter en ny standardbane for å skrive effektiv GPU-kode. Hvorvidt det bredere miljøet raskt tar det i bruk, vil avhenge av hvor godt kompilatoren tilordner flisoperasjoner til ekte maskinvare – og om ytelsen matcher håndjusterte kjerner i kritiske arbeidsbelastninger.