L'arme miracle de Nvidia pour plus de FPS expliquée : DLSS 4 multiplie par huit les performances

Le DLSS 4 de Nvidia, incluant la génération multi-frame, promet d'immenses gains de performances. (Source de l'image : Nvidia)

Il n'est pas vraiment surprenant que Nvidia fasse un pas de plus vers le rendu IA avec sa dernière génération de cartes graphiques - même si la signification exacte du terme pourrait être débattue.

Ce qui est plus surprenant, c'est l'annonce complète selon laquelle.

Naturellement, les fabricants donnent ici les meilleurs chiffres possibles. Ce qu’il en reste dans la pratique reste à voir. Les tests apparaissent au lancement des nouveaux modèles :

Cependant, ce que nous pouvons déjà dire, c'est la manière dont Nvidia souhaite obtenir cet immense gain de performances.

Le mot magique est la génération multi-images

Bon, il y a trois mots – excuse-moi ! Si vous ne pouvez rien faire avec, voici une brève explication de ce qu'est réellement la génération de trames simples.

Fondamentalement, la technologie insère simplement une image supplémentaire entre deux images traditionnellement calculées sur la carte graphique. Ce calcul d'image intermédiaire est effectué par l'IA.

Cela se fait à l'aide d'un soi-disantAccélérateurs de flux optique(OFA) Détermine la direction et la vitesse des pixels d’une image à la suivante. Ces données circulent ensuite dans un réseau neuronal qui génère finalement l’image supplémentaire.

L'avantage de la génération de trames

La fréquence d'images est doublée sans doubler l'effort de calcul sur le GPU et le CPU. La charge de calcul supplémentaire n’est pas supportée par les cœurs de calcul shader classiques, mais par les cœurs tenseurs spécialisés dans l’IA et l’OFA précité.

L'inconvénient de la génération de trames

Des artefacts d'image et des images fantômes peuvent apparaître, ce qui réduit la qualité d'affichage. Dans le même temps, le délai du système (latence) est augmenté car deux images entières sont mises en mémoire tampon et ne sont pas sorties.

À 60 FPS (16,7 millisecondes par image), cela représente environ 33 millisecondes. Cet effet est cependant quelque peu compensé par la technologie Reflex de Nvidia.

Clair et simple :Reflex optimise la communication entre le CPU et le GPU lors de la création d'images dans les jeux vidéo. Du temps est donc gagné ailleurs.

Alors, qu’est-ce que la génération multi-images ?

Comme son nom l'indique, MFG crée non pas une seule image supplémentaire, mais plusieurs. Jusqu'à trois, pour être exact.

Cependant, cela ne se produit plus via OFA. Ce composant matériel dédié est fourni par unModèle KI (flux optique AI)remplacé, qui est entièrement calculé par les noyaux tenseurs.

Selon l'image ci-dessus, l'IA peut en générer trois supplémentaires à partir d'une image rendue en une seule fois - mais elle utilise probablement deux images rendues.

L'avantage de la génération multi-trames

Une fréquence d’images bien plus élevée qui, comme son prédécesseur, ne nécessite pas de capacité de calcul traditionnelle sur le CPU et le GPU.

De plus, le frame rythme (le temps entre la sortie des images, qui doit être aussi uniforme que possible) devrait être amélioré à l'aide de ce que l'on appelle la mesure inversée afin d'éviter le bégaiement de l'image.

Voici à quoi ressemble DLSS 4, y compris la génération multi-frame, en pratique et en comparaison :

Contenu éditorial recommandé

À ce stade, vous trouverez du contenu externe de YouTube qui complète l'article.
Vous pouvez l'afficher et le masquer à nouveau en un seul clic.

J'accepte que le contenu de YouTube me soit montré.

Les données personnelles peuvent être transmises à des plateformes tierces. Plus d'informations à ce sujet dans notre.

Lien versContenu YouTube

L'inconvénient de la génération multi-trames

Le fonctionnement de la génération multi-images en termes de qualité d'image doit encore être clarifié par des tests indépendants.

Fondamentalement, en faisant passer le DLSS 4 (et donc également la génération de trames) d'un réseau neuronal convolutif (CNN) à un modèle Transformer, Nvidia promet un plus grand niveau de détail, moins d'artefacts et d'images fantômes.

Ce qui est particulièrement intéressant est la manière dont les images intermédiaires sont générées en termes de latence.Si le modèle d'IA utilise uniquement les données de mouvement d'une image au lieu de deux, comme c'est le cas avec la génération d'images simples, au moins une partie de la latence supplémentaire devrait être éliminée.

Cependant, deux images sont probablement utilisées, toutes deux mises en mémoire tampon et à partir desquelles le maximum de trois images intermédiaires est calculé.

Il y a aussi le retard dans la création des trois cadres supplémentaires eux-mêmes.Celles-ci ne sont pas restituées de manière traditionnelle, ce qui signifie que les joueurs n'ont en réalité une influence que sur la première image de la séquence (la première d'un maximum de cinq) par leur saisie. Cependant, Nvidia souhaite compenser cela avec Reflex 2.

Nous expliquerons exactement comment cela fonctionne dans un article suivant. Mais vous pouvez déjà regarder notre conférence vidéo sur le sujet de la RTX 5000. Le réflexe 2 y est expliqué.

Les nouveaux noyaux tenseurs

Afin de pouvoir générer autant d'images supplémentaires par rapport à la simple génération d'images, vous avez besoin de la puissance des nouveaux cœurs tenseurs.

On dit qu’ils sont devenus nettement plus forts.Selon NvidiaLes cœurs de 5e génération (RTX 5000) sont jusqu'à deux fois et demie plus puissants que leurs prédécesseurs directs (RTX 4000).

À ce stade arrive le nouveau terme de bataille de NvidiaTOP IAdans le jeu. L'unité indique la puissance de calcul des cœurs tenseurs.

Le facteur 2,5 résulte des informations de Nvidia, qui compare un RTX 5090 avec 3 352 AI TOP avec un RTX 4090 avec 1 321 AI TOP - 3 352 / 1 312 = 2,5.

Cependant, une certaine prudence s’impose ici. Parce qu'il n'est pas tout à fait clair quelle précision (pour les opérations en virgule flottante ; plus la valeur est élevée, plus la précision et la puissance de calcul sont élevées) a été utilisée pour les deux valeurs.

Nvidia lui-même écritque la génération d'images dans les applications d'IA générative est deux fois plus rapide sur le RTX 5090 avec FP4 que sur le RTX 4090 avec FP16. Il reste encore à clarifier à quoi cela ressemble dans les jeux et si la même précision est utilisée.

A considérer également :Le RTX 5090 possède 680 cœurs tenseurs, le RTX 4090seulementplus de 512.

En savoir plus sur le RTX 5000

DLSS 4 est plus qu'Uspcaling

Particulièrement important :La génération multi-trames fait partie de DLSS 4.

Afin de permettre des gains de performances aussi élevés combinés à une bonne qualité d'affichage, comme nous le montre Nvidia, plusieurs fonctions DLSS doivent fonctionner ensemble.

En plus de la génération multi-images, il existe la mise à l'échelle (super résolution), la reconstruction de rayons (si le lancer de rayons ou le traçage de chemin est impliqué) et l'anticrénelage DLAA.

Dans le cas de la vidéo YouTube affichée, une image (ou deux images) est d'abord rendue nativement à une résolution inférieure. Celle-ci est ensuite adaptée à la résolution supérieure souhaitée avec la super résolution DLSS (mise à l'échelle).

La reconstruction de rayons supprime le bruit de l'image si le lancer de rayons ou le traçage de chemin a déjà été utilisé. DLAA lisse les bords.

Ce n'est qu'alors que la génération multi-images démarreet génère jusqu'à trois images supplémentaires à partir d'une image (ou de deux images).