NVIDIA

Nvidia H200 NVL (141GB) AI and HPC GPU

Modèle: H200 NVL

NVIDIA H200 NVL 141GB Tensor Core GPU. Architecture Hopper avec la première mémoire HBM3e au monde : 141GB à la bande passante de 4 800 GB/s, une augmentation de 76 % de la VRAM et de 43 % de la bande passante par rapport à l'H100 SXM. Même capacité de calcul Hopper que l'H100 : 16 896 cœurs CUDA, 528 Tensor Cores de quatrième génération avec FP8 Transformer Engine, 67 TFLOPS FP32, 3 958 TFLOPS FP8. Form factor PCIe supportant jusqu'à 4 GPUs via des ponts NVLink. TDP configurable jusqu'à 600W. Refroidissement passif à l'air pour châssis de serveur standard. MIG pour 7 instances de 16,5GB chacune. Mise à niveau drop-in depuis l'infrastructure PCIe A100 et H100.

Demandez votre devis pour un cluster GPU

Indiquez-nous vos besoins en matière de déploiement. Notre spécialiste du matériel AI répondra dans les 24 heures par e-mail, WhatsApp ou appel.

Pourquoi les GPUs sont vendus par consultation

Les clusters GPU pour les charges de travail AI et HPC sont configurés selon vos exigences exactes — quantité, topologie d'interconnexion, consommation électrique et refroidissement influencent tous le prix final. Soumettez le formulaire ci-dessous et notre spécialiste vous répondra dans les 24 heures avec un devis complet adapté à votre déploiement.

Comment fonctionne votre commande GPU

1

Soumettre le formulaire

Dites-nous votre cas d'utilisation et la quantité

2

Obtenez votre devis

Tarification complète dans les 24 heures

3

Avis avec un spécialiste

Discuter de la configuration, de l'interconnexion et du refroidissement.

4

Déployer

Matériel expédié et prêt à fonctionner.

Authentique

Matériel testé

Dans le monde entier

Expédition mondiale

Assistance

Experts en Mining

Caractéristiques complètes

Modèle H200 NVL

Demandez un devis d'hébergement pour un Bitcoin Miner

Devis gratuit, réponse en 24h. Pas d'appel commercial.

4.4
étoile étoile étoile étoile étoile

4,7 / 5 sur Trustpilot

Avis clients vérifiés

Plus de 30 000 mineurs livrés

Expédié dans le monde entier depuis 2020

Plus de 1 200 clients dans le monde

Fiable dans plus de 50 pays

ISO Fabriqué en Allemagne trustpilot
avis-google

Obtenez un devis pour le Nvidia H200 NVL (141GB) AI and HPC GPU

Tarification, délai de livraison et options d'hébergement. Conseils personnalisés de notre équipe commerciale.

Répondez dans les 24h via courriel, WhatsApp ou appel.

Détails du produit

NVIDIA H200 NVL 141GB HBM3e : La mise à niveau de mémoire Hopper pour l'inférence des LLM, le service en contexte long et l'extension de la flotte H100 PCIe

Le H200 n'est pas une nouvelle architecture. Il s'agit du même die Hopper GH100 exécutant les mêmes cœurs CUDA, les mêmes Tensor Cores et le même Transformer Engine que le H100. Ce que NVIDIA a changé, c'est le sous-système mémoire : la HBM3 a été remplacée par la HBM3e, la capacité est passée de 80 GB à 141 GB, la bande passante est passée de 3 350 GB/s à 4 800 GB/s. Toutes les autres spécifications demeurent identiques. Il s'agit d'une mise à niveau mémoire ciblée pour les charges de travail où les 80 GB du H100 sont devenus la contrainte. L'impact pratique se répartit en trois catégories qui correspondent à des décisions de déploiement réelles. Inférence LLM à pleine précision. Un modèle de 70 milliards de paramètres à FP16, avec le surcoût du cache KV, nécessite environ 140 Go à 160 Go de mémoire GPU, en fonction de la taille du lot et de la longueur de la séquence. Le H100 à 80 GB ne peut pas le faire tenir sans quantification en FP8 ou INT8, ce qui réduit la précision du modèle. Le H200 NVL à 141 GB peut faire tourner 70B à FP16 sur un seul GPU, en conservant la pleine précision. Pour les applications où la perte de précision due à la quantification est inacceptable (IA médicale, analyse de documents juridiques, modélisation financière), c'est la différence entre "possible" et "prêt pour la production". Évolutivité de l'inférence pour des contextes longs. Les modèles Transformer allouent de la mémoire cache KV proportionnellement à la longueur de la fenêtre de contexte. Un modèle servant des fenêtres de contexte de 128K tokens sur le H100 peut épuiser 80 GB avant que la séquence ne soit terminée. Les 141 GB du H200 étendent la fenêtre de contexte maximale qu'un seul GPU peut gérer de 76 % avant que le déchargement mémoire ne devienne nécessaire. Pour les pipelines RAG, le traitement de documents et les agents conversationnels avec de longs historiques de conversation, cela se traduit directement par des contextes plus longs sans complexité d'infrastructure. Densité multi-locataires via des partitions MIG plus grandes. Chaque instance MIG sur le H200 dispose de 16,5 Go contre 10 Go sur le H100. Cette augmentation de 65 % par instance signifie que chaque partition peut prendre en charge des modèles d'inférence plus volumineux. Alors que les tranches MIG de 10 Go du H100 gèrent des modèles de 3B à 7B, les tranches de 16,5 Go du H200 gèrent des modèles de 7B à 13B par partition. Sept instances de modèles 7B simultanées sur un seul GPU H200 constituent une configuration d'inférence multi-locataires pratique. Les détails de la forme NVL PCIe. Jusqu'à 4 GPUs connectés via des ponts NVLink dans un seul serveur. Compatible refroidissement par air jusqu'à 600 W TDP configurable (contre 700 W sur H200 SXM qui nécessite refroidissement liquide). Interface PCIe Gen 5 x16. Radiateur passif nécessitant le flux d'air du châssis du serveur. S'adapte aux mêmes plateformes serveur exécutant des cartes A100 PCIe ou H100 PCIe, ce qui en fait une mise à niveau plug-and-play. Lenovo, Supermicro, Dell et HPE documentent tous la compatibilité H200 NVL sur les lignes de serveurs existantes. La bande passante compte pour la vitesse de génération de jetons. L'inférence LLM lors de la génération de jetons par décodage autoregressif est limitée par la bande passante mémoire : chaque nouveau jeton nécessite la lecture de l'ensemble des poids du modèle depuis la mémoire HBM. À 4 800 GB/s contre 3 350 GB/s pour le H100, le H200 génère des jetons environ 43 % plus vite sur les charges de travail liées à la bande passante. Les benchmarks RunPod confirment que cela se traduit par des gains de débit d'inférence réels de 1,5x à 1,9x sur les grands modèles de langage. La décision H200 NVL versus H200 SXM reflète la gamme H100. SXM : TDP de 700 W, refroidissement liquide, baseboard HGX, NVSwitch fabric connectant 8 GPUs à 900 GB/s chacun, optimisé pour l'entraînement distribué. NVL : jusqu'à 600 W, refroidissement par air, serveurs PCIe standard, jusqu'à 4-GPU NVLink, optimisé pour l'inférence et le déploiement flexible. SXM pour les clusters d'entraînement. NVL pour les serveurs d'inférence et les mises à niveau d'infrastructure existantes. Les mêmes contrôles d'exportation que le H100. Soumis aux restrictions américaines sur le matériel d'IA avancé.

NVIDIA H200 NVL 141 Go : 76% de VRAM en plus que le H100 sur la même Hopper Compute Architecture

Le H200 NVL répond à une question précise laissée ouverte par le H100 : que se passe-t-il lorsque 80 Go de VRAM ne suffisent pas, mais que vous ne souhaitez pas passer à la tarification Blackwell ? 141 Go de HBM3e avec une bande passante de 4 800 Go/s sur le même die Hopper GH100 qui alimente le H100. Même 16 896 cœurs CUDA. Même 528 cœurs Tensor de quatrième génération. Même le Transformer Engine FP8 à 3 958 TFLOPS. Même MIG, même calcul confidentiel, même pile logicielle CUDA. La seule différence concerne la mémoire : 76 pour cent de capacité supplémentaire (141 Go contre 80 Go) sur un bus HBM3e plus rapide, offrant 43 pour cent de bande passante en plus (4 800 contre 3 350 Go/s). Cette mise à niveau de la mémoire a trois effets pratiques. Premièrement, les modèles de 70 milliards de paramètres en FP16 tiennent sur un seul GPU sans quantification. Le H100 avec 80 Go nécessite une quantification FP8 ou INT8 pour les modèles de 70 milliards, ce qui sacrifie une partie de la précision. Le H200 NVL avec 141 Go les exécute à pleine précision FP16. Deuxièmement, l'inférence à long contexte avec de grands caches KV s'étend davantage avant d'atteindre les limites de mémoire. Les fenêtres de contexte qui épuisent 80 Go sur le H100 ont 76 pour cent de marge supplémentaire sur le H200. Troisièmement, les instances MIG passent de 10 Go à 16,5 Go chacune, rendant chaque partition isolée utile pour des modèles d'inférence plus importants dans des déploiements multi-locataires. La désignation NVL signifie un facteur de forme PCIe avec support de pont NVLink pour jusqu'à 4 GPUs par serveur. Compatible refroidissement par air jusqu’à 600 W TDP. Compatible avec les plateformes serveur standard qui utilisent actuellement des cartes PCIe A100 ou H100. Pas besoin de carte de base HGX. C'est la voie de mise à niveau pour les opérateurs qui souhaitent une capacité mémoire H200 sans remplacer leur infrastructure serveur.

Besoin d'aide pour choisir ?

Nos spécialistes en minage peuvent vous aider à trouver le mineur parfait pour votre configuration et votre budget.

NVIDIA H200 NVL 141GB HBM3e PCIe GPU à noyaux Tensor

Le premier GPU doté de la mémoire HBM3e. 141 Go de VRAM à une bande passante de 4 800 Go/s : 76 % de VRAM en plus et mémoire 43 % plus rapide que celle du H100 SXM. Même calcul Hopper (16 896 cœurs CUDA, 3 958 TFLOPS FP8 Transformer Engine). Facteur de forme PCIe avec une mise à l'échelle NVLink allant jusqu'à 4-GPU. Remplacement prêt à l'emploi pour les emplacements PCIe du H100 et de l'A100. MIG pour 7 instances à 16,5 Go chacune. Refroidissement passif par air, avec une TDP configurable allant jusqu'à 600 W. Conçu pour l'inférence LLM où la taille du modèle et le cache KV dépassent 80 Go par GPU.

141 Go HBM3e : 76 % de plus que le H100

Première GPU avec mémoire HBM3e. Bande passante de 4 800 GB/s. Exécutez des modèles 70B avec une précision FP16 complète sur une seule GPU sans quantification.

Même Hopper Compute, mémoire plus grande

Identiques, 16 896 cœurs CUDA et 3 958 TFLOPS FP8 Transformer Engine comme le H100. Même pile logicielle. Seule la mémoire a changé.

Mise à niveau PCIe plug-and-play à partir de H100 et A100

Compatible avec l'infrastructure serveur existante. Jusqu'à 4 GPUs via des ponts NVLink. Ventilation par air compatible. Aucune carte mère HGX requise.

Foire aux questions

Questions fréquemment posées

Même die Hopper GH100 et même puissance de calcul (16 896 CUDA cores, 3 958 TFLOPS FP8). Le H200 fait passer la mémoire de 80GB HBM3 à 3 350 GB/s à 141GB HBM3e à 4 800 GB/s. Cela représente 76 pour cent de VRAM en plus et 43 pour cent de bande passante en plus. Tout le reste (Tensor Cores, Transformer Engine, MIG, pile CUDA) est identique.

Trois effets pratiques. Les modèles 70B s'adaptent en full FP16 sans quantification (H100 nécessite FP8/INT8 pour 70B). L'inférence à long contexte progresse de 76 pour cent avant d'atteindre les limites de mémoire. Les instances MIG passent de 10GB à 16,5GB chacune, permettant de supporter des modèles plus grands par partition dans des déploiements multi-locataires.

La prochaine génération de High Bandwidth Memory après HBM3. Une bande passante et une capacité par pile plus élevées. La H200 est la première GPU à utiliser HBM3e, offrant 4 800 GB/s contre 3 350 GB/s sur HBM3 (H100). L'amélioration de la bande passante accélère directement la génération de tokens LLM, qui évolue linéairement avec la bande passante mémoire en décodage autoregressif.

Oui. Facteur de forme PCIe Gen 5 x16 avec refroidissement passif. Compatible avec les mêmes plateformes serveur exécutant des cartes H100 PCIe ou A100 PCIe. Lenovo, Supermicro, Dell et HPE documentent la compatibilité sur les gammes de serveurs existantes. Ceci est le chemin de mise à niveau plug-and-play de la capacité mémoire de H100 à H200 sans remplacement du serveur.

Jusqu'à 4 GPUs connectés via des ponts NVLink dans un seul serveur. Par rapport au H200 SXM, qui peut atteindre 8 GPUs par nœud via NVSwitch sur des baseboards HGX. Le chemin NVL offre une infrastructure plus simple au prix de moins de GPUs par nœud.

NVL: facteur de forme PCIe, jusqu'à 600 W de TDP, compatible refroidissement par air, jusqu'à 4 GPU via des ponts NVLink, s'adapte aux serveurs standards. SXM: facteur de forme mezzanine, jusqu'à 700 W de TDP, nécessite un refroidissement liquide et une carte de base HGX, jusqu'à 8 GPU via NVSwitch à 900 Go/s chacun, soit un débit environ 18 pour cent supérieur. NVL pour l'inférence et la flexibilité d'infrastructure. SXM pour des performances maximales d'entraînement.

H200 NVL : 141GB HBM3e à 4,800 GB/s, Transformer Engine FP8, MIG 7 instances à 16.5GB, Hopper architecture. RTX PRO 6000 : 96GB GDDR7 à 1,792 GB/s, pas de Transformer Engine, Blackwell architecture, 125 TFLOPS FP32. Le H200 NVL l'emporte sur la capacité mémoire (47 pour cent de plus), sur la bande passante HBM (2,7x), et sur l'inférence du Transformer Engine. Le RTX PRO 6000 l'emporte sur le calcul FP32 et le coût d'acquisition.

Jusqu'à 7 instances isolées matériellement, chacune de 16,5 Go (contre 10 Go sur le H100). La mémoire par instance plus grande prend en charge des modèles de 7 milliards à 13 milliards de paramètres par partition MIG. Sept instances d'inférence simultanées de 7 milliards de paramètres sur un seul GPU constituent une configuration multi-locataires pratique.

Les benchmarks de RunPod montrent une amélioration de 1,5x à 1,9x du débit d'inférence sur les modèles de langage de grande taille, principalement grâce à l'augmentation de 43 pour cent de la bande passante (4 800 contre 3 350 GB/s). La génération de tokens en décodage autoregressif progresse presque de manière linéaire avec la bande passante mémoire.

Les mêmes contrôles d'exportation américains que le H100. Non disponible en Chine, à Hong Kong et à Macao. NVIDIA a créé des variantes à bande passante limitée pour les marchés restreints. Confirmez votre éligibilité à l'exportation auprès de MillionMiner pour votre lieu de livraison.