NVIDIA

Nvidia H200 NVL (141GB) AI and HPC GPU

Modèle: H200 SXM

Demandez votre devis pour un cluster GPU

Indiquez-nous vos besoins en matière de déploiement. Notre spécialiste du matériel AI répondra dans les 24 heures par e-mail, WhatsApp ou appel.

Pourquoi les GPUs sont vendus par consultation

Les clusters GPU pour les charges de travail AI et HPC sont configurés selon vos exigences exactes — quantité, topologie d'interconnexion, consommation électrique et refroidissement influencent tous le prix final. Soumettez le formulaire ci-dessous et notre spécialiste vous répondra dans les 24 heures avec un devis complet adapté à votre déploiement.

Comment fonctionne votre commande GPU

1

Soumettre le formulaire

Dites-nous votre cas d'utilisation et la quantité

2

Obtenez votre devis

Tarification complète dans les 24 heures

3

Avis avec un spécialiste

Discuter de la configuration, de l'interconnexion et du refroidissement.

4

Déployer

Matériel expédié et prêt à fonctionner.

Authentique

Matériel testé

Dans le monde entier

Expédition mondiale

Assistance

Experts en Mining

NVIDIA H200 NVL 141GB Tensor Core GPU. Architecture Hopper avec la première mémoire HBM3e au monde : 141GB à la bande passante de 4 800 GB/s, une augmentation de 76 % de la VRAM et de 43 % de la bande passante par rapport à l'H100 SXM. Même capacité de calcul Hopper que l'H100 : 16 896 cœurs CUDA, 528 Tensor Cores de quatrième génération avec FP8 Transformer Engine, 67 TFLOPS FP32, 3 958 TFLOPS FP8. Form factor PCIe supportant jusqu'à 4 GPUs via des ponts NVLink. TDP configurable jusqu'à 600W. Refroidissement passif à l'air pour châssis de serveur standard. MIG pour 7 instances de 16,5GB chacune. Mise à niveau drop-in depuis l'infrastructure PCIe A100 et H100.

Caractéristiques complètes

Modèle H200 SXM

Demandez un devis d'hébergement pour un Bitcoin Miner

Devis gratuit, réponse en 24h. Pas d'appel commercial.

4.4
étoile étoile étoile étoile étoile

4,7 / 5 sur Trustpilot

Avis clients vérifiés

Plus de 30 000 mineurs livrés

Expédié dans le monde entier depuis 2020

Plus de 1 200 clients dans le monde

Fiable dans plus de 50 pays

ISO Fabriqué en Allemagne trustpilot
avis-google

Obtenez un devis pour le Nvidia H200 NVL (141GB) AI and HPC GPU

Tarification, délai de livraison et options d'hébergement. Conseils personnalisés de notre équipe commerciale.

Répondez dans les 24h via courriel, WhatsApp ou appel.

Détails du produit

NVIDIA H200 NVL 141GB HBM3e : La mise à niveau de mémoire Hopper pour l'inférence des LLM, le service en contexte long et l'extension de la flotte H100 PCIe

Le H200 n'est pas une nouvelle architecture. Il s'agit du même die Hopper GH100 exécutant les mêmes cœurs CUDA, les mêmes Tensor Cores et le même Transformer Engine que le H100. Ce que NVIDIA a changé, c'est le sous-système mémoire : la HBM3 a été remplacée par la HBM3e, la capacité est passée de 80 GB à 141 GB, la bande passante est passée de 3 350 GB/s à 4 800 GB/s. Toutes les autres spécifications demeurent identiques. Il s'agit d'une mise à niveau mémoire ciblée pour les charges de travail où les 80 GB du H100 sont devenus la contrainte. L'impact pratique se répartit en trois catégories qui correspondent à des décisions de déploiement réelles. Inférence LLM à pleine précision. Un modèle de 70 milliards de paramètres à FP16, avec le surcoût du cache KV, nécessite environ 140 Go à 160 Go de mémoire GPU, en fonction de la taille du lot et de la longueur de la séquence. Le H100 à 80 GB ne peut pas le faire tenir sans quantification en FP8 ou INT8, ce qui réduit la précision du modèle. Le H200 NVL à 141 GB peut faire tourner 70B à FP16 sur un seul GPU, en conservant la pleine précision. Pour les applications où la perte de précision due à la quantification est inacceptable (IA médicale, analyse de documents juridiques, modélisation financière), c'est la différence entre "possible" et "prêt pour la production". Évolutivité de l'inférence pour des contextes longs. Les modèles Transformer allouent de la mémoire cache KV proportionnellement à la longueur de la fenêtre de contexte. Un modèle servant des fenêtres de contexte de 128K tokens sur le H100 peut épuiser 80 GB avant que la séquence ne soit terminée. Les 141 GB du H200 étendent la fenêtre de contexte maximale qu'un seul GPU peut gérer de 76 % avant que le déchargement mémoire ne devienne nécessaire. Pour les pipelines RAG, le traitement de documents et les agents conversationnels avec de longs historiques de conversation, cela se traduit directement par des contextes plus longs sans complexité d'infrastructure. Densité multi-locataires via des partitions MIG plus grandes. Chaque instance MIG sur le H200 dispose de 16,5 Go contre 10 Go sur le H100. Cette augmentation de 65 % par instance signifie que chaque partition peut prendre en charge des modèles d'inférence plus volumineux. Alors que les tranches MIG de 10 Go du H100 gèrent des modèles de 3B à 7B, les tranches de 16,5 Go du H200 gèrent des modèles de 7B à 13B par partition. Sept instances de modèles 7B simultanées sur un seul GPU H200 constituent une configuration d'inférence multi-locataires pratique. Les détails de la forme NVL PCIe. Jusqu'à 4 GPUs connectés via des ponts NVLink dans un seul serveur. Compatible refroidissement par air jusqu'à 600 W TDP configurable (contre 700 W sur H200 SXM qui nécessite refroidissement liquide). Interface PCIe Gen 5 x16. Radiateur passif nécessitant le flux d'air du châssis du serveur. S'adapte aux mêmes plateformes serveur exécutant des cartes A100 PCIe ou H100 PCIe, ce qui en fait une mise à niveau plug-and-play. Lenovo, Supermicro, Dell et HPE documentent tous la compatibilité H200 NVL sur les lignes de serveurs existantes. La bande passante compte pour la vitesse de génération de jetons. L'inférence LLM lors de la génération de jetons par décodage autoregressif est limitée par la bande passante mémoire : chaque nouveau jeton nécessite la lecture de l'ensemble des poids du modèle depuis la mémoire HBM. À 4 800 GB/s contre 3 350 GB/s pour le H100, le H200 génère des jetons environ 43 % plus vite sur les charges de travail liées à la bande passante. Les benchmarks RunPod confirment que cela se traduit par des gains de débit d'inférence réels de 1,5x à 1,9x sur les grands modèles de langage. La décision H200 NVL versus H200 SXM reflète la gamme H100. SXM : TDP de 700 W, refroidissement liquide, baseboard HGX, NVSwitch fabric connectant 8 GPUs à 900 GB/s chacun, optimisé pour l'entraînement distribué. NVL : jusqu'à 600 W, refroidissement par air, serveurs PCIe standard, jusqu'à 4-GPU NVLink, optimisé pour l'inférence et le déploiement flexible. SXM pour les clusters d'entraînement. NVL pour les serveurs d'inférence et les mises à niveau d'infrastructure existantes. Les mêmes contrôles d'exportation que le H100. Soumis aux restrictions américaines sur le matériel d'IA avancé.

NVIDIA H200 NVL 141 Go : 76% de VRAM en plus que le H100 sur la même Hopper Compute Architecture

Le H200 NVL répond à une question précise laissée ouverte par le H100 : que se passe-t-il lorsque 80 Go de VRAM ne suffisent pas, mais que vous ne souhaitez pas passer à la tarification Blackwell ? 141 Go de HBM3e avec une bande passante de 4 800 Go/s sur le même die Hopper GH100 qui alimente le H100. Même 16 896 cœurs CUDA. Même 528 cœurs Tensor de quatrième génération. Même le Transformer Engine FP8 à 3 958 TFLOPS. Même MIG, même calcul confidentiel, même pile logicielle CUDA. La seule différence concerne la mémoire : 76 pour cent de capacité supplémentaire (141 Go contre 80 Go) sur un bus HBM3e plus rapide, offrant 43 pour cent de bande passante en plus (4 800 contre 3 350 Go/s). Cette mise à niveau de la mémoire a trois effets pratiques. Premièrement, les modèles de 70 milliards de paramètres en FP16 tiennent sur un seul GPU sans quantification. Le H100 avec 80 Go nécessite une quantification FP8 ou INT8 pour les modèles de 70 milliards, ce qui sacrifie une partie de la précision. Le H200 NVL avec 141 Go les exécute à pleine précision FP16. Deuxièmement, l'inférence à long contexte avec de grands caches KV s'étend davantage avant d'atteindre les limites de mémoire. Les fenêtres de contexte qui épuisent 80 Go sur le H100 ont 76 pour cent de marge supplémentaire sur le H200. Troisièmement, les instances MIG passent de 10 Go à 16,5 Go chacune, rendant chaque partition isolée utile pour des modèles d'inférence plus importants dans des déploiements multi-locataires. La désignation NVL signifie un facteur de forme PCIe avec support de pont NVLink pour jusqu'à 4 GPUs par serveur. Compatible refroidissement par air jusqu’à 600 W TDP. Compatible avec les plateformes serveur standard qui utilisent actuellement des cartes PCIe A100 ou H100. Pas besoin de carte de base HGX. C'est la voie de mise à niveau pour les opérateurs qui souhaitent une capacité mémoire H200 sans remplacer leur infrastructure serveur.

Besoin d'aide pour choisir ?

Nos spécialistes en minage peuvent vous aider à trouver le mineur parfait pour votre configuration et votre budget.

NVIDIA H200 NVL 141GB HBM3e PCIe GPU à noyaux Tensor

Le premier GPU doté de la mémoire HBM3e. 141 Go de VRAM à une bande passante de 4 800 Go/s : 76 % de VRAM en plus et mémoire 43 % plus rapide que celle du H100 SXM. Même calcul Hopper (16 896 cœurs CUDA, 3 958 TFLOPS FP8 Transformer Engine). Facteur de forme PCIe avec une mise à l'échelle NVLink allant jusqu'à 4-GPU. Remplacement prêt à l'emploi pour les emplacements PCIe du H100 et de l'A100. MIG pour 7 instances à 16,5 Go chacune. Refroidissement passif par air, avec une TDP configurable allant jusqu'à 600 W. Conçu pour l'inférence LLM où la taille du modèle et le cache KV dépassent 80 Go par GPU.

141GB HBM3e : 76% de plus que le H100

Première GPU avec mémoire HBM3e. Bande passante de 4 800 GB/s. Exécutez des modèles 70B avec une précision FP16 complète sur une seule GPU sans quantification.

Même Hopper Compute, mémoire plus grande

Identiques, 16 896 cœurs CUDA et 3 958 TFLOPS FP8 Transformer Engine comme le H100. Même pile logicielle. Seule la mémoire a changé.

Mise à niveau PCIe plug-and-play à partir de H100 et A100

Compatible avec l'infrastructure serveur existante. Jusqu'à 4 GPUs via des ponts NVLink. Ventilation par air compatible. Aucune carte mère HGX requise.

Foire aux questions

Questions fréquemment posées

Mémoire HBM3e agrégée de 1 128 Go (1,1 To). Bande passante combinée de 38 400 Go/s. Plus de 32 petaFLOPS FP8 de calcul. Bande passante NVLink de 7 200 Go/s à travers le tissu NVSwitch. DGX H200 puissance système totale d'environ 8 500 W.

SXM : TDP de 700W, nécessite une carte mère HGX et un refroidissement liquide, NVSwitch connecte 8 GPUs à 900 GB/s chacun, avec un débit global environ 18 pour cent supérieur, optimisé pour la formation distribuée. NVL : TDP de 600W, refroidissement par air, serveurs PCIe standard, jusqu'à 4 GPUs via des ponts NVLink sans NVSwitch, optimisé pour l'inférence. Tous deux partagent la même mémoire HBM3e de 141 Go à 4 800 GB/s et le même calcul Hopper.

Même GH100 die, mêmes cœurs CUDA, mêmes Tensor Cores, mêmes TFLOPS de calcul. Le H200 fait passer la mémoire de 80 Go HBM3 à 3 350 Go/s à 141 Go HBM3e à 4 800 Go/s. Par nœud : 1,1 To contre 640 Go, 38 400 contre 26 800 Go/s. Les benchmarks NVIDIA montrent que le débit d'inférence de Llama2 70B est presque doublé sur H200 par rapport au H100, avec la même configuration de lot.

Frontier LLMs (70B à 175B+ paramètres) pendant l'entraînement avec parallélisme tensoriel. Architectures Mixture-of-Experts (Mixtral, DeepSeek V3) où le routage des experts bénéficie de la bande passante NVSwitch. Inférence à long contexte où le cache KV épuisé par l'H100 de 80 Go. Toute charge de travail où la capacité mémoire ou la bande passante de l'H100 était la contrainte.

Plaque de base NVIDIA HGX H200 ou système DGX H200. TDP de 700W par GPU (5 600W pour 8 GPUs) nécessite un refroidissement liquide dans la plupart des configurations. Plates-formes HGX disponibles chez Supermicro, Dell, HPE et Lenovo. DGX H200 est le système clé en main à 8-GPU de NVIDIA. Infrastructure de centre de données avec alimentation, refroidissement et réseau appropriés.

NVSwitch établit une connectivité GPU en maillage complet et all-to-all. Tout GPU communique avec tout autre GPU à 900 GB/s sans l'intervention du CPU ni du PCIe. La synchronisation des gradients pendant l'entraînement distribué s'effectue en microsecondes, avec une surcharge inférieure à 10 pour cent du temps de calcul. Sans NVSwitch, l'efficacité de l'entraînement se dégrade significativement à partir de 4 GPUs, car PCIe à 128 GB/s ne peut pas suivre les exigences d'échange de gradients.

Le B200 passe à l'architecture Blackwell avec des TFLOPS de calcul plus élevés, une génération de Tensor Core plus récente et des améliorations architecturales. Le H200 SXM offre une maturité avérée de l'écosystème Hopper avec une stabilité des pilotes établie, le support de la pile logicielle et des années de documentation de déploiement en production. Pour un déploiement immédiat sur du matériel éprouvé, le H200 SXM est l'option la plus solide. Pour des performances de prochaine génération, Blackwell est la plateforme de l'avenir.

Jusqu'à 7 instances isolées matériellement, chacune avec 16,5 Go (contre 10 Go sur le H100 SXM). La mémoire par instance, 65 % plus grande, permet de servir des modèles de 7 milliards à 13 milliards de paramètres par partition MIG. Chaque instance dispose de cœurs CUDA dédiés, Tensor Cores, cache L2 et HBM avec isolation renforcée par le matériel.

Oui. L'environnement d'exécution fiable basé sur le matériel (TEE) protège les données et les poids du modèle pendant le traitement sur GPU. Nécessaire pour les déploiements d'IA sensibles à la conformité dans les environnements de soins de santé (HIPAA), de finance (SOC 2) et gouvernementaux (FedRAMP) où la confidentialité des données pendant le traitement est obligatoire.

Les mêmes contrôles d'exportation américains que le H100. Non disponible en Chine, à Hong Kong et à Macao. NVIDIA a créé des variantes à bande passante limitée pour les marchés restreints. Confirmez votre éligibilité à l'exportation auprès de MillionMiner pour votre lieu de livraison.