NVIDIA
Modèle: H100 SXM
NVIDIA H100 SXM5 80GB Tensor Core GPU. architecture Hopper (GH100, TSMC 4nm, 80 milliards de transistors). 16 896 cœurs CUDA, 528 cœurs Tensor de quatrième génération avec le Moteur Transformer FP8, 132 cœurs RT. 80 Go HBM3 sur un bus de 5 120 bits à une bande passante de 3 350 Go/s. 67 TFLOPS FP32, 989 TFLOPS TF32 (avec sparsité), 3 958 TFLOPS FP8 (avec sparsité). TDP configurable jusqu'à 700 W. Facteur de forme mezzanine SXM5 pour les cartes mères HGX. NVLink 4.0 à 900 Go/s par GPU avec NVSwitch connectant jusqu'à 8 GPUs dans un seul nœud. MIG jusqu'à 7 instances isolées de 10 Go chacune. La norme pour l'entraînement de modèles d'IA à grande échelle dans les centres de données hyperscale et d'entreprise du monde entier.
Demandez votre devis pour un cluster GPU
Indiquez-nous vos besoins en matière de déploiement. Notre spécialiste du matériel AI répondra dans les 24 heures par e-mail, WhatsApp ou appel.
Pourquoi les GPUs sont vendus par consultation
Les clusters GPU pour les charges de travail AI et HPC sont configurés selon vos exigences exactes — quantité, topologie d'interconnexion, consommation électrique et refroidissement influencent tous le prix final. Soumettez le formulaire ci-dessous et notre spécialiste vous répondra dans les 24 heures avec un devis complet adapté à votre déploiement.
Merci ! Notre spécialiste vous répondra dans les 24 heures avec votre devis personnalisé.
Comment fonctionne votre commande GPU
Soumettre le formulaire
Dites-nous votre cas d'utilisation et la quantité
Obtenez votre devis
Tarification complète dans les 24 heures
Avis avec un spécialiste
Discuter de la configuration, de l'interconnexion et du refroidissement.
Déployer
Matériel expédié et prêt à fonctionner.
Authentique
Matériel testé
Dans le monde entier
Expédition mondiale
Assistance
Experts en Mining
Tarification, délai de livraison et options d'hébergement. Conseils personnalisés de notre équipe commerciale.
Tarification, délai de livraison et options d'hébergement. Conseils personnalisés de notre équipe commerciale.
Le H100 SXM existe parce que la formation d'IA distribuée rencontre un problème de bande passante que PCIe ne peut pas résoudre. La formation d’un modèle de 70 milliards de paramètres sur plusieurs GPUs nécessite que chaque GPU échange des mises à jour de gradient avec tous les autres GPU après chaque passe forward et backward. Sur PCIe Gen 5 à 128 GB/s, ces échanges de gradients deviennent le goulot d’étranglement bien avant que les GPUs n’atteignent leur capacité de calcul. NVLink 4.0 à 900 GB/s par GPU (7x PCIe) et NVSwitch connectant tous les 8 GPUs d’un nœud à pleine bande passante éliminent ce goulot d’étranglement. C’est pourquoi chaque déploiement sérieux de formation d’IA utilise SXM, pas PCIe. Spécifications complètes du die GH100. 80 milliards de transistors fabriqués par TSMC en 4nm. 16 896 CUDA cores répartis sur 132 SM (activation complète du die sur SXM contre 114 SM sur PCIe). 528 Tensor Cores de 4e génération prenant en charge FP64, TF32, FP16, BF16, FP8, et INT8 avec le Transformer Engine. 132 RT Cores de 3e génération. 80GB HBM3 sur un bus de 5 120 bits avec une bande passante de 3 350 GB/s. Cache L2 de 50MB. La forme SXM5 offre environ 30 pour cent de TFLOPS en plus que la version PCIe (67 contre 51 TFLOPS FP32) grâce à des vitesses d’horloge plus élevées permises par le budget électrique de 700W et l’infrastructure thermique HGX. Débit de calcul à chaque niveau de précision. FP64 : 34 TFLOPS (67 TFLOPS Tensor). FP32 : 67 TFLOPS. Tensor TF32 : 989 TFLOPS avec sparsité. Tensor FP16/BF16 : 1 979 TFLOPS avec sparsité. Tensor FP8 : 3 958 TFLOPS avec sparsité. Tensor INT8 : 3 958 TOPS avec sparsité. La valeur FP8 est celle qui importe pour la formation de transformers : 3 958 TFLOPS avec gestion automatique de la précision via le Transformer Engine, ce qui signifie que le H100 SXM offre environ 4 fois le débit de formation d’un A100 SXM sur des modèles de type GPT. Architecture NVLink et NVSwitch. Chaque H100 SXM se connecte au tissu NVSwitch via 18 liens NVLink 4.0 offrant une bande passante bidirectionnelle de 900 GB/s. NVSwitch fournit une connectivité de type tout-à-tout : tout GPU peut communiquer avec tout autre GPU dans le même nœud à pleine vitesse de 900 GB/s sans passer par un CPU ou un bus PCIe. Un nœud HGX H100 à 8 GPU délivre 7,2 TB/s de bande passante aggregate NVLink répartie sur tous les GPUs. Pour le scaling multi-nœuds, NVIDIA Quantum-2 NDR InfiniBand à 400 Gb/s par port étend le tissu au-delà des nœuds uniques. DGX H100 versus HGX H100. Le DGX H100 est le système clé en main NVIDIA à 8 GPU (classe entre 250 000 et 400 000 dollars) comprenant CPU, mémoire, stockage, réseau et pile logicielle. Le HGX H100 est le module de carte GPU que les OEM de serveurs (Supermicro, Dell, HPE, Lenovo) intègrent dans leurs propres plateformes serveur. Les deux utilisent la même configuration de 8 GPU H100 SXM avec NVSwitch. La voie HGX offre plus de flexibilité pour les choix de CPU, stockage, et réseau. Le cadre de décision SXM versus NVL versus PCIe. SXM (ce produit) : performance maximale par GPU, scalabilité NVLink 8-GPU, TDP de 700W, nécessite une carte de base HGX, optimisé pour la formation distribuée. NVL (H100 NVL 94GB, liste séparée MillionMiner) : cartes PCIe appairées, mémoire unifiée de 94GB, convient aux serveurs standards, optimisé pour l’inférence avec grands modèles. PCIe (H100 standard 80GB PCIe) : carte unique à 350W, emplacements serveurs standards, coût inférieur, limité à 2 NVLink GPU, adapté pour l’inférence sur un seul GPU et le fine-tuning. Choisissez SXM lorsque la cadence de formation et l’efficacité de la scalabilité multi-GPU sont prioritaires. Optez pour NVL ou PCIe lorsque l’inférence ou la simplicité d’infrastructure importent davantage. MIG sur le H100 SXM permet de créer jusqu’à 7 instances isolées de 10GB chacune. Les patterns de production les plus courants selon Spheron : 7x 1g.10gb pour l’inférence multi-locataires de petits modèles, ou 2x 3g.40gb pour deux serveurs simultanés de modèles de 13B. Chaque instance MIG apparaît comme un GPU séparé par le système d’exploitation avec une isolation hardware renforcée. L’informatique confidentielle via Trusted Execution Environment (TEE) protège les données et les poids du modèle durant le traitement. C’est une fonctionnalité de sécurité hardware pour les déploiements IA soumis à la conformité dans la santé (HIPAA), la finance (SOC 2), et le secteur public (FedRAMP), où les données ne peuvent pas être exposées à l’opérateur de l’infrastructure. Jusqu’à 700W de TDP configurable. Nécessite un refroidissement liquide ou une ingénierie de chassis serveur à flux d’air élevé. Le refroidissement à air standard est insuffisant pour une opération soutenue à 700W. NVIDIA DGX H100 utilise un refroidissement liquide direct. Les configurations HGX H100 de Supermicro et Lenovo offrent des options à la fois à air et à liquide en fonction du budget thermique.
Le H100 SXM est le GPU contre lequel tous les autres accélérateurs d'IA sont évalués. Lorsque NVIDIA, Google, Meta, Microsoft et OpenAI publient des benchmarks d'entraînement, ils s'exécutent sur des clusters H100 SXM. Lorsque les fournisseurs de cloud annoncent leur capacité de calcul IA, ils la mesurent en équivalents H100 SXM. Ceci est le matériel de référence pour la génération actuelle de l'IA.
Ce qui distingue le SXM de la variante PCIe, c'est l'interconnexion et l'alimentation. NVLink 4.0 offre une bande passante bidirectionnelle de 900 GB/s par GPU, connectant jusqu'à 8 H100 SXM GPUs via NVSwitch dans un seul nœud DGX ou HGX. Cette bande passante de 900 GB/s est 7 fois plus rapide que PCIe Gen 5 (128 GB/s) et permet une montée en charge quasi linéaire sur les charges de travail d'entraînement distribuées où la synchronisation des gradients entre les GPUs est le goulot d'étranglement. Le H100 PCIe plafonne à des paires NVLink à 2 GPU. Le SXM peut évoluer jusqu'à des nœuds à 8 GPUs et au-delà via des grappes InfiniBand multi-nœuds.
Le GH100 die complet fonctionne à une puissance maximale de 700 W TDP (configurable), délivrant 16 896 cœurs CUDA et 528 Tensor Cores de quatrième génération avec le FP8 Transformer Engine. 80GB HBM3 à 3 350 GB/s de bande passante alimentent ces cœurs sans pénurie de mémoire lors de l'entraînement sur de grands lots. Le Transformer Engine gère automatiquement la précision mixte FP8/FP16 par couche de réseau de neurones, offrant 4x le débit d'entraînement par rapport à l'A100 sur les architectures Transformer sans modification de code.
MIG crée jusqu'à 7 instances isolées de 10GB chacune pour l'inférence multi-locataire. Le calcul confidentiel (TEE) protège les données et les modèles pendant le traitement pour les déploiements sensibles à la conformité dans les domaines de la santé, de la finance et du secteur public.
Le facteur de forme SXM5 nécessite une carte de base HGX (plateforme NVIDIA HGX H100 ou DGX H100). Il ne se branche pas sur des emplacements PCIe standard. Il s'agit d'une infrastructure conçue spécialement pour les organisations engagées dans l'entraînement multi-GPU à grande échelle.
Nos spécialistes en minage peuvent vous aider à trouver le mineur parfait pour votre configuration et votre budget.
Le GPU qui a défini l'ère de la formation en IA. Puce complète GH100 Hopper avec 16 896 CUDA cores, 528 Tensor Cores de quatrième génération, Transformer Engine FP8, et 80GB HBM3 à une bande passante de 3 350 GB/s. Forme mezzanine SXM5 pour les cartes de base HGX. NVLink 4.0 à 900 GB/s par GPU avec un tissu NVSwitch connectant jusqu'à 8 GPU par nœud. 67 TFLOPS FP32, 3 958 TFLOPS FP8 avec sparsité. Jusqu'à 700W TDP. MIG pour 7 instances isolées. Conçu spécifiquement pour la formation distribuée en IA où la bande passante inter-GPU détermine l'efficacité de la montée en charge.
8 GPUs à plein débit dans un seul nœud. 7,2 TB/s au total. Scalabilité quasi-linéaire sur l'entraînement distribué. L'interconnect PCIe ne peut pas rivaliser.
Quatrième génération de Tensor Cores avec précision FP8/FP16 automatique par couche. 4x de débit de formation par rapport à l'A100 sur des architectures de transformer.
68 % plus rapide que A100 en bande passante mémoire. Fournit 16 896 CUDA cores sans sous-alimentation sur des charges d'entraînement par gros lots.
NVIDIA
$14,690.00
NVIDIA
Contactez pour le prix
NVIDIA
$4,633.00
NVIDIA
$57,630.00
SXM : die complète GH100 à 16 896 CUDA cores, TDP de 700W, bande passante HBM3 de 3 350 GB/s, NVLink 4.0 à 900 GB/s avec NVSwitch connectant jusqu'à 8 GPUs. Nécessite une carte mère HGX. PCIe : die partiellement désactivée à 14 592 CUDA cores, TDP de 350W, bande passante de 2 000 GB/s, NVLink limité aux paires de 2-GPU via pont. Convient aux serveurs standard. SXM est destiné à l'entraînement distribué à grande échelle. PCIe est pour l'inférence et les charges de travail mono-GPU dans l'infrastructure existante.
Une carte mère NVIDIA HGX H100 ou système DGX H100. Le module SXM5 ne se branche pas sur les emplacements PCIe standard. Il se connecte via l'interface mezzanine SXM5 sur la carte mère HGX. 700 W TDP par GPU (5 600 W pour 8 GPU) nécessite un refroidissement liquide ou un châssis d'entreprise à haut débit d'air. Les plateformes HGX sont disponibles chez Supermicro, Dell, HPE et Lenovo.
NVSwitch offre une connectivité GPU tous liés au sein d’un nœud. Chaque H100 SXM se connecte via 18 liens NVLink 4.0 à 900 GB/s en bidirectionnel. Tout GPU communique avec n’importe quel autre GPU à pleine bande passante sans passer par le CPU ou PCIe. Un nœud à 8 GPU fournit une bande passante NVLink agrégée de 7,2 TB/s. C’est ce qui permet une montée en charge quasi linéaire lors de l’entraînement distribué, où la synchronisation des gradients entre GPU est le facteur limitant.
Formation à grande échelle de modèles Transformer : LLMs de type GPT (70B à plus de 175B paramètres), transformers visuels, modèles multimodaux et modèles de diffusion. Un nœud HGX à 8 GPU avec 640 Go de mémoire HBM3 combinée gère l'entraînement de modèles 70B avec parallélisme de données et 175B+ avec parallélisme de modèle. Pour l'inférence, une seule H100 SXM sert des modèles 70B en quantification FP8 ou des modèles 30B en FP16.
H100 SXM : 67 TFLOPS FP32, 3 958 TFLOPS FP8, 80GB HBM3 à 3 350 GB/s, NVLink 4.0 à 900 GB/s, 700W. A100 SXM : 19,5 TFLOPS FP32, pas de support FP8, 80GB HBM2e à 2 039 GB/s, NVLink 3.0 à 600 GB/s, 400W. Le H100 offre un entraînement environ 3 à 4 fois plus rapide sur les modèles transformer grâce à l'effet combiné d'une bande passante plus élevée, de la précision FP8, et d'un NVLink plus rapide.
Gestion automatique de la précision mixte au niveau matériel. Le Transformer Engine sélectionne dynamiquement la précision FP8 ou FP16 par couche de réseau neuronal lors de l'entraînement et de l'inférence, maximisant le débit tout en maintenant la précision du modèle. Il s'agit d'une fonctionnalité matérielle unique à Hopper (H100) et aux architectures plus récentes qui ne nécessite aucune modification du code de la part du développeur.
Multi-Instance GPU crée jusqu'à 7 instances isolées au niveau matériel de 10Go chacune. Chaque instance dispose de cœurs CUDA dédiés, Tensor Cores, cache L2, et HBM avec une QoS garantie. Les patterns de production courants : 7x 1g.10gb pour l'inférence multi-locataire de petits modèles, ou 2x 3g.40gb pour deux serveurs de modèles simultanés de 13B. Chaque instance apparaît comme un périphérique GPU séparé pour le système d'exploitation.
Un environnement d'exécution fiable basé sur le matériel (TEE) qui protège les données et les poids du modèle pendant le traitement GPU. L'opérateur d'infrastructure ne peut pas accéder aux données en cours de calcul. Nécessaire pour les déploiements d'IA sensibles à la conformité dans le secteur de la santé (HIPAA), dans le secteur financier (SOC 2) et dans le secteur gouvernemental (FedRAMP) où la confidentialité des données pendant le traitement est exigée.
Même architecture Hopper. Le H200 SXM améliore la mémoire à 141GB HBM3e à 4,800 GB/s (par rapport à 80GB HBM3 à 3,350 GB/s sur le H100). Même nombre de cœurs CUDA et TFLOPS de calcul. Le H200 est une amélioration de mémoire et de bande passante pour les charges de travail limitées par la capacité ou la bande passante HBM sur le H100, en particulier l’inférence et l’entraînement de modèles plus volumineux avec des tailles de lot plus grandes.
Les GPU NVIDIA H100 sont soumis aux contrôles à l'exportation américains pour le matériel AI avancé. Non disponible en Chine, à Hong Kong et à Macao. NVIDIA a créé le H800 (version limitée en bande passante) pour ces marchés. Confirmez l'éligibilité à l'exportation avec MillionMiner pour votre destination de livraison avant de commander.