Nessun prodotto trovato per ''
NVIDIA
Modello: H100 SXM
NVIDIA H100 SXM5 80GB Tensor Core GPU. architettura Hopper (GH100, TSMC 4nm, 80 miliardi di transistori). 16.896 CUDA cores, 528 Tensor Cores di quarta generazione con FP8 Transformer Engine, 132 RT Cores. 80GB HBM3 su un bus di 5.120 bit con una larghezza di banda di 3.350 GB/s. 67 TFLOPS FP32, 989 TFLOPS TF32 (con sparsità), 3.958 TFLOPS FP8 (con sparsità). Configurabile fino a 700 W TDP. Formato mezzanine SXM5 per HGX baseboards. NVLink 4.0 a 900 GB/s per GPU con NVSwitch che collega fino a 8 GPU in un singolo nodo. MIG fino a 7 istanze isolate da 10 GB ciascuna. Lo standard per l'addestramento di modelli AI su larga scala attraverso hyperscale e data center aziendali in tutto il mondo.
Richiedi il tuo preventivo per il cluster GPU
Indica i tuoi requisiti di distribuzione. Il nostro specialista hardware AI risponde entro 24 ore via email, WhatsApp o telefono.
Perché le GPU vengono vendute tramite consulenza.
I cluster GPU per workload AI e HPC sono configurati secondo le tue esigenze precise — quantità, topologia di interconnessione, consumo energetico e raffreddamento influenzano tutti il prezzo finale. Compila il modulo qui sotto e il nostro esperto risponderà entro 24 ore con un preventivo completo su misura per il tuo deployment.
Grazie! Il nostro specialista risponderà entro 24 ore con il tuo preventivo personalizzato.
Come funziona il tuo ordine GPU
Invia modulo
Indica il tuo caso d'uso e la quantità
Ottieni il tuo preventivo
Prezzi completi entro 24 ore
Recensione con uno specialista
Discutere la configurazione, l'interconnessione e il raffreddamento.
Distribuisci
Hardware spedito e pronto all'uso
Autentico
Hardware testato
In tutto il mondo
Spedizione globale
Supporto
Esperti di Mining
Prezzi, tempi di consegna e opzioni di hosting. Consigli personalizzati dal nostro team di vendita.
Prezzi, tempi di consegna e opzioni di hosting. Consigli personalizzati dal nostro team di vendita.
Preventivo gratuito, risposta entro 24 ore. Nessuna chiamata di vendita.
4,7 / 5 su Trustpilot
Recensioni verificate dai clienti
Oltre 30.000 miner consegnati
Spedito in tutto il mondo dal 2020
1.200+ clienti in tutto il mondo
Affidabile in oltre 50 paesi
L'H100 SXM esiste perché l'addestramento AI distribuito ha un problema di larghezza di banda che PCIe non può risolvere. L'addestramento di un modello da 70B parametri su più GPU richiede che ogni GPU scambi aggiornamenti di gradienti con tutte le altre GPU dopo ogni passaggio forward e backward. Su PCIe Gen 5 a 128 GB/s, questi scambi di gradienti diventano il collo di bottiglia molto prima che le GPU esauriscano la capacità di calcolo. NVLink 4.0 a 900 GB/s per GPU (7x PCIe) e NVSwitch che collega tutte le 8 GPU in un nodo a banda piena eliminano quel collo di bottiglia. Per questo motivo ogni deployment serio di training AI utilizza SXM, non PCIe. Specifiche complete del die GH100. 80 miliardi di transistor a TSMC 4nm. 16.896 CUDA cores distribuiti su 132 SM (abilitazione completa del die su SXM contro 114 SM su PCIe). 528 Tensor Cores di quarta generazione supportano FP64, TF32, FP16, BF16, FP8 e INT8 con il Transformer Engine. 132 RT Cores di terza generazione. 80GB HBM3 su bus da 5.120 bit con larghezza di banda di 3.350 GB/s. 50MB di cache L2. La forma SXM5 offre circa il 30 percento in più di TFLOPS rispetto alla variante PCIe (67 contro 51 TFLOPS FP32) grazie alle frequenze più elevate consentite dal budget energetico di 700W e dall'infrastruttura termica HGX. Aumento del throughput di calcolo a ogni livello di precisione. FP64: 34 TFLOPS (67 TFLOPS Tensor). FP32: 67 TFLOPS. Tensor TF32: 989 TFLOPS con sparsity. Tensor FP16/BF16: 1.979 TFLOPS con sparsity. Tensor FP8: 3.958 TFLOPS con sparsity. Tensor INT8: 3.958 TOPS con sparsity. La cifra di FP8 è quella che conta per l'addestramento dei transformer: 3.958 TFLOPS con gestione automatica della precisione tramite il Transformer Engine significa che l'H100 SXM fornisce circa 4 volte il throughput di training rispetto a un A100 SXM su modelli GPT-class. Architettura NVLink e NVSwitch. Ogni H100 SXM si collega alla rete NVSwitch tramite 18 link NVLink 4.0 che offrono 900 GB/s di larghezza di banda bidirezionale. NVSwitch fornisce connettività all-to-all: qualsiasi GPU può comunicare con qualsiasi altra GPU nello stesso nodo alla piena capacità di 900 GB/s senza attraversare CPU o bus PCIe. Un nodo HGX H100 con 8 GPU rilascia 7,2 TB/s di banda aggregata NVLink su tutte le GPU. Per la scalabilità multi-nodo, NVIDIA Quantum-2 NDR InfiniBand a 400 Gb/s per porta estende la rete oltre i singoli nodi. DGX H100 versus HGX H100. DGX H100 è il sistema turnkey NVIDIA a 8 GPU ($250.000 - $400.000) che include CPU, memoria, storage, networking e stack software. HGX H100 è il modulo baseboard GPU che i produttori di server (Supermicro, Dell, HPE, Lenovo) integrano nelle proprie piattaforme server. Entrambi usano la stessa configurazione di 8x GPU H100 SXM con NVSwitch. Il percorso HGX offre maggiore flessibilità su scelta di CPU, storage e networking. Il quadro decisionale SXM versus NVL versus PCIe. SXM (questo prodotto): massima performance per GPU, scalabilità a 8-GPU NVSwitch, TDP di 700W, richiede la baseboard HGX, ottimizzato per training distribuito. NVL (H100 NVL 94GB, elenco separato MillionMiner): schede PCIe abbinate, memoria unificata da 94GB, compatibile con server standard, ottimizzato per inferenza di grandi modelli. PCIe (H100 standard da 80GB PCIe): singola scheda da 350W, slot server standard, costo inferiore, limitato a 2-GPU NVLink, adatto per inferenza singola GPU e fine-tuning. Scegli SXM quando il throughput di training e l’efficienza della scalabilità multi-GPU sono prioritari. Scegli NVL o PCIe quando l’inferenza o la semplicità infrastrutturale sono più importanti. MIG sul sistema H100 SXM crea fino a 7 istanze isolate da 10GB ciascuna. I pattern di produzione più comuni per Spheron: 7x 1g.10gb per inferenza multi-tenant di modelli piccoli, oppure 2x 3g.40gb per due server di modelli da 13B simultanei. Ogni istanza MIG appare come un dispositivo GPU separato per il sistema operativo con isolamento sancito hardware. Il computing confidenziale tramite Trusted Execution Environment (TEE) protegge dati e pesi dei modelli durante l'elaborazione. Questa funzione di sicurezza a livello hardware è destinata a deploy AI sensibili alla compliance in sanità (HIPAA), finanza (SOC 2) e governo (FedRAMP), dove i dati non possono essere esposti all'operatore dell’infrastruttura. TDP configurabile fino a 700W. Richiede raffreddamento a liquido o ingegnerizzazione di chassis server ad alto flusso d'aria. Il raffreddamento ad aria standard è insufficiente per operazioni sostenute a 700W. NVIDIA DGX H100 utilizza raffreddamento diretto a liquido. Le configurazioni HGX H100 di Supermicro e Lenovo offrono opzioni sia ad aria che a liquido a seconda del budget termico.
L'H100 SXM è la GPU contro cui viene benchmarkato ogni altro acceleratore di IA. Quando NVIDIA, Google, Meta, Microsoft e OpenAI pubblicano benchmark di addestramento, questi benchmark vengono eseguiti su cluster H100 SXM. Quando i fornitori di cloud quotano la capacità di calcolo per IA, la misurano in equivalenti H100 SXM. Questo è l'hardware di riferimento per la generazione attuale di IA.
Ciò che separa lo SXM dalla variante PCIe è l'interconnessione e l'alimentazione. NVLink 4.0 offre una larghezza di banda bidirezionale di 900 GB/s per GPU, collegando fino a 8 GPU H100 SXM tramite NVSwitch in un singolo nodo DGX o HGX. Quella banda di 900 GB/s è 7x più veloce di PCIe Gen 5 (128 GB/s) e consente una scalabilità quasi lineare sui carichi di lavoro di addestramento distribuito dove la sincronizzazione dei gradienti tra le GPU è il collo di bottiglia. L'H100 PCIe raggiunge il massimo con coppie NVLink da 2 GPU. Lo SXM si espande fino a nodi 8-GPU e oltre tramite cluster InfiniBand multi-nodo.
L'intero die GH100 funziona con un TDP fino a 700 W (configurabile), offrendo 16.896 core CUDA e 528 Tensor Cores di quarta generazione con FP8 Transformer Engine. 80 GB HBM3 con banda di 3.350 GB/s alimenta quei core senza esaurimento della memoria durante l'addestramento con batch di grandi dimensioni. Il Transformer Engine gestisce automaticamente la precisione mista FP8/FP16 per ogni strato della rete neurale, offrendo un throughput di addestramento 4x superiore rispetto all'A100 su architetture transformer senza modifiche al codice.
MIG crea fino a 7 istanze isolate da 10 GB ciascuna per inferenza multi-tenant. Il calcolo confidenziale (TEE) protegge i dati e i modelli durante l'elaborazione per implementazioni soggette a requisiti di conformità nel settore sanitario, finanziario e governativo.
Il formato SXM5 richiede una baseboard HGX (piattaforma NVIDIA HGX H100 o DGX H100). Non si collega agli slot PCIe standard. Questa è infrastruttura appositamente progettata per organizzazioni impegnate nel multi-GPU addestramento su larga scala.
I nostri specialisti in mining possono aiutarti a trovare il miner perfetto per la tua configurazione e il tuo budget.
La GPU che ha definito l'era dell'addestramento AI. Full GH100 Hopper die con 16.896 CUDA cores, 528 Tensor Core di quarta generazione, FP8 Transformer Engine e 80GB HBM3 a banda larga di 3.350 GB/s. Formato mezzanine SXM5 per schede base HGX. NVLink 4.0 a 900 GB/s per GPU con tessuto NVSwitch che collega fino a 8 GPU per nodo. 67 TFLOPS FP32, 3.958 TFLOPS FP8 con sparsità. Fino a 700W TDP. MIG per 7 istanze isolate. Progettato appositamente per l'addestramento distribuito AI in cui la larghezza di banda inter-GPU determina l'efficienza di scaling.
8 GPU a piena banda in un nodo. 7,2 TB/s aggregato. Scalabilità quasi lineare sull'addestramento distribuito. L'interconnessione PCIe non può uguagliare.
Quarti generazione di Tensor Cores con precisione automatica FP8/FP16 per livello. 4x di throughput di formazione rispetto a A100 su architetture transformer.
La larghezza di banda della memoria è del 68% più veloce rispetto all'A100. Dispone di 16.896 CUDA cores senza interruzioni su carichi di lavoro di addestramento con grandi batch.
NVIDIA
$14,690.00
NVIDIA
Contatto per prezzo
NVIDIA
$4,633.00
NVIDIA
$57,630.00
SXM: chip completo GH100 con 16.896 CUDA cores, TDP di 700W, banda HBM3 di 3.350 GB/s, NVLink 4.0 a 900 GB/s con NVSwitch che collega fino a 8 GPU. Richiede scheda di base HGX. PCIe: chip parzialmente disabilitato con 14.592 CUDA cores, TDP di 350W, banda di 2.000 GB/s, NVLink limitato a coppie di 2 GPU tramite bridge. Adatto per server standard. SXM è per l'allenamento distribuito su larga scala. PCIe è destinato a inferenza e carichi di lavoro su singola GPU nell'infrastruttura esistente.
Una scheda madre NVIDIA HGX H100 o un sistema DGX H100. Il modulo SXM5 non si collega alle slot PCIe standard. Si collega tramite l'interfaccia mezzanine SXM5 sulla scheda madre HGX. 700 W TDP per GPU (5.600 W per 8 GPU) richiede raffreddamento a liquido o un chassis di livello aziendale ad alto flusso d'aria. Le piattaforme HGX sono disponibili da Supermicro, Dell, HPE e Lenovo.
NVSwitch fornisce connettività GPU da parte a parte all’interno di un nodo. Ogni H100 SXM si collega tramite 18 link NVLink 4.0 a 900 GB/s bidirezionale. Qualsiasi GPU comunica con qualsiasi altra GPU a piena banda senza dover attraversare CPU o PCIe. Un nodo con 8 GPU offre una banda NVLink totale di 7,2 TB/s. Questo è ciò che permette una scalabilità quasi lineare nell’addestramento distribuito, dove la sincronizzazione dei gradienti tra le GPU rappresenta il collo di bottiglia.
Addestramento su larga scala di modelli transformer: LLM di classe GPT (70 miliardi a oltre 175 miliardi di parametri), transformer per la visione, modelli multimodali e modelli di diffusione. Un nodo HGX da 8-GPU con 640 GB di HBM3 combinati gestisce l'addestramento di modelli da 70 miliardi con parallelismo dei dati e di oltre 175 miliardi con parallelismo del modello. Per l'inferenza, un singolo H100 SXM serve modelli da 70 miliardi con quantizzazione FP8 o modelli da 30 miliardi con FP16.
H100 SXM: 67 TFLOPS FP32, 3.958 TFLOPS FP8, 80GB HBM3 a 3.350 GB/s, NVLink 4.0 a 900 GB/s, 700W. A100 SXM: 19,5 TFLOPS FP32, nessun support FP8, 80GB HBM2e a 2.039 GB/s, NVLink 3.0 a 600 GB/s, 400W. L'H100 offre un training circa 3x a 4x più veloce sui modelli transformer grazie alla combinazione di maggiore bandwidth, precisione FP8 e NVLink più veloce.
Gestione automatica della mixed-precision a livello hardware. The Transformer Engine seleziona dinamicamente la precisione FP8 o FP16 per ogni livello della rete neurale durante training e inference, massimizzando la throughput mantenendo l'accuratezza del modello. Questa è una funzionalità hardware unica di Hopper (H100) e architetture più recenti che non richiede modifiche al codice da parte dello sviluppatore.
Multi-Instance GPU crea fino a 7 istanze isolate a livello hardware da 10GB ciascuna. Ogni istanza riceve CUDA core, Tensor Core, cache L2 e HBM dedicati con QoS garantita. Modelli di produzione comuni: 7x 1g.10gb per inferenza multi-tenant di modelli piccoli, o 2x 3g.40gb per due server di modelli da 13B simultanei. Ogni istanza appare come un dispositivo GPU separato per il sistema operativo.
Ambiente di esecuzione affidabile basato su hardware (TEE) che protegge i dati e i pesi del modello durante l'elaborazione su GPU. L'operatore dell'infrastruttura non può accedere ai dati in fase di elaborazione. Necessario per implementazioni AI soggette a requisiti di conformità nel settore sanitario (HIPAA), finanziario (SOC 2) e governativo (FedRAMP), dove la privacy dei dati durante l'elaborazione è obbligatoria.
Stessa architettura Hopper. L'H200 SXM aggiorna la memoria a 141GB HBM3e a 4.800 GB/s (rispetto a 80GB HBM3 a 3.350 GB/s sull'H100). Stesso numero di core CUDA e TFLOPS di calcolo. L'H200 è un upgrade di memoria e banda per carichi di lavoro limitati dalla capacità o dalla banda HBM sull'H100, in particolare inferenza e addestramento di modelli più grandi con batch di dimensioni maggiori.
Le NVIDIA H100 GPUs sono soggette ai controlli di esportazione statunitensi sull'hardware AI avanzato. Non disponibili in Cina, Hong Kong e Macao. NVIDIA ha creato l'H800 (variante limitata in bandwidth) per quei mercati. Confermare l'idoneità all'esportazione con MillionMiner per la destinazione di consegna prima di ordinare.