NVIDIA
Modell: H200 NVL
NVIDIA H200 NVL 141GB Tensor Core GPU. Hopper-Architektur mit der weltweit ersten HBM3e-Speicher: 141GB bei 4.800 GB/s Bandbreite, eine Steigerung des VRAM um 76 Prozent und eine Bandbreitensteigerung um 43 Prozent im Vergleich zum H100 SXM. Gleiches Hopper-Compute wie der H100: 16.896 CUDA-Kerne, 528 fourth-gen Tensor Cores mit FP8 Transformer Engine, 67 TFLOPS FP32, 3.958 TFLOPS FP8. PCIe-Formfaktor mit Unterstützung für bis zu 4 GPUs via NVLink-Brücken. Bis zu 600W TDP konfigurierbar. Passive Luftkühlung für Standard-Server-Gehäuse. MIG für 7 Instanzen à 16,5GB. Drop-in-Upgrade von A100 und H100 PCIe-Infrastruktur.
Fordern Sie Ihr GPU-Cluster-Angebot an.
Teilen Sie uns Ihre Einsatzanforderungen mit. Unser AI-Hardware-Spezialist antwortet innerhalb von 24 Stunden per E-Mail, WhatsApp oder Anruf.
Warum GPUs durch Beratung verkauft werden
GPU-Cluster für AI- und HPC-Workloads werden exakt nach Ihren Anforderungen konfiguriert — Menge, Verbindungs-Topologie, Stromverbrauch und Kühlung beeinflussen den endgültigen Preis. Füllen Sie das untenstehende Formular aus, und unser Spezialist wird Ihnen innerhalb von 24 Stunden ein vollständiges Angebot zugeschnitten auf Ihren Einsatz zukommen lassen.
Danke! Unser Spezialist wird Ihnen innerhalb von 24 Stunden ein individuelles Angebot zukommen lassen.
So funktioniert Ihre GPU-Bestellung
Formular absenden
Teilen Sie uns Ihren Anwendungsfall & Menge mit
Angebot anfordern
Vollständige Preisgestaltung innerhalb von 24 Stunden
Überprüfung mit Spezialisten
Diskutieren Sie Konfiguration, Interconnect und Kühlung.
Bereitstellen
Hardware versandt & einsatzbereit
Echt
Getestete Hardware
Weltweit
Globaler Versand
Unterstützung
Mining-Experten
Preise, Lieferzeiten und Hosting-Optionen. Persönliche Beratung durch unser Verkaufsteam.
Preise, Lieferzeiten und Hosting-Optionen. Persönliche Beratung durch unser Verkaufsteam.
Kostenloses Angebot, Antwort innerhalb von 24 Stunden. Kein Verkaufsgespräch.
4,7 / 5 auf Trustpilot
Verifizierte Kundenbewertungen
<amount>30.000+</amount> Miner geliefert
Weltweit versendet seit 2020
1.200+ Kunden weltweit
In über 50 Ländern vertrauenswürdig
Der H200 ist keine neue Architektur. Es handelt sich um denselben Hopper GH100-Die, der dieselben CUDA-Kerne, dieselben Tensor-Cores und dieselbe Transformer Engine wie der H100 verwendet. Was NVIDIA geändert hat, ist das Speichersubsystem: HBM3 wurde durch HBM3e ersetzt, die Kapazität von 80 GB auf 141 GB erhöht, und die Bandbreite von 3.350 GB/s auf 4.800 GB/s erhöht. Alle anderen Spezifikationen bleiben identisch. Dies ist ein gezieltes Speicher-Upgrade für Arbeitslasten, bei denen die 80 GB des H100 zur Einschränkung geworden sind.
Die praktischen Auswirkungen lassen sich in drei Kategorien einteilen, die realen Bereitstellungsentscheidungen entsprechen. LLM-Inferenz mit voller Präzision. Ein 70-Milliarden-Parameter-Modell bei FP16 mit KV-Cache-Overhead benötigt je nach Batch-Größe und Sequenzlänge ungefähr 140 GB bis 160 GB GPU-Speicher. Der H100 mit 80 GB kann dies ohne Quantisierung auf FP8 oder INT8 nicht abbilden, was die Modellgenauigkeit reduziert. Der H200 NVL mit 141 GB passt ein 70-Milliarden-Parameter-Modell bei FP16 auf einer einzelnen GPU und bewahrt die Vollpräzision. Für Anwendungen, bei denen der Genauigkeitsverlust durch Quantisierung nicht akzeptabel ist (medizinische KI, Analyse juristischer Dokumente, Finanzmodellierung), ist dies der Unterschied zwischen „möglich“ und „produktionsbereit“.
Langkontext-Inferenz-Skalierung. Transformer-Modelle weisen KV-Cache-Speicher proportional zur Kontextfenster-Länge zu. Ein Modell, das 128K Token-Kontextfenster auf dem H100 bedient, könnte 80 GB ausschöpfen, bevor die Sequenz abgeschlossen ist. Die 141 GB des H200 erweitern das maximale Kontextfenster, das eine einzelne GPU handhaben kann, um 76 Prozent, bevor Speicherauslagerung erforderlich wird. Für RAG-Pipelines, Dokumentenverarbeitung und Konversationsagenten mit langen Gesprächshistorien bedeutet dies direkt längere Kontexte ohne Infrastrukturkomplexität.
Mehrmandanten-Dichte durch größere MIG-Partitionen. Jede MIG-Instanz auf dem H200 erhält 16,5 GB gegenüber 10 GB beim H100. Diese pro-Instanz-Erhöhung von 65 Prozent bedeutet, dass jede Partition größere Inferenzmodelle ausführen kann. Während die 10 GB MIG-Schnitte des H100 Modelle von 3B bis 7B handhaben, verarbeiten die 16,5 GB-Schnitte des H200 pro Partition Modelle von 7B bis 13B. Sieben gleichzeitige 7B-Modellinstanzen auf einer einzigen H200-GPU sind eine praktikable Multi-Tenant-Inferenz-Konfiguration.
Die Details des NVL PCIe-Formfaktors. Bis zu 4 GPUs, die über NVLink-Brücken in einem einzigen Server verbunden sind. Luftkühlung bis zu 600W TDP konfigurierbar (im Vergleich zu 700W beim H200 SXM, der eine Flüssigkeitskühlung erfordert). PCIe Gen 5 x16-Schnittstelle. Passiver Kühlkörper, der eine Luftzirkulation im Servergehäuse erfordert. Passt zu denselben Serverplattformen, die A100 PCIe- oder H100 PCIe-Karten betreiben, was es zu einem Drop-in-Upgrade macht. Lenovo, Supermicro, Dell und HPE dokumentieren alle die H200 NVL-Kompatibilität auf bestehenden Serverlinien.
Bandbreite spielt eine Rolle bei der Token-Generierungsgeschwindigkeit. LLM-Inferenz-Token-Generierung im autoregressiven Decoding ist speicherbandbreitenabhängig: Jedes neue Token erfordert das Lesen der gesamten Modellgewichte aus dem HBM. Bei 4.800 GB/s gegenüber 3.350 GB/s des H100 generiert der H200 Tokens etwa 43 Prozent schneller bei bandbreitenabhängigen Workloads. RunPod-Benchmarks bestätigen, dass dies zu realen Inferenz-Durchsatzsteigerungen von 1,5x bis 1,9x bei großen Sprachmodellen führt.
Die Entscheidung H200 NVL gegenüber H200 SXM spiegelt das H100-Portfolio wider. SXM: 700W TDP, Flüssigkeitskühlung, HGX-Baseboard, NVSwitch-Fabric, das 8 GPUs jeweils mit 900 GB/s verbindet, optimiert für verteiltes Training. NVL: bis zu 600W, Luftkühlung, Standard-PCIe-Server, bis zu 4-GPU NVLink, optimiert für Inferenz und flexible Bereitstellung. SXM für Trainings-Cluster. NVL für Inferenz-Server und bestehende Infrastruktur-Upgrades.
Gleiche Exportkontrollen wie beim H100. Unterliegen US-Beschränkungen für fortgeschrittene KI-Hardware.
Der H200 NVL beantwortet eine spezielle Frage, die der H100 offen ließ: Was passiert, wenn 80 GB VRAM nicht ausreichen, aber man nicht auf Blackwell-Preise umsteigen möchte? 141 GB HBM3e mit 4.800 GB/s Bandbreite auf demselben Hopper GH100-Die, das auch den H100 antreibt. Dieselbe 16.896 CUDA-Kerne. Dasselbe 528 fourth-gen Tensor Cores. Dasselbe FP8 Transformer Engine bei 3.958 TFLOPS. Dasselbe MIG, dasselbe vertrauliche Computing, derselbe CUDA-Software-Stack. Die einzige Veränderung ist der Speicher: 76 Prozent mehr Kapazität (141 GB versus 80 GB) auf einem schnelleren HBM3e-Bus, der 43 Prozent mehr Bandbreite liefert (4.800 versus 3.350 GB/s). Dieses Speicher-Upgrade hat drei praktische Effekte. Erstens passen 70B-Parameter-Modelle bei FP16 auf eine einzelne GPU, ohne Quantisierung. Der H100 mit 80 GB benötigt FP8- oder INT8-Quantisierung für 70B-Modelle, was einige Genauigkeit opfert. Der H200 NVL mit 141 GB läuft sie in voller FP16-Genauigkeit. Zweitens skaliert die Langkontext-Inferenz mit großen KV-Caches weiter, bevor Speichergrenzen erreicht werden. Kontextfenster, die auf dem H100 80 GB verbrauchen, haben beim H200 76 Prozent mehr Spielraum. Drittens steigen MIG-Instanzen von 10 GB auf jeweils 16,5 GB, wodurch jede isolierte Partition für größere Inferenzmodelle in Multi-Tenant-Deployments nützlich wird. Die Bezeichnung NVL bedeutet PCIe-Formfaktor mit NVLink-Bridge-Unterstützung für bis zu 4 GPUs pro Server. Luftkühlung kompatibel bei bis zu 600 W TDP. Passt in Standard-Serverplattformen, die derzeit A100- oder H100-PCIe-Karten verwenden. Kein HGX-Basboard erforderlich. Dies ist der Upgrade-Pfad für Betreiber, die die H200-Speicherkapazität möchten, ohne ihre Server-Infrastruktur zu ersetzen.
Unsere Mining-Spezialisten können Ihnen dabei helfen, den perfekten Miner für Ihre Ausstattung und Ihr Budget zu finden.
Die erste GPU mit HBM3e-Speicher. 141 GB bei einer Bandbreite von 4.800 GB/s: 76 Prozent mehr VRAM und 43 Prozent schnellerer Speicher als der H100 SXM. Gleiche Hopper-Compute (16.896 CUDA-Kerne, 3.958 TFLOPS FP8 Transformer Engine). PCIe-Formfaktor mit bis zu 4-GPU-NVLink-Skalierung. Plug-and-Play-Ersatz für PCIe-Steckplätze von H100 und A100. MIG für 7 Instanzen à 16,5 GB. Passive Luftkühlung bei einer konfigurierbaren TDP von bis zu 600 W. Für die LLM-Inferenz entwickelt, bei der Modellgröße und KV-Cache-Anforderungen 80 GB pro GPU überschreiten.
Erste GPU mit HBM3e Speicher. 4.800 GB/s Bandbreite. Führen Sie 70B Modelle mit voller FP16-Genauigkeit auf einer einzigen GPU ohne Quantisierung aus.
Identische 16.896 CUDA-Kerne und 3.958 TFLOPS FP8 Transformer Engine wie die H100. Gleiches Software-Stack. Nur der Speicher hat sich geändert.
Passt in bestehende Serverinfrastruktur. Bis zu 4 GPUs via NVLink-Brücken. Air-Kühlung kompatibel. Kein HGX-Basisboard erforderlich.
Dasselbe Hopper GH100 die und dieselbe Rechenleistung (16.896 CUDA-Kerne, 3.958 TFLOPS FP8). Das H200-upgradet den Speicher von 80GB HBM3 bei 3.350 GB/s auf 141GB HBM3e bei 4.800 GB/s. Das sind 76 Prozent mehr VRAM und 43 Prozent mehr Bandbreite. Alles andere (Tensor Cores, Transformer Engine, MIG, CUDA-Stack) ist identisch.
Drei praktische Effekte. 70B-Modelle passen bei vollem FP16 ohne Quantisierung (H100 benötigt FP8/INT8 für 70B). Die Long-Context-Inferenz skaliert um 76 Prozent weiter, bevor Speichergrenzen erreicht werden. MIG-Instanzen steigen von 10 GB auf 16,5 GB pro Stück und unterstützen größere Modelle pro Partition bei Multi-Tenant-Bereitstellungen.
Die nächste Generation des High Bandwidth Memory nach HBM3. Höhere pro-Stack-Bandbreite und Kapazität. Der H200 ist die erste GPU, die HBM3e verwendet und eine Bandbreite von 4.800 GB/s im Vergleich zu 3.350 GB/s bei HBM3 (H100) erreicht. Die Bandbreitenverbesserung beschleunigt direkt die LLM-Token-Generierung, die im autoregressiven Decoding linear mit der Speicherseitbandbreite skaliert.
Ja. PCIe Gen 5 x16 Formfaktor mit passiver Kühlung. Passt zu denselben Serverplattformen, die H100 PCIe- oder A100 PCIe-Karten verwenden. Lenovo, Supermicro, Dell und HPE dokumentieren die Kompatibilität mit bestehenden Serverlinien. Dies ist der Drop-in-Upgrade-Pfad von H100 auf H200 Speicherkapazität, ohne Serverwechsel.
Bis zu 4 GPUs, die über NVLink-Brücken in einem einzigen Server verbunden sind. Im Vergleich zum H200 SXM, der über NVSwitch auf HGX-Baseboards bis zu 8 GPUs pro Knoten skaliert, bietet der NVL-Pfad eine einfachere Infrastruktur bei weniger GPUs pro Knoten.
NVL: PCIe-Formfaktor, bis zu 600 W TDP, mit Luftkühlung kompatibel, bis zu 4 GPUs über NVLink-Brücken, passt in Standard-Servern. SXM: Mezzanine-Formfaktor, bis zu 700 W TDP, erfordert Flüssigkeitskühlung und HGX baseboard, bis zu 8 GPUs über NVSwitch bei 900 GB/s je GPU, ca. 18 Prozent höherer Durchsatz. NVL für Inferenz und Infrastrukturflexibilität. SXM für maximale Trainingsleistung.
H200 NVL: 141 GB HBM3e bei 4.800 GB/s, Transformer Engine FP8, MIG 7 Instanzen bei 16,5 GB, Hopper-Architektur. RTX PRO 6000: 96 GB GDDR7 bei 1.792 GB/s, kein Transformer Engine, Blackwell-Architektur, 125 TFLOPS FP32. Die H200 NVL gewinnt bei der Speicherkapazität (47 Prozent mehr), bei der HBM-Bandbreite (2,7x) und bei der Transformer Engine-Inferenzoptimierung. Die RTX PRO 6000 gewinnt bei FP32-Rechenleistung und Anschaffungskosten.
Bis zu 7 hardware-isolierte Instanzen zu je 16,5 GB (im Vergleich zu 10 GB beim H100). Der größere pro-Instanz-Speicher unterstützt Modelle von 7B bis 13B pro MIG-Partition. Sieben gleichzeitige 7B-Inferenzinstanzen auf einer einzigen GPU bilden eine praktikable Mehrmandanten-Konfiguration.
RunPod Benchmarks zeigen eine Verbesserung der Inferenz-Throughput-Raten um das 1,5- bis 1,9-fache bei großen Sprachmodellen, hauptsächlich bedingt durch die 43-prozentige Erhöhung der Bandbreite (4.800 versus 3.350 GB/s). Die Token-Generierung im autoregressiven Decoding skaliert nahezu linear mit der Speicherkapazität.
Gleiche US-Exportkontrollen wie bei der H100. Nicht verfügbar in China, Hongkong und Macau. NVIDIA hat bandbreitenbegrenzte Varianten für eingeschränkte Märkte erstellt. Bestätigen Sie die Exportberechtigung bei MillionMiner für Ihr Lieferziel.