Δεν βρέθηκαν προϊόντα για ""
NVIDIA
Μοντέλο: H100 SXM
NVIDIA H100 SXM5 80GB Tensor Core GPU. Αρχιτεκτονική Hopper (GH100, TSMC 4nm, 80 δισεκατομμύρια τρανζίστορ). 16,896 CUDA cores, 528 τέταρτης γενιάς Tensor Cores με FP8 Transformer Engine, 132 RT Cores. 80GB HBM3 σε 5,120-bit bus με εύρος ζώνης 3,350 GB/s. 67 TFLOPS FP32, 989 TFLOPS TF32 (με sparsity), 3,958 TFLOPS FP8 (με sparsity). Διαθέσιμο TDP μέχρι 700W, προσαρμόσιμο. Μορφή mezzanine SXM5 για HGX μητρικές πλακέτες. NVLink 4.0 στα 900 GB/s ανά GPU με NVSwitch που συνδέει έως 8 GPUs σε έναν ενιαίο κόμβο. MIG για έως και 7 απομονωμένες περιπτώσεις στα 10GB η κάθε μία. Το πρότυπο για την εκπαίδευση μεγάλης κλίμακας AI μοντέλων σε hyperscale και εταιρικά data centers σε όλο τον κόσμο.
Ζητήστε την Προσφορά για το GPU Cluster σας
Ενημερώστε μας σχετικά με τις απαιτήσεις υλοποίησής σας. Ο ειδικός υλικού AI μας απαντά εντός 24 ωρών μέσω email, WhatsApp ή τηλεφώνου.
Γιατί οι GPUs πωλούνται με συμβουλευτική
Οι συστοιχίες GPU για φόρτο εργασίας AI και HPC διαμορφώνονται ακριβώς σύμφωνα με τις απαιτήσεις σας — ποσότητα, τοπολογία διασύνδεσης, κατανάλωση ισχύος και ψύξη επηρεάζουν το τελικό κόστος. Υποβάλετε τη φόρμα παρακάτω και ο ειδικός μας θα απαντήσει εντός 24 ωρών με μια ολοκληρωμένη προσφορά προσαρμοσμένη στην υλοποίησή σας.
Ευχαριστούμε! Ο ειδικός μας θα απαντήσει εντός 24 ωρών με την προσαρμοσμένη προσφορά σας.
Πώς λειτουργεί η παραγγελία του GPU σας
Υποβάλετε τη φόρμα
Πείτε μας τη χρήση και την ποσότητα σας
Λάβετε την προσφορά σας
Ολοκληρωμένη τιμολόγηση εντός 24 ωρών
Ανασκόπηση με ειδικό
Συζητήστε για τη διαμόρφωση, τη διασύνδεση και την ψύξη
Ανάπτυξη
Υλικό αποστολείται & έτοιμο για λειτουργία
Αυθεντικό
Δοκιμασμένο υλικό
Παγκοσμίως
Παγκόσμια αποστολή
Υποστήριξη
Ειδικοί στην εξόρυξη
Τιμές, χρόνος παράδοσης και επιλογές hosting. Προσωπικές συμβουλές από την ομάδα πωλήσεών μας.
Τιμές, χρόνος παράδοσης και επιλογές hosting. Προσωπικές συμβουλές από την ομάδα πωλήσεών μας.
Το H100 SXM υπάρχει επειδή η κατανεμημένη εκπαίδευση AI έχει ένα πρόβλημα εύρους ζώνης που το PCIe δεν μπορεί να λύσει. Η εκπαίδευση ενός μοντέλου 70B παραμέτρων σε πολλαπλά GPUs απαιτεί κάθε GPU να ανταλλάσσει ενημερώσεις γραμμικών βαθμίδων με κάθε άλλο GPU μετά από κάθε μπροστινό και πισωγύρισμα. Στο PCIe Gen 5 με 128 GB/s, αυτές οι ανταλλαγές γραμμικών βαθμίδων γίνονται ο αποφασιστικός παράγοντας πολύ πριν οι GPUs εξαντληθούν από την υπολογιστική χωρητικότητα. Το NVLink 4.0 στα 900 GB/s ανά GPU (7x PCIe) και το NVSwitch που συνδέει όλους τους 8 GPUs σε έναν κόμβο με πλήρες εύρος ζώνης εξαλείφουν αυτό το bottleneck. Γι' αυτό κάθε σοβαρή ανάπτυξη εκπαίδευσης AI τρέχει SXM, όχι PCIe. Πλήρεις προδιαγραφές του GH100 die. 80 δισεκατομμύρια τρανζίστορ στην TSMC 4nm. 16.896 CUDA cores σε 132 SMs (ενεργοποίηση πλήρους die στο SXM σε αντίθεση με 114 SMs στο PCIe). 528 Tensor Cores τέταρτης γενιάς που υποστηρίζουν FP64, TF32, FP16, BF16, FP8, και INT8 με το Transformer Engine. 132 RT Cores τρίτης γενιάς. 80GB HBM3 σε 5.120-bit οδό και εύρος ζώνης 3.350 GB/s. 50MB L2 cache. Το μορφότυπο SXM5 παρέχει περίπου 30 τοις εκατό περισσότερα TFLOPS από την έκδοση PCIe (67 έναντι 51 TFLOPS FP32) λόγω υψηλότερων ταχυτήτων ρολογιού που επιτρέπονται από τον προϋπολογισμό ισχύος 700W και την θερμική υποδομή HGX. Απόδοση υπολογισμών σε κάθε επίπεδο ακρίβειας. FP64: 34 TFLOPS (67 TFLOPS Tensor). FP32: 67 TFLOPS. Tensor TF32: 989 TFLOPS με σπαράγματα. Tensor FP16/BF16: 1.979 TFLOPS με σπαράγματα. Tensor FP8: 3.958 TFLOPS με σπαράγματα. Tensor INT8: 3.958 TOPS με σπαράγματα. Ο αριθμός FP8 είναι αυτός που μετράει περισσότερο για την εκπαίδευση transformer: 3.958 TFLOPS με αυτόματο διαχείριση ακρίβειας μέσω του Transformer Engine που σημαίνει ότι το H100 SXM παρέχει περίπου 4 φορές μεγαλύτερη απόδοση εκπαίδευσης από ένα A100 SXM σε μοντέλα GPT-κλάσης. Αρχιτεκτονική NVLink και NVSwitch. Κάθε H100 SXM συνδέεται με το fabric NVSwitch μέσω 18 συνδέσεων NVLink 4.0 που παρέχουν 900 GB/s διπλής κατεύθυνσης εύρος ζώνης. Το NVSwitch παρέχει διασυνδεσιμότητα all-to-all: οποιοδήποτε GPU μπορεί να επικοινωνεί με οποιοδήποτε άλλο GPU στον ίδιο κόμβο με πλήρες εύρος ζώνης 900 GB/s χωρίς δρομολόγηση μέσω CPU ή PCIe bus. Ένας κόμβος HGX H100 με 8 GPUs παρέχει 7,2 TB/s συνολική εύρος ζώνης NVLink σε όλους τους GPUs. Για την κλιμάκωση σε πολλαπλούς κόμβους, το NVIDIA Quantum-2 NDR InfiniBand στα 400 Gb/s ανά θύρα επεκτείνει το fabric πέρα από μεμονωμένους κόμβους. DGX H100 εναντίον HGX H100. Το DGX H100 είναι το turnkey σύστημα της NVIDIA με 8 GPUs (κλάση $250,000 έως $400,000) που περιλαμβάνει CPUs, μνήμη, αποθήκευση, δικτύωση και στοίβα λογισμικού. Το HGX H100 είναι το GPU baseboard module που ενσωματώνουν οι κατασκευαστές εξοπλισμού (Supermicro, Dell, HPE, Lenovo) στις δικές τους πλατφόρμες server. Και τα δύο χρησιμοποιούν την ίδια διαμόρφωση 8x H100 SXM GPU με NVSwitch. Η διαδρομή HGX προσφέρει περισσότερη ευελιξία στο CPU, στην αποθήκευση και στην δικτύωση. Το πλαίσιο απόφασης SXM έναντι NVL και PCIe. SXM (αυτό το προϊόν): μέγιστη απόδοση ανά GPU, κλιμάκωση 8-GPU NVSwitch, TDP 700W, απαιτεί βάση HGX, βελτιστοποιημένο για κατανεμημένη εκπαίδευση. NVL (H100 NVL 94GB, ξεχωριστή καταχώρηση MillionMiner): κάρτες PCIe ζευγάρια, ενιαία μνήμη 94GB, ταιριάζει σε τυπικούς διακομιστές, βελτιστοποιημένο για inference μεγάλων μοντέλων. PCIe (στάνταρ H100 80GB PCIe): μονή κάρτα στα 350W, τυπικές θύρες διακομιστή, χαμηλότερο κόστος, περιορισμένη σε 2-GPU NVLink, κατάλληλο για single-GPU inference και fine-tuning. Επιλέξτε SXM όταν η απόδοση εκπαίδευσης και η αποδοτικότητα κλιμάκωσης πολλαπλών GPUs είναι η προτεραιότητα. Επιλέξτε NVL ή PCIe όταν η inference ή η απλότητα υποδομής έχουν μεγαλύτερη σημασία. Το MIG στο H100 SXM δημιουργεί έως και 7 απομονωμένες περιπτώσεις των 10GB η καθεμία. Τα πιο συνηθισμένα σχήματα παραγωγής ανά Spheron: 7x 1g.10gb για inference πολυενοικίασης μικρών μοντέλων, ή 2x 3g.40gb για δύο ταυτόχρονους διακομιστές μοντέλων 13B. Κάθε περίπτωση MIG εμφανίζεται ως ξεχωριστή συσκευή GPU στο λειτουργικό σύστημα με hardware-επιβεβαιωμένη απομόνωση. Το προστατευμένο computing μέσω του Trusted Execution Environment (TEE) προστατεύει τα δεδομένα και τα βάρη των μοντέλων κατά τη διάρκεια της επεξεργασίας. Πρόκειται για λειτουργία ασφάλειας σε επίπεδο hardware για συμβατικότητα σε ευαισθητικά δεδομένα AI σε υγειονομική περίθαλψη (HIPAA), χρηματοοικονομικά (SOC 2) και κυβέρνηση (FedRAMP), όπου τα δεδομένα δεν μπορούν να εκτεθούν στον διαχειριστή υποδομής. Προσαρμόσιμο έως 700W TDP. Απαιτεί υγρή ψύξη ή μηχανική θήκη διακομιστή με υψηλόαερισμό. Το τυπικό αερόψυξη είναι ανεπαρκές για διαρκή λειτουργία στα 700W. Το NVIDIA DGX H100 χρησιμοποιεί άμεση υγρή ψύξη. Οι διαμορφώσεις HGX από Supermicro και Lenovo προσφέρουν τόσο επιλογές αέρα όσο και υγρής ψύξης ανάλογα με τον θερμικό προϋπολογισμό.
Το H100 SXM είναι η GPU έναντι της οποίας μετρώνται όλες οι άλλες επιταχυντές AI. Όταν η NVIDIA, η Google, η Meta, η Microsoft και η OpenAI δημοσιεύουν benchmarks εκπαίδευσης, τρέχουν σε συστοιχίες H100 SXM. Όταν οι πάροχοι cloud αναφέρουν την υπολογιστική ικανότητα AI, τη μετρούν σε ισοδύναμα H100 SXM. Αυτό αποτελεί την αναφορά hardware για τη σύγχρονη γενιά AI. Αυτό που διαχωρίζει το SXM από την έκδοση PCIe είναι η διασύνδεση και η ισχύς. Το NVLink 4.0 παρέχει 900 GB/s δικατευθυντική χωρητικότητα ανά GPU, συνδέοντας έως και 8 H100 SXM GPUs μέσω NVSwitch σε ένα ενιαίο κόμβο DGX ή HGX. Τα 900 GB/s είναι 7 φορές πιο γρήγορα από το PCIe Gen 5 (128 GB/s) και επιτρέπουν σχεδόν γραμμική κλιμάκωση σε κατανεμημένα workloads εκπαίδευσης όπου ο συγχρονισμός των gradient μεταξύ GPU αποτελεί το bottleneck. Το PCIe H100 φτάνει μόνο σε ζεύγη NVLink 2-GPU. Το SXM κλιμακώνεται σε κόμβους με 8 GPU και παραπάνω μέσω clusters InfiniBand πολλαπλών κόμβων. Ο πλήρης die GH100 λειτουργεί με TDP έως 700W (ρυθμιζόμενο), παρέχοντας 16,896 CUDA cores και 528 τέταρτης γενιάς Tensor Cores με το FP8 Transformer Engine. Τα 80GB HBM3 με bandwidth 3,350 GB/s τροφοδοτούν αυτά τα cores χωρίς έλλειψη μνήμης σε μεγάλο batch training. Το Transformer Engine διαχειρίζεται αυτόματα την μικτή ακρίβεια FP8/FP16 ανά στρώση νευρωνικού δικτύου, παρέχοντας 4 φορές μεγαλύτερο throughput εκπαίδευσης σε σχέση με το A100 σε αρχιτεκτονικές transformer χωρίς αλλαγές κώδικα. Το MIG δημιουργεί έως και 7 απομονωμένες instances των 10GB η καθεμία για inference πολλαπλών ενοικιαστών. Ο εμπιστευτικός υπολογισμός (TEE) προστατεύει δεδομένα και μοντέλα κατά τη διάρκεια της επεξεργασίας για εφαρμογές που απαιτούν συμμόρφωση σε υγειονομική περίθαλψη, χρηματοοικονομικά και κυβέρνηση. Το form factor SXM5 απαιτεί μια HGX πλακέτα (NVIDIA HGX H100 ή DGX H100 πλατφόρμα). Δεν συνδέεται σε τυπικές υποδοχές PCIe. Αυτή είναι υποδομή ειδικά κατασκευασμένη για οργανώσεις που δεσμεύονται σε εκπαίδευση πολλαπλών GPU σε μεγάλη κλίμακα.
Οι ειδικοί μας στον mining μπορούν να σας βοηθήσουν να βρείτε τον ιδανικό miner για την εγκατάστασή σας και τον προϋπολογισμό σας.
Η GPU που όρισε την εποχή εκπαίδευσης AI. Ολοκληρωμένο die GH100 Hopper με 16.896 CUDA cores, 528 Tensor Cores τέταρτης γενιάς, FP8 Transformer Engine και 80GB HBM3 με bandwidth 3.350 GB/s. Form factor mezzanine SXM5 για τις μητρικές πλακέτες HGX. NVLink 4.0 με 900 GB/s ανά GPU με το fabric NVSwitch που συνδέει έως και 8 GPUs ανά κόμβο. 67 TFLOPS FP32, 3.958 TFLOPS FP8 με sparsity. Έως 700W TDP. MIG για 7 απομονωμένες περιπτώσεις. Σχεδιασμένο για κατανεμημένη εκπαίδευση AI όπου το bandwidth μεταξύ GPU καθορίζει την αποδοτικότητα της κλιμάκωσης.
8 GPUs με πλήρη bandwidth σε έναν κόμβο. 7,2 ΤΒ/σ συνολική. Κάθετη γραμμική κλιμάκωση στην κατανεμημένη εκπαίδευση. Η διασύνδεση PCIe δεν μπορεί να ανταγωνιστεί.
Τεταρτής γενιάς Tensor Cores με αυτόματο FP8/FP16 ακρίβεια ανά στρώση. 4x throughput εκπαίδευσης σε σχέση με το A100 σε αρχιτεκτονικές transformer.
Μνήμηταχύτητα και bandwidth 68 τοις εκατό ταχύτερα από το A100. Τροφοδοτεί 16.896 CUDA cores χωρίς πείνα σε εργασίες εκπαίδευσης μεγάλης παρτίδας.
NVIDIA
$14,690.00
NVIDIA
Επικοινωνήστε για τιμή
NVIDIA
$57,630.00
NVIDIA
$4,633.00
SXM: πλήρης GH100 die με 16.896 CUDA cores, TDP 700W, εύρος ζώνης HBM3 3.350 GB/s, NVLink 4.0 στα 900 GB/s με NVSwitch που συνδέει έως 8 GPUs. Απαιτεί βάση HGX. PCIe: μερικώς απενεργοποιημένο die με 14.592 CUDA cores, TDP 350W, εύρος ζώνης 2.000 GB/s, NVLink περιορισμένο σε ζεύγη 2-GPU μέσω γέφυρας. Ταιριάζει σε τυποποιημένους servers. Το SXM είναι για κατανεμημένη εκπαίδευση σε μεγάλη κλίμακα. Το PCIe είναι για inference και workloads μεμονωμένου-GPU στην υπάρχουσα υποδομή.
Ένα NVIDIA HGX H100 baseboard ή σύστημα DGX H100. Το module SXM5 δεν εισάγεται σε τυπικές θύρες PCIe. Συνδέεται μέσω της διεπαφής SXM5 mezzanine στην πλακέτα βάση HGX. 700W TDP ανά GPU (5,600W για 8 GPUs) απαιτεί υγρή ψύξη ή θήκη υψηλής ροής αέρα επιπέδου εταιρείας. Οι πλατφόρμες HGX διατίθενται από τις Supermicro, Dell, HPE και Lenovo.
Το NVSwitch παρέχει διασύνδεση GPU με όλα τα άλλα GPU within ένα κόμβο. Κάθε H100 SXM συνδέεται μέσω 18 συνδέσεων NVLink 4.0 στα 900 GB/s διπλής κατεύθυνσης. Οποιοδήποτε GPU επικοινωνεί με οποιοδήποτε άλλο GPU με πλήρη εύρος ζώνης χωρίς δρομολόγηση μέσω CPU ή PCIe. Ένας κόμβος με 8 GPU προσφέρει συνολική εύρος ζώνης NVLink 7,2 TB/s. Αυτό είναι που επιτρέπει σχεδόν γραμμική κλιμάκωση στην κατανεμημένη εκπαίδευση όπου ο συγχρονισμός gradient μεταξύ GPUs αποτελεί το εμπόδιο.
Εκπαίδευση μεγάλης κλίμακας μοντέλων transformer: GPT-class LLMs (70B έως 175B+ παραμέτρους), vision transformers, multimodal μοντέλα και diffusion models. Ένα κόμβος HGX με 8-GPU και συνολικά 640GB HBM3 διαχειρίζεται την εκπαίδευση μοντέλων 70B με δεδομένα παράλληλη και 175B+ με παράλληλη μοντέλο. Για inference, ένα ενιαίο H100 SXM εξυπηρετεί μοντέλα 70B σε FP8 quantization ή 30B σε FP16.
H100 SXM: 67 TFLOPS FP32, 3.958 TFLOPS FP8, 80GB HBM3 στα 3.350 GB/s, NVLink 4.0 στα 900 GB/s, 700W. A100 SXM: 19.5 TFLOPS FP32, χωρίς υποστήριξη FP8, 80GB HBM2e στα 2.039 GB/s, NVLink 3.0 στα 600 GB/s, 400W. Το H100 προσφέρει περίπου 3x έως 4x ταχύτερη εκπαίδευση σε μοντέλα transformer από το συνδυασμένο αποτέλεσμα μεγαλύτερου εύρους ζώνης, FP8 ακρίβειας και ταχύτερου NVLink.
Διαχειρισμός αυτόματης μικτής ακρίβειας σε επίπεδο υλικού. Το Transformer Engine επιλέγει δυναμικά την ακρίβεια FP8 ή FP16 ανά στρώση νευρωνικού δικτύου κατά τη διάρκεια εκπαίδευσης και inference, μεγιστοποιώντας το throughput διατηρώντας την ακρίβεια του μοντέλου. Αυτή είναι μια λειτουργία υλικού μοναδική για το Hopper (H100) και νεότερες αρχιτεκτονικές, που δεν απαιτεί αλλαγές στον κώδικα από τον προγραμματιστή.
Το Multi-Instance GPU δημιουργεί έως 7 hardware- isolated instances των 10GB η καθεμία. Κάθε instance λαμβάνει dedicated CUDA cores, Tensor Cores, L2 cache, και HBM με εγγυημένο QoS. Συνηθισμένα πρότυπα παραγωγής: 7x 1g.10gb για inference πολλαπλών ενοικιαστών μικρών μοντέλων, ή 2x 3g.40gb για δύο ταυτόχρονους servers μοντέλων 13B. Κάθε instance εμφανίζεται ως ξεχωριστή συσκευή GPU στο λειτουργικό σύστημα.
Περιβάλλον Trusted Execution Environment (TEE) βασισμένο σε υλισμικό που προστατεύει δεδομένα και βάρη μοντέλων κατά τη διάρκεια επεξεργασίας από GPU. Ο διαχειριστής της υποδομής δεν μπορεί να αποκτήσει πρόσβαση στα δεδομένα που υπολογίζονται. Απαιτείται για εγκαταστάσεις AI ευαίσθητες σε κανονιστικές απαιτήσεις στον τομέα της υγείας (HIPAA), χρηματοοικονομικών (SOC 2) και κυβέρνησης (FedRAMP) όπου η ιδιωτικότητα δεδομένων κατά την επεξεργασία είναι επιβεβλημένη.
Ίδια αρχιτεκτονική Hopper. Οι αναβαθμίσεις H200 SXM αυξάνουν τη μνήμη σε 141GB HBM3e στα 4.800 GB/s (σε σύγκριση με 80GB HBM3 στα 3.350 GB/s στο H100). Ο ίδιος αριθμός πυρήνων CUDA και υπολογιστικές TFLOPS. Το H200 είναι μια αναβάθμιση μνήμης και εύρους ζώνης για εργασίες που περιορίζονται από τη χωρητικότητα ή το εύρος ζώνης HBM στο H100, ιδιαίτερα για μεγαλύτερηInference μοντέλων και εκπαίδευση με μεγαλύτερα batch sizes.
Οι κάρτες γραφικών NVIDIA H100 υπόκεινται στους ελέγχους εξαγωγής των ΗΠΑ για προηγμένο υλικό AI. Δεν είναι διαθέσιμες στην Κίνα, το Χονγκ Κονγκ και το Μακάο. Η NVIDIA δημιούργησε την H800 (παραλλαγή με περιορισμένη εύρος ζώνης) για αυτές τις αγορές. Επιβεβαιώστε την επιλεξιμότητα εξαγωγής με την MillionMiner για τον προορισμό παράδοσής σας πριν την παραγγελία.