NVIDIA Vera Rubin

2026-05-04

NVIDIA Vera Rubin

Sieben Chips. Eine AI‑Fabrik. Eine neue Generation.

Mit der Vera Rubin Plattform tritt NVIDIA in das Zeitalter der agentischen KI ein. Sieben neu entwickelte Chips, flüssigkeitsgekühlt im Rack, integriert auf der dritten MGX‑Generation: 3,6 EFLOPS NVFP4‑Inferenz pro Rack, 75 TB Fast Memory, 260 TB/s NVLink‑6. Verfügbar im zweiten Halbjahr 2026, bei DELTA bereits heute planbar, kalkulierbar und integrierbar.

Zur Vera Rubin Plattform

3,6 EFLOPS

NVFP4-Inferenz
pro NVL72-Rack

75 TB

Fast Memory
(HBM4 + LPDDR5X)

260 TB/s

NVLink-6 Scale-up-
Bandbreite pro Rack

7 Chips

Vera, Rubin, NVLink-6,
CX-9, BF-4, Spectrum-6, Groq 3

Aktuell · NVIDIA GTC Taipei 2026

Vera Rubin geht in die volle Produktion.

Was diese Analyse beschreibt, hat NVIDIA auf der GTC Taipei bestätigt: Die Vera-Rubin-Plattform läuft in die volle Produktion, und die Vera CPU ist offiziell vorgestellt. Damit stehen belastbare Leistungszahlen und ein konkreter Liefertermin fest.

Plattform

Volle Produktion, Auslieferung ab Herbst 2026

Vera Rubin geht weltweit in die volle Produktion. Erste Auslieferungen folgen im Herbst 2026 über Dell, HPE, Lenovo, Supermicro und weitere OEMs. Im Rack-Maßstab erreicht die Plattform den zehnfachen Agent-Throughput gegenüber Grace Blackwell. Über 150 Fertigungspartner allein in Taiwan und mehr als 350 Werke in 30 Ländern bauen auf dem offenen MGX-Design der dritten Generation.

Host-CPU

Vera, die CPU für Agenten

Vera ist NVIDIAs erste CPU, die gezielt für agentische KI ausgelegt ist: 88 Olympus-Kerne mit Spatial Multithreading auf 176 Threads und bis zu 50 % höherer IPC als Grace. Die zweite Generation NVLink-C2C verbindet CPU und GPU mit 1,8 TB/s kohärenter Bandbreite, das LPDDR5X-SOCAMM-Subsystem liefert bis zu 1,2 TB/s. Anthropic, OpenAI, ByteDance, CoreWeave und Oracle Cloud planen den Einsatz.

88Olympus-Kerne / 176 Threads

+50 %IPC gegenüber Grace

1,8 TB/sNVLink-C2C, CPU ↔ GPU

1,2 TB/sLPDDR5X-Speicherbandbreite

10×Agent-Throughput vs. Grace Blackwell

250–450 Wkonfigurierbare TDP

Alle Specs auf der Vera-Rubin-Plattformseite · Quellen · NVIDIA Newsroom: Vera, the CPU for Agents, Vera Rubin Full Production

Software dazu

Autonome KI-Agenten auf Vera Rubin.

NVIDIA Agent Toolkit, OpenShell und Nemotron, on-premise auf Ihrer NVIDIA-Hardware betrieben. DELTA berät zu Software-Stack und Sizing.

KI-Agenten on-premise →NVIDIA Agent Toolkit →

Hintergrund: Was Vera Rubin strukturell anders macht

Die Vera Rubin Plattform ist keine inkrementelle Weiterentwicklung der Blackwell‑Generation, sondern ein neues, vollständig codesigntes System aus sieben Chips. Aufgabe: agentische KI‑Workloads, Reasoning‑Modelle und billionenparametrige MoE‑Architekturen mit drastisch besserer Energie‑ und Speicherökonomie zu bedienen.

Compute

Vera CPU + Rubin GPU

72× Rubin GPU mit je 288 GB HBM4 und 22 TB/s Bandbreite, gepaart mit 36× Vera CPU auf Armv9.2-Basis (3.168 NVIDIA Olympus-Cores pro Rack, Spatial Multi-Threading). Jede GPU liefert 50 PFLOPS NVFP4‑Inferenz.

Pro Rack ergeben sich 20,7 TB HBM4 mit 1,58 PB/s Aggregat‑Bandbreite, dazu 54 TB LPDDR5X CPU‑Speicher.

Fabric

NVLink 6 + ConnectX-9 + BlueField-4

NVLink 6 verdoppelt die Scale-up‑Bandbreite gegenüber Blackwell auf 3,6 TB/s pro GPU; pro Rack ergeben sich 260 TB/s. Das übertrifft die Bandbreite des globalen Internets.

ConnectX-9 SuperNICs liefern 1,6 Tbit/s pro GPU für Scale‑out, BlueField-4 DPUs übernehmen Storage und In‑Band‑Management, orchestriert über DOCA.

Sicherheit & Betrieb

Confidential Computing 3. Gen. + 100 % DLC

Confidential Computing der 3. Generation spannt erstmals einen rack‑skaligen Trusted Execution Environment über alle 36 Vera CPUs, 72 Rubin GPUs und die NVLink‑Fabric.

Vollständig flüssigkeitsgekühlt mit 45 °C Warmwasser‑Inlet, kabel‑, schlauch‑ und lüfterloses Design. Die Montagezeit pro Tray sinkt laut NVIDIA von rund 100 auf etwa 5 Minuten.

Drei Wege zu Vera Rubin

Vom 8‑GPU‑Server für den Pilotbetrieb über das vollständige NVL72‑Rack bis zum SuperPOD im Forschungs‑ und Industriemaßstab. Die Plattform skaliert mit Ihrer Anwendung. DELTA integriert auf jeder Stufe und begleitet den Übergang zwischen ihnen.

Pilot · Server

NVIDIA DGX Rubin NVL8

8-GPU-Server | x86

8 Rubin GPUs mit 28,8 TB/s NVLink-6, 2× Intel Xeon 6, 400 PFLOPS NVFP4. Für Standorte mit x86-Continuity, kleinere Pilotumgebungen oder Standalone-Workloads.

Jetzt bei DELTA bestellbar

Konfiguration & Preis

Coming SoonVerfügbar Q3 2026

Produktion · Rack

NVIDIA Vera Rubin NVL72

72-GPU-Rack | NVL72

72 Rubin GPUs, 36 Vera CPUs, 18 Compute Trays, 9 NVLink-Switch-Trays. 3,6 EFLOPS NVFP4, 75 TB Fast Memory, 100 % flüssigkeitsgekühlt. Verfügbar als Referenzplattform über >80 MGX-Partner oder als DGX-Turnkey-Variante.

Architektur & Specs

Skalierung · Supercluster

DGX SuperPOD mit Vera Rubin

ab 576 GPUs | ≥ 8 Racks

Ab 8 NVL72-Racks zum Supercluster: 576 Rubin GPUs, 28,8 EFLOPS NVFP4, durchgängige InfiniBand- oder Spectrum-X-Fabric. Skalierbar bis zum Vera Rubin POD mit 40 Racks und 60 EFLOPS.

Cluster & SuperPOD

Rückblick · 21. Mai 2026 · Glinde

Vera Rubin Premiere bei DELTA

Vier Vorträge mit NVIDIA-Experten zu Roadmap, Enterprise-Software, AI-Factory-Planung und Betrieb mit Run:ai. Dazu Live-Hardware im Test-Centre und die Eröffnung unseres neuen Hauses in Glinde. Der vollständige Recap steht jetzt online: mit den zentralen Erkenntnissen, Bildern vom Tag und Ihrem nächsten Schritt.

Zum vollständigen Recap

Sie planen heute, was 2026 läuft.

Validiert von NVIDIA. Integriert von DELTA. Ob Pilotsystem auf DGX Rubin NVL8 oder Vollausbau im NVL72‑Verbund: Wir unterstützen Sie unverbindlich bei Architektur, Beschaffung und Inbetriebnahme.

Kontakt: Tel. +49 40 300672‑0 | Fax +49 40 300672‑11 | E-Mail info[at]delta.de

Beratung vereinbaren

Anfrage senden