Vera: jak Nvidia mění datacentra pro AI servery rychle

3 Minutes

Datová centra se zřídka mění přes noc. Když se ale změní, uslyšíte to bzučení. Racky se zhušťují. Latence klesá. Náklady se přeskupují. Nvidia sází, že tomu bzučení brzy bude říkat nové jméno: Vera.

Nvidia tvrdí, že Vera přináší přibližně 1,8násobný výkon oproti vedoucím procesorům x86. Toto tvrzení je hlavní. Hardware za tím je začátek diskuse. Vera je CPU polovina platformy Vera Rubin, spojující ARM založený CPU s GPU Rubin pro pracovní zátěže, které potřebují obrovskou propustnost paměti a těsnou koordinaci CPU a GPU.

Proč Vera mění přístup k AI serverům

Vera je postavena kolem 88 jader Olympus s prostorovým vícevlákněním (Spatial Multithreading), nabízejícími 176 vláken na socket. Paměť není okrajová záležitost: jeden CPU může být spárován až s 1,5 terabajtu LPDDR5X, poskytující přibližně 1,2 terabajtu za sekundu propustnosti. Pro AI inference a agentní modely, které rychle spotřebovávají kontext a váhy, je tato propustnost otázkou přežití.

Myslete v měřítku. Nvidia předvedla Vera CPU rack, který vměstná 256 CPU do jednoho šasi. To odpovídá 22 528 jádrům a 45 056 vláknům. Jde o typ hustoty, po které poskytovatelé cloudových služeb prahnou, když se snaží přesunout velké modely z drahých ostrůvků založených pouze na GPU do flexibilnějších architektur orientovaných na CPU.

Vera také dobře spolupracuje s GPU Rubin. Konfigurace NVL72 spojuje 36 Vera CPU s 72 Rubin GPU a Nvidia vyzdvihuje NVLink-C2C propojení s propustností 1,8 terabajtu za sekundu mezi nimi. Cílem není nahradit GPU, ale přepracovat vztah hostitele a akcelerátoru tak, aby data plynula rychleji a software čelil méně úzkým hrdel.

Případy použití jsou známé, ale rostou: agentní AI, učení posílením, náročná analytika a inference ve velkém měřítku. Vera může fungovat jako samostatný výpočetní uzel pro tyto úlohy nebo jako hostitel, který udržuje Rubin GPU zásobené a synchronizované.

Adopce je už v běhu. Anthropic, OpenAI a SpaceXAI se zavázaly k platformě pro své modelové pracovní zátěže a hyperscalery jako ByteDance, CoreWeave a Oracle Cloud Infrastructure jsou na palubě. Na straně systémů nabídnou servery založené na platformě Vera společnosti Dell, HP, Lenovo a Supermicro. Hlavní výrobci včetně Asus, Compal, Foxconn, Gigabyte, Pegatron, Quanta Cloud Technology, Wistron a Wiwynn budou vyrábět hardware postavený kolem čipu.

Dokonce i netradiční zákazníci si toho všímají. Newyorská burza cenných papírů, která denně zpracovává přibližně 1,1 bilionu zpráv, zkoumá Veru společně s partnery Redpanda a HP, aby přehodnotila infrastrukturu citlivou na latenci. Takový zájem ukazuje, že platforma se posuzuje nejen pro trénink modelů, ale i pro systémy v reálném čase s vysokou propustností, kde každá mikrosekunda znamená rozdíl.

Pro Nvidia Vera rozšiřuje osvědčený postup: vzít poznatky z nasazení AI orientovaných na GPU a aplikovat je na návrh CPU. Společnost dříve začlenila práci na AI do produktů jako RTX Spark, které dostaly do popředí Grace CPU a Blackwell GPU s pamětí LPDDR5X. Diskuse se nyní přesunula od výkonu jednoho uzlu s GPU k vyváženosti celého systému a propustnosti.

Převálcuje Vera x86 v datových centrech? Ne přes noc. Architektura však cílí na konkrétní bolestivé body AI pracovních zátěží: propustnost paměti, hustotu vláken a rychlé propojení CPU a GPU. Pro inženýry a architekty, kteří řeší náklady modelů a propustnost, je to praktický začátek.