(資料圖)
IT之家 11 月 13 日消息,科技媒體 Wccftech 昨日(11 月 12 日)發(fā)布博文,報(bào)道稱在 MLPerf AI 訓(xùn)練基準(zhǔn)測(cè)試中,英偉達(dá)基于 Blackwell Ultra 架構(gòu)的 GB300 NVL72 平臺(tái)包攬了全部 7 個(gè)項(xiàng)目的冠軍,取得了壓倒性勝利。
IT之家援引博文介紹,本次測(cè)試中最亮眼的成績(jī)是,GB300 NVL72 平臺(tái)僅用時(shí) 10 分鐘,便完成訓(xùn)練擁有 4050 億參數(shù)的 Llama 3.1 大模型。
此外,在其他關(guān)鍵測(cè)試中也表現(xiàn)出色,例如僅需 0.4 分鐘即可完成 Llama 2 70B 模型的 LoRA 微調(diào),訓(xùn)練 Llama 3.1 8B 模型也只需 5.2 分鐘。
與上一代產(chǎn)品相比,Blackwell Ultra 的性能實(shí)現(xiàn)了巨大飛躍。測(cè)試結(jié)果顯示,在 Llama 2 70B 微調(diào)任務(wù)中,8 塊 GB300 GPU 提供的性能是同等數(shù)量 H100 GPU 的 5 倍。
而在 Llama 3.1 405B 預(yù)訓(xùn)練任務(wù)中,GB300 的性能也達(dá)到了 H100 的 4 倍以上,并且比同為 Blackwell 架構(gòu)的 GB200 快了近 2 倍。
該媒體指出這一性能突破的背后,是軟硬件協(xié)同創(chuàng)新的結(jié)果。硬件方面,GB300 NVL72 系統(tǒng)集成了速率高達(dá) 800 GB/s 的 Quantum-X800 InfiniBand 高速網(wǎng)絡(luò),并為每塊 GPU 配備了 279GB 的 HBM3e 高帶寬內(nèi)存,整個(gè)系統(tǒng)的總內(nèi)存容量(GPU+CPU)更是達(dá)到了驚人的 40TB。
在軟件層面,F(xiàn)P4 精度的全面采用是關(guān)鍵。英偉達(dá)通過在模型訓(xùn)練的每一層都應(yīng)用 FP4 精度,將計(jì)算速度提升至 FP8 的兩倍,而 Blackwell Ultra 架構(gòu)則將這一優(yōu)勢(shì)進(jìn)一步放大至 3 倍。
營(yíng)業(yè)執(zhí)照公示信息