簡評:DGX GB200 NVL72 問世打通大型語言模型任督二脈-TPCA台灣電路板協會

資訊專區

Home 資訊專區產業資訊 TPCA短評

簡評:DGX GB200 NVL72 問世打通大型語言模型任督二脈

2024/06/12

Nvidia 如外界預期，於2024 GTC大會上發表了新一代 AI 伺服器 DGX GB200 NVL72 ，就單一機架(Rack)的設計來看，有別於以往資料皆匯集至背板的方式，NVL72 當中的卡板彼此於機背改採銅纜的連接方式，因設計的需求，所使用的銅纜高達5,000條。而依卡板數量的不同，本次發表的系統包括NVL36與NVL72兩種，其中 NVL72 於規格上較高。
除了架構上的差異，與前一代 DGX H100 的系統相比，NVL72 在效能與硬體的用量上亦有顯著的提升，於機架的正面即可清楚的看出，每一個功能次系統(採1U設計)皆整齊排列。依上圖編號所示，由上而下分別為：Networking 網路平台、Compute Tray(10個)、Switch Tray(9個)、Compute Tray(8個)。
- Networking 網路平台：主要負責AI 伺服器對外的網路通訊，除此之外亦可藉由連接多台NVL72(或NVL36)，藉此達到依客戶大型資料中心建置不同的考量而提供彈性擴充的選擇，其中所使用的新一代網路技術亦是 Nvidia 針對大型AI伺服器所推出的，並於相同的時間發表，包括：Quantum-X800 InfiniBand、Spectrum-X800與BlueField-3 DPU 三個整合性的平台，點對點(End-to-End)的資料量可達800Gb/s。
- Compute Tray：每個 Tray 包括2片 Compute Board，每片 Board 則包含了「2顆Blackwell GPU與1顆Grace CPU，並以此整合命名為 GB200 Superchip」，為執行人工智慧運算的核心系統單元，亦是本次 Nvidia 大力宣傳的關鍵零組件。
- Switch Tray：每個Switch Tray包含 1片 Switch Board，每片 Board上包含2顆Switch ASIC晶片，藉此提供不同 Compute Board 上GPU 與 GPU 間直接互連，本次發表的第五代NVLink技術可提供的頻寬達到1.8 TB/s。
依產品的定位，DGX GB200 NVL72(NVL36) 所達到的運算能力，為大型語言模型提供了相當有效率的硬體架構，預估量產時間為2024下半年，換言之，待系統普遍建置於大型資料中心業者後，將會催生出更多提供生成式AI應用服務的企業。

從過去 DGX H100 問市的經驗可以理解 AI 伺服器對於 PCB 的助益主要源自於系統運算能力提升所直接帶動產品系統規格的升級，進而增加了PCB相關產品的用量與規格，此思考邏輯於新一代的 DGX GB200 NVL72 亦不例外。根據官方所公佈的資料以及從過去伺服器產品迭代更新的歷程來看，DGX GB200 NVL72 相對於前一代 H100 於性能上增加的幅度相當顯著，以大躍進來形容亦不為過。
雖然新技術的導入以及架構的徹底翻新為性能強化的關鍵因素，但憑藉著運算單元數量大幅的增加亦是相當重要的方式，其中主要晶片包括：CPU、GPU與Switch 皆呈現出倍數的成長，即便主要製程仍然維持與前一代相同的4nm，但單就晶片顆數與其中所內含的電晶體數量來看，所需的Substrate 面積勢必等量放大，其中又以 ABF 為主。以上還不包含所對應的記憶體與其它週邊的晶片需求。
除此之外，就伺服器產品而言，PCB與CCL的設計與規格的選擇取決在於所需承載的速度或頻寬，根據NVL72的架構，不論是 Switch Board、Compute Board與乙太網路卡，皆須承載數百GB/s至TB/s以上的流量，雖然產品尚未正式量產，但預期PCB的設計將以高階 HDI 為主，而 CCL 亦隨著支援速度增加而提高產品等級，就NVL72的規格來看，M8等級的材料比重將再放大。
回到市場面的角度，雖然 NVL72(NVL36) 受歡迎的程度有多高還是個變數，但就產品定位而言，作為滿足於GAI所需之硬體架構的NVL72，且在其它競爭對手尚未跟上的情況下，相信它仍將成為未來大型語言模型 AI Server 市場的主流並具有一定的份額，若依此設計，PCB產業受惠程度將相當顯著。