在今年六月于舊金山舉行的一場盛大發(fā)布會(huì)上,AMD CEO Lisa Su在介紹MI 300A之余,還對(duì)外公布了公司擁有1530億晶體管的新一代AI芯片MI 300X。因?yàn)閾碛袕?qiáng)大的帶寬和內(nèi)存,疊加人工智能市場被英偉達(dá)近乎壟斷的現(xiàn)狀,AMD的這顆芯片在發(fā)布之后,引起了人工智能從業(yè)者的廣泛關(guān)注。
Lisa Su在公司10月底的三季度的財(cái)報(bào)會(huì)議上更是樂觀預(yù)測,展望今年第四季度,來自數(shù)據(jù)中心圖形處理單元 (GPU) 的收入將達(dá)到約 4 億美元,而隨著收入持續(xù)增長,到 2024 年這一總額可能會(huì)超過 20 億美元。“這一增長將使 MI300 成為 AMD 歷史上銷售額突破 10 億美元最快的產(chǎn)品,”Lisa Su 表示。
基于這些優(yōu)越的表現(xiàn),Lisa Su在今天的“Advancing AI”大會(huì)演講中提高了她對(duì)數(shù)據(jù)中心AI加速器的預(yù)測。一年前,她認(rèn)為2023年的AI加速器市場為300億美元。到2027年,全球數(shù)據(jù)中心AI加速器的市場規(guī)模將達(dá)到1500億美元,這意味著期間的CAGR約為50%。但現(xiàn)在,Lisa Su認(rèn)為,AI加速器在2023年的市場規(guī)模將達(dá)到450億美元,未來幾年的CAGR將高達(dá)70%,推動(dòng)整個(gè)市場到2027年增加到4000億美元的規(guī)模。
AMD還同時(shí)揭開了MI 300X和MI 300A的神秘面紗,還帶來了RCom 6的更多介紹。
MI300X,全面領(lǐng)先競爭對(duì)手
如圖所示,AMD Instinct MI300X 采用了8 XCD,4個(gè)IO die,8個(gè)HBM3堆棧,高達(dá)256MB的AMD Infinity Cache和3.5D封裝的設(shè)計(jì),支持 FP8 和稀疏性等新數(shù)學(xué)格式,是一款全部面向 AI 和 HPC 工作負(fù)載的設(shè)計(jì)。
據(jù)筆者所了解,所謂 XCD,是AMD在GPU中負(fù)責(zé)計(jì)算的Chiplet。如圖所示,在MI 300X上,8個(gè)XCD包含了304 個(gè)CDNA 3 計(jì)算單元,那就意味著每個(gè)計(jì)算單元包含了34個(gè)CU(CU:Computing Unit)。作為對(duì)比,AMD MI 250X 擁有220個(gè)CU,這也是一個(gè)較大的飛躍。
在IOD方面,AMD在這一代的加速器上同樣采用了Infinity Cache技術(shù),也就是他們所說的“海量帶寬放大器”(massive bandwidth amplifier)。資料顯示,這是AMD在RDNA 2引入的技術(shù)。當(dāng)時(shí)發(fā)布的時(shí)候,AMD方面表示,希望能夠借助Infinity Cache 技術(shù),讓GPU 不但能夠擁有可快速訪問的高速、高帶寬片內(nèi)緩存,而且還可以同時(shí)實(shí)現(xiàn)低功耗和低延遲。在MI 300X,這個(gè)緩存的數(shù)字提升到了256MB。與此同時(shí),AMD還給這個(gè)芯片配備了7×16路的第四代AMD infinity Fabric link,為其I/O保駕護(hù)航。
具體到封裝方面,AMD通過引入3D混合鍵合和2.5D的硅中介層,實(shí)現(xiàn)了一個(gè)自稱為“3.5D封裝”的技術(shù)。
根據(jù)IEEE在報(bào)道中指出,這種集成是使用臺(tái)積電的SoIC和 CoWoS技術(shù)完成的。其中,后者使用所謂的混合鍵合將較小的芯片堆疊在較大的芯片之上,這種技術(shù)無需焊接即可直接連接每個(gè)芯片上的銅焊盤。它用于生產(chǎn) AMD 的V-Cache,這是一種堆疊在其最高端 CPU 小芯片上的高速緩存內(nèi)存擴(kuò)展小芯片。前者稱為 CoWos,將小芯片堆疊在稱為中介層的較大硅片上,該硅片旨在包含高密度互連中。
來到HBM 3配置方面,通過八個(gè)物理堆棧的HBM,讓MI300 X的HBM容量高達(dá)192GB,是英偉達(dá)H100 80GB HBM 3的2.4倍,這和之前提供的數(shù)據(jù)一致。但在帶寬方面,和上次提供的5.2TB/s的不一樣,AMD在新的展示文件中表示,MI 300X的峰值存儲(chǔ)帶寬為5.3TB/s,這是英偉達(dá)H100 SXM(存儲(chǔ)帶寬為3.3TB/s)的2.4倍。
如上圖所示,受惠于這些領(lǐng)先的設(shè)計(jì),MI300 X在多個(gè)性能測試中領(lǐng)先于競爭對(duì)手。而按照他們所說,AMD在Instinct的產(chǎn)品戰(zhàn)略方面有四個(gè)戰(zhàn)略支柱,分別是易于遷移、性能領(lǐng)先、致力于開放和客戶聚焦。當(dāng)中易于遷移是指 MI 300X將與現(xiàn)在的硬件和軟件框架兼容;性能領(lǐng)先則意味著不妥協(xié)的領(lǐng)先性能;致力于開放則著重強(qiáng)調(diào)了公司投資和積極參與到整個(gè)生態(tài)系統(tǒng)的開源標(biāo)準(zhǔn)系統(tǒng)中去;客戶聚焦則代表著公司以客戶為己任,打造適合客戶需求的路線圖的決心。
事實(shí)上,如圖所示,AMD采用了8個(gè)MI 300X打造了一個(gè)擁有優(yōu)越性能平臺(tái),具體參數(shù)如下圖所示,這也讓其成為了業(yè)界領(lǐng)先的標(biāo)準(zhǔn)設(shè)計(jì)。更重要的是,由于該產(chǎn)品的兼容性,使其能夠大大降低客戶硬件或者軟件遷移的時(shí)間和成本。
AMD總結(jié)說,基于行業(yè)標(biāo)準(zhǔn) OCP 設(shè)計(jì)構(gòu)建的新一代Instinct平臺(tái)配備了八個(gè) MI300X 加速器,可提供行業(yè)領(lǐng)先的1.5TB HBM3內(nèi)存容量。AMD Instinct平臺(tái)的行業(yè)標(biāo)準(zhǔn)設(shè)計(jì)允許 OEM 合作伙伴將MI300X加速器設(shè)計(jì)到現(xiàn)有的AI產(chǎn)品中,并簡化部署并加速基于AMD Instinct加速器的服務(wù)器的采用。
與Nvidia H100 HGX相比,AMD Instinct平臺(tái)在類似BLOOM 176b等LLM上運(yùn)行推理時(shí),吞吐量可提高高達(dá)1.6倍,并且是市場上能夠?qū)lama2等700億參數(shù)模型運(yùn)行推理的唯一選擇。
在關(guān)鍵AI kernel性能表現(xiàn)上,基于MI 300X的平臺(tái)表現(xiàn)也優(yōu)于競爭對(duì)手。
在某些模型的訓(xùn)練上,如下圖所示,AMD MI 300X在和英偉達(dá)H100相比時(shí)也不遜色。
從下圖數(shù)據(jù),我們則可以看到AMD最新芯片平臺(tái)在訓(xùn)練和推理方面的更多優(yōu)勢。
MI 300A,業(yè)界首個(gè)APU加速器
在這次發(fā)布會(huì)上,AMD還深入介紹了業(yè)界首個(gè)APU加速器MI 300A。
作為全球首款適用于HPC和AI的數(shù)據(jù)中心APU,AMD Instinct MI300A APU利用3D封裝和第四代AMD Infinity架構(gòu),在HPC和AI融合的關(guān)鍵工作負(fù)載上提供領(lǐng)先的性能。MI300A APU 結(jié)合了高性能AMD CDNA 3 GPU內(nèi)核、最新的AMD“Zen 4” 86 CPU內(nèi)核和128GB下一代HBM3 內(nèi)存。與上一代的AMD Instinct MI250X相比,在FP32 HPC和AI上獲得約為1.9倍的每瓦性能提升。
具體到產(chǎn)品設(shè)計(jì)方面,如上圖所示,MI 300A和MI 300X擁有很多的相似之處,例如3.5D封裝和256MB的AMD infinity Cache以及4個(gè)IOD。但在HBM和計(jì)算單元方面,也有了不同之處。例如雖然MI 300A同樣也是采用了HBM 3設(shè)計(jì),但是其容量大小卻小于MI 300X。
在I/O die方面,雖然擁有和MI 300X同樣的infinity Cache,但MI 300A的I/O配置了4×16的第四代Infinity Fabric Link和4×16的PCIe 5,這與MI 300X又有所不同。
對(duì)于這兩個(gè)不同的MI 300系列產(chǎn)品,在計(jì)算單元方面方面的差距是尤為明顯。和MI 300X只采用XCD計(jì)算單元不一樣,MI 300A采用了6個(gè)XCD和3個(gè)CCD,這就意味著其擁有228個(gè)CDNA 3 CU和24個(gè)“zen 4”核心。
其實(shí),“CPU+GPU”的設(shè)計(jì)并不是AMD獨(dú)家的,例如應(yīng)為的GH200,就是采用了同樣的概念,英特爾也曾經(jīng)在Falcon Shores上規(guī)劃了XPU的設(shè)計(jì)。雖然Intel取消了XPU的設(shè)計(jì),但AMD依然堅(jiān)持走在這條路上,因?yàn)榘凑账麄冎暗恼f法,從一致內(nèi)存架構(gòu)向統(tǒng)一內(nèi)存APU架構(gòu)的轉(zhuǎn)變,有望提高效率、消除冗余內(nèi)存副本,且無需將數(shù)據(jù)從一個(gè)池復(fù)制到另一個(gè)池,以實(shí)現(xiàn)降低功耗和延遲的目的。
不過,從IEEE的報(bào)道也可以看到,英偉達(dá)和AMD的做法有所不同。在英偉達(dá)方面,Grace 和 Hopper 都是獨(dú)立的芯片,它們都集成了片上系統(tǒng)所需的所有功能塊(計(jì)算、I/O 和緩存),它們之間是通過 Nvidia NVLink Chip-2-Chip 互連水平連接的,而且很大——幾乎達(dá)到了光刻技術(shù)的尺寸極限。
AMD則使用 AMD Infinity Fabric 互連技術(shù)集成了三個(gè) CPU 芯片和六個(gè) XCD 加速器。而隨著功能的分解,MI300 中涉及的所有硅片都變得很小。最大的 I/O die甚至還不到 Hopper 的一半大小。而且 CCD 的尺寸僅為I/O die的1/5左右,這種小尺寸帶來了良率和成本的優(yōu)勢。
AMD方面在今日的介紹中也總結(jié)說,這種APU設(shè)計(jì)擁有統(tǒng)一的內(nèi)存、共享的AMD infinity Catch、動(dòng)態(tài)功率共享(dynamic power shared)和易于變成等優(yōu)勢,這將解鎖前所未有的新性能體驗(yàn)。
在實(shí)際與Nvidia H100的對(duì)比中,MI 300A同樣不落下風(fēng)。例如在HPC OpenFOAM motorbike測試中,AMD MI 300A領(lǐng)先于競爭對(duì)手四倍。
在Peak HPC的每瓦性能表現(xiàn)上,MI 300A更是能做到同為“CPU+GPU”封裝設(shè)計(jì)的Nvidia GH200的兩倍。
在衡量HPC性能的多項(xiàng)測試中,MI 300A也與H100不相伯仲。
正因?yàn)閾碛腥绱顺錾谋憩F(xiàn),AMD的MI 300系列獲得了客戶的高度認(rèn)可,這也是文章開頭Lisa Su所披露公司AI加速器獲得了快速增長訂單的根源所在。他們表示,MI 300A更適合于數(shù)據(jù)中心和HPC應(yīng)用,例如有望成為世界上速度最快的超級(jí)計(jì)算機(jī)El Capitan就是MI 300A的客戶。至于MI 300X則更適合于生成式AI的應(yīng)用場景。AMD在發(fā)布會(huì)上也強(qiáng)調(diào),公司這兩款產(chǎn)品都受到了客戶的高度評(píng)價(jià)。
無可否認(rèn),從過去的多年發(fā)展看來,AMD在硬件方面正在快速更上,且獲得了不錯(cuò)的表現(xiàn)。但正如Semianalysis分析師Dylen Patel所說,對(duì)于AI加速器而言,所有的魔鬼細(xì)節(jié)都是體現(xiàn)在軟件中。
“在過去的十年中,機(jī)器學(xué)習(xí)軟件開發(fā)的格局發(fā)生了重大變化。許多框架已經(jīng)出現(xiàn)又消失,但大多數(shù)都嚴(yán)重依賴于利用Nvidia的CUDA,并且在Nvidia GPU上表現(xiàn)最佳。”Dylen Patel強(qiáng)調(diào)。他同時(shí)指出,在AMD方面,其ROCm的表現(xiàn)在過去并沒有那么好,例如RCCL庫 (Communications Collectives Libraries) 總體來說并沒有足夠好。
為此,AMD正在加強(qiáng)公司在軟件方面的實(shí)力,例如ROCM 6就是這次發(fā)布會(huì)上的一個(gè)亮點(diǎn)。
加強(qiáng)軟件布局,加緊拓寬客戶
AMD總裁Victor Peng在多個(gè)場合都強(qiáng)調(diào)過,軟件非常重要。他甚至認(rèn)為,軟件是AMD想要在市場上做出改變的首要任務(wù)。
在六月的發(fā)布會(huì)上,Victor Peng曾介紹說,AMD 擁有一套完整的庫和工具ROCm,可以用于其優(yōu)化的AI軟件堆棧。與專有的CUDA不同,這是一個(gè)開放平臺(tái)。而在過去的發(fā)展中,公司也一直在不斷優(yōu)化 ROCm 套件。AMD同時(shí)還在與很多合作伙伴合作,希望進(jìn)一步完善其軟件,方便開發(fā)者的AI開發(fā)和應(yīng)用。
在過去 6 個(gè)月中,AMD也的確取得了一些巨大進(jìn)展。
據(jù)介紹,AMD推出了AMD Instinct GPU開源軟件堆棧的最新版本 ROCm 6,該軟件堆棧針對(duì)生成式 AI(尤其是大型語言模型)進(jìn)行了優(yōu)化。還支持新數(shù)據(jù)類型、高級(jí)圖形和內(nèi)核優(yōu)化、優(yōu)化庫和最先進(jìn)的注意力算法(attention algorithms)。
在將ROCm 6與MI300X一起時(shí),與運(yùn)行在MI250上的ROCm 5相比,擁有70億參數(shù)的Llama 2上文本生成的整體延遲性能提高了約8倍。
在參數(shù)大小為130億的Llama 2做推理性能測試時(shí),MI300X的延遲表現(xiàn)稍稍優(yōu)于英偉達(dá)的H100。
在這些軟硬件提升支持下,包括Databricks、Essential Al和Lamini在內(nèi)的三家構(gòu)建新興模型和人工智能解決方案的人工智能初創(chuàng)公司與AMD一起討論了他們?nèi)绾卫肁MD Instinct MI300X加速器和開放ROCm 6軟件堆棧為企業(yè)客戶提供差異化的人工智能解決方案。最炙手可熱的人工智能公司OpenAl也宣布在Triton 3.0中添加了對(duì)AMD Instinct加速器的支持——為AMD加速器提供開箱即用的支持,使開發(fā)人員能夠在AMD硬件上進(jìn)行更高級(jí)別的工作。
與此同時(shí),微軟、Meta、Oracle也分享了與AMD的合作。其中,微軟談到了如何通過部署MI 300X來為Azure ND MI 300X v5 VM賦能,并優(yōu)化了其AI工作負(fù)載;Meta也在數(shù)據(jù)中心部署MI 300X和ROCm 6,以實(shí)現(xiàn)AI推理負(fù)載。值得一提的,在于Meta的合作中,AMD還展現(xiàn)了公司ROCm 6在Llama2上做得一些優(yōu)化;Oracle也表示將提供基于MI 300X加速器的裸金屬計(jì)算方案。他們還將在不久的將來提供基于MI 300X的生成式AI服務(wù)。
此外,包括戴爾、惠普、聯(lián)想、超微、技嘉、Inventec、QCT、Ingensys和Wistron在內(nèi)的多家數(shù)據(jù)中心基礎(chǔ)設(shè)施提供商也都已經(jīng)或?qū)⒂?jì)劃在其產(chǎn)品集成MI300。
和曾經(jīng)的數(shù)據(jù)中心CPU市場一樣,GPU市場當(dāng)前也是一家獨(dú)大,這是一個(gè)公開的秘密。但無論是從市場發(fā)展現(xiàn)狀、客戶需求,或者未來發(fā)展需要來看,擁有另外的AI加速器供應(yīng)商是刻不容緩的。
擁有MI 300系列的AMD無疑是最優(yōu)的一個(gè)候選。讓我們期待Lisa Su帶領(lǐng)這個(gè)過去幾年在CPU領(lǐng)域創(chuàng)造奇跡的團(tuán)隊(duì)在GPU市場上再創(chuàng)輝煌。