“賣鏟人”也坐不住了!英偉達(dá)發(fā)布視頻AI大模型論文 有望深度賦能自動(dòng)駕駛
摘要: 《科創(chuàng)板日?qǐng)?bào)》4月13日訊(記者 張洋洋) 國(guó)內(nèi)大模型訓(xùn)練面臨的算力困局有望得到紓緩。面向大模型訓(xùn)練,4月14日,騰訊云正式發(fā)布新一代HCC(High-Performance Computing Cluster)高性能計(jì)算集群。
《科創(chuàng)板日?qǐng)?bào)》4月13日訊(記者 張洋洋) 國(guó)內(nèi)大模型訓(xùn)練面臨的算力困局有望得到紓緩。面向大模型訓(xùn)練,4月14日,騰訊云正式發(fā)布新一代HCC(High-Performance Computing Cluster)高性能計(jì)算集群。
該集群采用騰訊云星星海自研服務(wù)器,國(guó)內(nèi)首發(fā)搭載英偉達(dá)最新代次H800 GPU,服務(wù)器之間采用業(yè)界最高的3.2T超高互聯(lián)帶寬,為大模型訓(xùn)練、自動(dòng)駕駛、科學(xué)計(jì)算等提供高性能、高帶寬和低延遲的集群算力。

▍開(kāi)啟云上大模型訓(xùn)練模式
當(dāng)下,大模型訓(xùn)練如火如荼,且參數(shù)量級(jí)已進(jìn)入萬(wàn)億時(shí)代,單體服務(wù)器算力有限,隨著算力需求的增長(zhǎng),因此需要將大量服務(wù)器通過(guò)高性能網(wǎng)絡(luò)相連,打造大規(guī)模算力集群。
集群的算力要求,意味著用于采購(gòu)硬件的資金投入是指數(shù)級(jí)增長(zhǎng),這給不少企業(yè)帶來(lái)了巨大的現(xiàn)金流壓力。自己采購(gòu)GPU,面臨著成本和供應(yīng)鏈問(wèn)題,且峰谷問(wèn)題較為明顯。
例如,本地的物理CPU/GPU資源配比是固定綁定在一起的,擴(kuò)展性比較差。有時(shí)CPU跑滿、GPU空閑(或相反)。造成效率低下和資源浪費(fèi)。在云上,這些資源可以池化隨取隨用,按需按量取用。
面對(duì)業(yè)務(wù)架構(gòu)多樣、用量無(wú)法準(zhǔn)確預(yù)估、模型及環(huán)境部署難度大等問(wèn)題,騰訊認(rèn)為,云上算力能幫助企業(yè)完成隨機(jī)突發(fā)的算力需求。
▍先進(jìn)芯片≠先進(jìn)算力
目前大熱的人工智能大模型,其訓(xùn)練需要海量數(shù)據(jù)和強(qiáng)大的算力來(lái)支撐訓(xùn)練和推理過(guò)程,其中數(shù)據(jù)主要由服務(wù)器和光模塊存儲(chǔ)、運(yùn)輸,算力支撐則依賴各類芯片。
算力需求陡增,業(yè)界普遍認(rèn)為,高性能芯片的短缺是限制國(guó)內(nèi)大模型行業(yè)發(fā)展的重要因素。
但在騰訊看來(lái),用上了先進(jìn)芯片并不代表就擁有了先進(jìn)算力,原因在于高性能計(jì)算存在“木桶效應(yīng)”,一旦計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)任一環(huán)節(jié)出現(xiàn)瓶頸,就會(huì)導(dǎo)致運(yùn)算速度嚴(yán)重下降。

以算力對(duì)網(wǎng)絡(luò)的要求為例:目前,GPU并行是大模型訓(xùn)練的必備技術(shù),不同于傳統(tǒng)并行以加快計(jì)算速度為目的,大模型的并行計(jì)算往往還要考慮怎樣將龐大的參數(shù)有機(jī)地分布到多張GPU卡中,并保持不同GPU卡之間有效的通信,整體配合完成大模型的訓(xùn)練部署。
即使是目前業(yè)界已有的GPU分布式訓(xùn)練方案,也嚴(yán)重受制于服務(wù)器之間的通信、拓?fù)?、模型并行、流水并行等底層?wèn)題。如果只有分布式訓(xùn)練框架,甚至都無(wú)法正常啟動(dòng)訓(xùn)練過(guò)程。這也是為什么當(dāng)時(shí)GPT-3已經(jīng)發(fā)布一年,卻只有少數(shù)企業(yè)可以復(fù)現(xiàn)GPT-3。
換句話而言,先進(jìn)算力的背后,是先進(jìn)芯片、先進(jìn)網(wǎng)絡(luò)、先進(jìn)存儲(chǔ)等一系列的支撐,缺一不可。
▍首發(fā)搭載英偉達(dá)H800
騰訊新一代HCC集群搭載了英偉達(dá)最新代的H800芯片,這是H800在國(guó)內(nèi)首發(fā)。不過(guò),騰訊暫未透露采購(gòu)了多少H800。
H800是英偉達(dá)新代次處理器,基于Hopper架構(gòu),對(duì)跑深度推薦系統(tǒng)、大型AI語(yǔ)言模型、基因組學(xué)、復(fù)雜數(shù)字孿生等任務(wù)的效率提升顯著。
英偉達(dá)芯片參數(shù)對(duì)比
網(wǎng)絡(luò)層面,騰訊自研的星脈網(wǎng)絡(luò),為新一代集群帶來(lái)了3.2T的超高通信帶寬。實(shí)測(cè)結(jié)果顯示,搭載同樣的GPU卡,3.2T星脈網(wǎng)絡(luò)相較前代網(wǎng)絡(luò),能讓集群整體算力提升20%,使得超大算力集群仍然能保持優(yōu)秀的通信開(kāi)銷比和吞吐性能。并提供單集群高達(dá)十萬(wàn)卡級(jí)別的組網(wǎng)規(guī)模,支持更大規(guī)模的大模型訓(xùn)練及推理。
存儲(chǔ)層面,騰訊云自研的文件存儲(chǔ)、對(duì)象存儲(chǔ)架構(gòu),具備TB級(jí)吞吐能力和千萬(wàn)級(jí)IOPS,充分滿足大模型訓(xùn)練的大數(shù)據(jù)量存儲(chǔ)要求。
在自研芯片方面,騰訊已經(jīng)量產(chǎn)了用于AI推理加速的紫霄芯片,并已在語(yǔ)音轉(zhuǎn)寫、OCR等業(yè)務(wù)場(chǎng)景使用,用于視頻轉(zhuǎn)碼的滄海芯片,已經(jīng)在云游戲、直點(diǎn)播等場(chǎng)景中規(guī)模落地。
模型,訓(xùn)練,GPU






