比英偉達(dá)(NVDA.US)GPU快20倍! Cerebras“出爐”全球最快AI推理解決方案
摘要: 人工智能初創(chuàng)公司Cerebras今日宣布推出CerebrasInference,據(jù)稱是世界上最快的人工智能推理解決方案。該公司表示:“CerebrasInference為Llama3.18B每秒提供1
人工智能初創(chuàng)公司Cerebras今日宣布推出Cerebras Inference,據(jù)稱是世界上最快的人工智能推理解決方案。該公司表示:“Cerebras Inference為Llama 3.18B每秒提供1800個token,為Llama 3.170B每秒提供450個token,比基于英偉達(dá)(NVDA.US)GPU的超大規(guī)模云快20倍。”

Cerebras Inference由第三代晶圓級引擎(WaferScaleEngine)提供動力,同時由于消除了內(nèi)存帶寬障礙,速度更快。Cerebras稱其GPU解決方案的推理成本是微軟Azure云計算平臺的三分之一,而使用的功率是微軟Azure云計算平臺的六分之一。
該公司表示:“Cerebras通過制造世界上最大的芯片,并將整個模型存儲在芯片上,解決了內(nèi)存帶寬瓶頸。”“憑借我們獨特的晶圓級設(shè)計,我們能夠在單個芯片上集成44GB的SRAM,從而消除了對外部存儲器和連接外部存儲器和計算機(jī)的慢速通道的需求?!?/p>
提供人工智能模型獨立分析的人工智能分析公司(Artificial Analysis)聯(lián)合創(chuàng)始人兼首席執(zhí)行官MicahHill-Smith表示:“Cerebras在人工智能推理基準(zhǔn)方面處于領(lǐng)先地位。Cerebras為Meta的Llama3.18B和70BAI模型提供的速度比基于GPU的解決方案快一個數(shù)量級。我們在Llama3.18B上測量的速度超過每秒1800個輸出token,在Llama3.170B上測量的速度超過每秒446個輸出token,這是這些基準(zhǔn)測試中的新記錄?!?/p>
他稱,“憑借推至性能前沿的速度和具有競爭力的價格,Cerebras Inference對具有實時或大容量需求的人工智能應(yīng)用程序的開發(fā)人員特別有吸引力?!?/p>
值得一提的是,這可能會在整個人工智能生態(tài)系統(tǒng)中產(chǎn)生連鎖反應(yīng)。隨著推理變得更快、更高效,開發(fā)人員將能夠突破人工智能的極限。曾經(jīng)因硬件限制而受阻的應(yīng)用程序現(xiàn)在可能會蓬勃發(fā)展,并激發(fā)出此前被判定為不可能的創(chuàng)新。不過, J. Gold Associates 分析師杰克·戈爾德 (Jack Gold) 也提出,“但在我們獲得更具體的現(xiàn)實基準(zhǔn)和大規(guī)模運營之前,現(xiàn)在估計它到底有多優(yōu)越還為時過早?!?/p>
本月早些時候,Cerebras提交了首次公開募股(IPO)申請,預(yù)計將于今年下半年上市。該公司最近還任命了兩名新的董事會成員:曾在IBM(IBM.US)、英特爾(INTC.US)和西班牙電信(TEF.US)擔(dān)任高管的格倫達(dá)?多查克;以及VMware和Proofpoint前首席財務(wù)官保羅·奧維爾(Paul Auvil)。
這家初創(chuàng)公司還向上市邁出了重要的一步,本月早些時候聘請鮑勃?科明(Bob Komin)擔(dān)任首席財務(wù)官。Komin曾在Sunrun擔(dān)任首席財務(wù)官,領(lǐng)導(dǎo)了該公司的IPO流程。他還曾在被雅虎收購的Flurry和被微軟(MSFT,US)收購的TellmeNetworks擔(dān)任CFO。
Cerebras首席執(zhí)行官兼聯(lián)合創(chuàng)始人AndrewFeldman說,“鮑勃在他的職業(yè)生涯中一直是一個關(guān)鍵的運營領(lǐng)導(dǎo)者,在幾家公司擔(dān)任創(chuàng)業(yè)高管,這些公司發(fā)明了重大的技術(shù)和商業(yè)模式創(chuàng)新,并迅速成長為行業(yè)領(lǐng)導(dǎo)者。他在成長期和上市公司的財務(wù)領(lǐng)導(dǎo)方面的豐富經(jīng)驗對Cerebras來說是非常寶貴的。”
Cerebras,人工智能,US






