“復刻”幻方量化打造Deepseek 量化私募基金念空在大模型底層技術(shù)研發(fā)取得突破
摘要: 5月以來,全球大模型研發(fā)公司在大模型語義理解、多模態(tài)等方面的“較勁”悄然升級。中國深度求索(DeepSeek)公司表示,DeepSeekR1模型已完成小版本升級,令大模型的思維深度與推理能力顯著提升。
5月以來,全球大模型研發(fā)公司在大模型語義理解、多模態(tài)等方面的“較勁”悄然升級。
中國深度求索(DeepSeek)公司表示,DeepSeek R1模型已完成小版本升級,令大模型的思維深度與推理能力顯著提升。
與此同時,美國Anthropic公司推出“克勞德4”系列兩款新模型,為業(yè)界提供更高標準的編程、推理和智能體應用。
面對大模型在推理能力、思維深度方面的較量日益“白熱化”,國內(nèi)量化私募基金也加入“角逐”,在AI大模型底層技術(shù)研發(fā)方面也取得突破。
國內(nèi)量化私募基金念空科技與上海交通大學計算機學院開展合作,提出一種全新的大模型訓練框架(SASR),并發(fā)表論文投向全球頂級人工智能會議期刊NIPS。
念空科技創(chuàng)始人王嘯在6月3日接受本報記者專訪時表示,這項全新的大模型訓練框架(SASR),在GSM8K任務中,在僅使用1.5B模型的情況下,準確率就超過了80%,接近GPT-4o的表現(xiàn);而在KK邏輯推理任務中,其準確率比GPT-4o還高出約9個百分點。SASR讓通用大模型變得更“聰明”。
他告訴記者,當前大模型技術(shù)的訓練框架,主要圍繞監(jiān)督微調(diào)(SFT)和強化學習(RL),所謂監(jiān)督微調(diào)(SFT)就是不斷給大模型輸入資料和案例進行監(jiān)督訓練,相當于“刷題”; 強化學習(RL)則側(cè)重強化大模型的邏輯推理能力,讓大模型更準確理解用戶需求,“生成”用戶所需的答案。但是,如何進一步優(yōu)化大模型的刷題效果與邏輯推理能力的比重,正成為大模型能否更加“聰明”的一大挑戰(zhàn)。
“我們期待這個全新的大模型訓練框架,能夠解決這項挑戰(zhàn),讓大模型在不增加數(shù)據(jù)量的情況下,通過優(yōu)化SFT和RL的關(guān)系,也能達到預期的聰明效果?!蓖鯂[向記者指出。
這項全新的訓練框架能否讓大模型更加“聰明”,仍需專業(yè)機構(gòu)的評估與認證。
王嘯對此信心十足。
他向記者透露,念空科技已將這項訓練框架應用在量化投資策略研發(fā)領域,并發(fā)現(xiàn)相比以往的AI應用,它帶來兩大新變化,一是基于這項新訓練框架的大模型在市場預測準確性方面已達到傳統(tǒng)量化投資模型的約80%,隨著新訓練框架下的大模型日益“聰明”,其預測準確性有望超過傳統(tǒng)量化投資模型;二是新訓練框架下的大模型與傳統(tǒng)量化投資模型的相關(guān)性低于50%,這意味著兩者有較高帶來1+1大于2的效果,提升整個量化投資策略的成效。
多位量化私募業(yè)內(nèi)人士向記者透露,隨著AI大模型迭代升級,如今量化私募基金對AI大模型底層技術(shù)的研發(fā)布局,日益?zhèn)戎厮惴▋?yōu)化。在這個過程,產(chǎn)學研的結(jié)合將是他們在大模型底層技術(shù)研發(fā)方面取得突破的“捷徑”。畢竟,大學研究機構(gòu)具有先進的大模型算法優(yōu)化理論基礎與科研能力,但缺乏更多的算力支持與工程能力,而這些短板恰恰是量化私募基金的“強項”,兩者可以形成“互補”,助力國內(nèi)大模型變得更“聰明”,在全球AI發(fā)展格局擁有更大的話語權(quán)。
算法優(yōu)化與訓練架構(gòu)創(chuàng)新 量化私募開啟大模型研發(fā)“新征途”
幻方量化推出Deepseek,激發(fā)越來越多量化私募基金掀起大模型底層技術(shù)研發(fā)浪潮。
今年以來,多家量化私募基金紛紛設立AI Lab,專注大模型底層技術(shù)的研發(fā)。
在業(yè)內(nèi)人士看來,量化私募基金要“再造”一個Deepseek,難度相當高。具體而言,一是通用大模型的研發(fā)需要大量資金、算力、數(shù)據(jù)訓練、算法研究的投入,未必是每家量化私募基金都能負擔得起,二是隨著通用大模型市場格局初步清晰,新生的通用大模型“脫穎而出”正面臨更多挑戰(zhàn)。因此,越來越多量化私募基金將目光瞄準通用大模型的算法優(yōu)化,助力國內(nèi)通用大模型變得“聰明”,令后者各項性能“趕超”海外知名的通用大模型。
王嘯向記者透露,近年,通用大模型的算法優(yōu)化,正成為提升大模型整體能力的重要突破口。2023年ChatGPT的面世,主要基于龐大數(shù)據(jù)的預訓練與監(jiān)督微調(diào)(SFT),年初Deepseek的強勢崛起,則讓市場意識到強化學習(RL)對提升大模型邏輯推理能力顯得至關(guān)重要。如今,越來越多AI公司對通用大模型的訓練方式升級與算法優(yōu)化,都采取SFT+RL模式,比如Deepseek的論文介紹其訓練過程分成SFT-RL-SFT-RL四個過程。
“問題是固化的SFT+RL訓練模式未必能讓大模型聰明度快速提升?!彼嬖V記者。若大模型的訓練模式過度側(cè)重SFT,其結(jié)果是大模型刷了很多題,但缺乏思考與總結(jié),聰明度提升存在天花板;反之過度側(cè)重RL,其結(jié)果是大模型盡管擅于思考總結(jié),但缺乏大量刷題所積累的基礎知識,令幻覺問題難以明顯緩解?!彼嬖V記者。因此現(xiàn)有的通用大模型所構(gòu)建的監(jiān)督微調(diào)(SFT)與強化學習(RL)訓練框架,面臨數(shù)據(jù)精準擬合與高質(zhì)量思維鏈(CoT)的高度依賴、以及訓練不穩(wěn)定等方面的限制。為了解決這些影響大模型“聰明度”的掣肘,念空科技與交通大學計算機學院合作提出了一個新框架,即一個自適應的混合訓練框架,在算法優(yōu)化過程能動態(tài)平衡SFT與RL。比如新訓練框架在使用SFT時,在預熱階段建立基本推理能力;在后續(xù)訓練階段又能自主切換SFT與GRPO算法混合訓練,通過梯度范數(shù)調(diào)整訓練概率,確保訓練方案之間的平滑過渡,在探索不同路徑同時保持大模型的良好邏輯推理能力。
通俗而言,在這個全新的訓練框架下,大模型會自主設定一個動態(tài)的評估體系,根據(jù)數(shù)據(jù)訓練環(huán)節(jié)的監(jiān)督微調(diào)(SFT,刷題)效果,自主決定下一步是繼續(xù)“刷題”,還是切換成思考總結(jié)(強化學習,RL)從而通過動態(tài)調(diào)整監(jiān)督微調(diào)(SFT)與強化學習(RL)的步驟與切換節(jié)奏,達到更好的訓練效果,讓大模型自己變得更“聰明”。
今年,王嘯創(chuàng)立上海全頻思維人工智能科技有限公司AllMind,主營業(yè)務是專注研究通用大語言模型(LLM)的相關(guān)底層算法和工程技術(shù)。AllMind的一項重要工作,是與交通大學計算機學院合作,創(chuàng)建這項全新的通用大模型訓練框架。
王嘯坦言,在創(chuàng)建這項大模型全新訓練框架過程,他們也走了一些彎路,包括技術(shù)路線的調(diào)整與研究方向的優(yōu)化。最終,雙方在不懈努力下,設計了一種step by step的訓練方法,在下一個step訓練前,通用大模型可以根據(jù)所設計的自適應算法,決定下一個step使用SFT還是RL,從而達到更好的訓練效果。目前,通過在GSM8K、MATH和KK三個公開數(shù)據(jù)集的實驗表明,這項新訓練框架的性能優(yōu)于單獨SFT、單獨RL、以及簡單混合的SFT+RL訓練方法。
在業(yè)內(nèi)人士看來,訓練框架創(chuàng)新與算法優(yōu)化,正成為通用大模型比拼綜合性能的重要突破口。如今,越來越多“聰明度更高”的通用大模型正呈現(xiàn)一個新特征,即他們的參數(shù)量未必很高,但綜合能力不亞于同行。這背后,是訓練框架創(chuàng)新與算法優(yōu)化,令通用大模型在同等數(shù)據(jù)、算力的情況下具有更出色的訓練效果。
“當前能在算法優(yōu)化與訓練框架創(chuàng)新方面取得突破的量化私募基金并不多,原因是這需要產(chǎn)學研的融合發(fā)展,一方面需要高校研究機構(gòu)提供理論基礎與科研能力,另一方面需要量化私募基金充分應用自身的AI應用經(jīng)驗與工程能力,以及提供足夠的算力支持,兩者缺一不可?!币晃涣炕侥蓟鹑耸肯蛴浾咧毖?。
王嘯告訴記者,AllMind很大程度得益于產(chǎn)學研的融合發(fā)展,創(chuàng)建全新的大模型訓練框架。
“AllMind將著眼于通用大模型的基礎學術(shù)研究與應用,不以盈利為目的。我們將推動這項訓練框架持續(xù)迭代,進一步提升通用大模型的邏輯推理能力與減少幻覺問題,讓大模型變得更聰明同時,為國內(nèi)大模型在全球AI格局贏得更大的話語權(quán)。”他指出。
讓大模型在各個垂直領域“都聰明” 量化私募如何破題
記者多方了解到,訓練框架創(chuàng)新與算法優(yōu)化能否令通用大模型變得“更聰明”,并不是實驗室“說了算”,還需“實踐出真知”。
王嘯對此向記者表示,所有垂直領域的大模型訓練核心框架是趨同的,都需要高質(zhì)量的Prompt與CoT數(shù)據(jù),在先做監(jiān)督微調(diào)(SFT)的基礎上,讓大模型獲得某個垂直領域的基本認知后,再進行強化學習(RL),進而找到一個正確且高效的數(shù)據(jù)訓練模式,讓大模型變得越來越“聰明”,能自動生成這個垂直領域的各種準確“答案”。因此,AllMind的發(fā)展步驟,是強化通用大模型訓練算法優(yōu)化與工程技術(shù)研究,以及高質(zhì)量CoT數(shù)據(jù)生產(chǎn)方向的學術(shù)探索,增強通用大模型在金融場景的垂直應用,若這項工作取得良好成效,就有底氣將這套全新的訓練核心框架與訓練模式輸出給新材料、醫(yī)藥研發(fā)等垂直領域,讓更多垂直領域的大模型都變得“更聰明”。
他透露,念空科技正通過新訓練框架下的大模型,研發(fā)新的量化投資預測模型。具體而言,傳統(tǒng)的量化私募基金使用AI技術(shù)所搭建的量化投資模型,主要是針對以往股市交易數(shù)據(jù)等因素進行擬合與歸納總結(jié),從而預測未來并尋找投資獲利機會。比如一種傳統(tǒng)的AI量化投資模型會將過去數(shù)年的股市基礎數(shù)據(jù)與一些特征,通過機器學習與深度學習算法進行訓練,讓模型對過去數(shù)年的股市波動規(guī)律進行總結(jié)歸納,從而預測未來并挖掘相應的投資獲利機會,這本質(zhì)是基于統(tǒng)計驅(qū)動的量化投資模型,如今,他們正通過新訓練框架下的AI大模型進行預測,找到一種通過邏輯驅(qū)動的、全新的量化投資模型構(gòu)建思路。
“目前,基于這項全新訓練框架的大模型在市場預測準確性方面達到傳統(tǒng)量化投資模型的約80%,而且其與傳統(tǒng)量化投資模型的相關(guān)性低于50%,有望帶來1+1大于2的效果,可以給現(xiàn)有傳統(tǒng)的量化投資模型提升投資準確性帶來有益的補充?!彼嬖V記者。這令他開始相信這項全新訓練框架有望令大模型在其他垂直領域應用方面同樣能取得一系列成績。
記者多方了解到,歷經(jīng)訓練框架創(chuàng)新與算法優(yōu)化的大模型能否在其他垂直領域同樣“變得聰明”,面臨的變數(shù)相當多。比如在數(shù)據(jù)量極其龐大與復雜的互聯(lián)網(wǎng)行業(yè),大模型需要連接盡可能多的GPU與服務器進行高效的大規(guī)模數(shù)據(jù)訓練,因此算法與工程能力的挑戰(zhàn)或遠遠超過金融領域。
多位量化私募業(yè)內(nèi)人士指出,這正成為不少量化私募基金探索大模型算法優(yōu)化方面的新方向。為此他們也在與高??蒲袡C構(gòu)合作,將理論基礎與自身在大模型的算法與工程技術(shù)運用經(jīng)驗進行結(jié)合,找到更優(yōu)的算法與訓練框架。
王嘯告訴記者,金融大模型的難點,在于如何在過擬合與欠擬合之間找到最理想的平衡點。短期內(nèi),AllMind正著手解決這項挑戰(zhàn)。長期而言,念空科技希望能賦能大模型在更多垂直領域都變得更加聰明,推動中國大模型行業(yè)發(fā)展,增強中國大模型在未來全球AI格局的競爭力。
模型,訓練,優(yōu)化








阿克陶县|
榆树市|
高雄市|
阳城县|
庆元县|
成都市|
南雄市|
胶州市|
腾冲县|
辉南县|
隆尧县|
图片|
甘德县|
阿瓦提县|
明星|
精河县|
紫阳县|
白水县|
敖汉旗|
临泉县|
太白县|
多伦县|
肇东市|
邓州市|
特克斯县|
台南市|
洪江市|
桑日县|
得荣县|
宜丰县|
永春县|
尖扎县|
稻城县|
达日县|
崇礼县|
湘阴县|
右玉县|
武川县|
茌平县|
油尖旺区|
盐山县|