這可能是關(guān)于昆侖萬(wàn)維天工模型,最詳盡的一次評(píng)測(cè)了
摘要: (原標(biāo)題:這可能是關(guān)于昆侖萬(wàn)維天工模型,最詳盡的一次評(píng)測(cè)了)導(dǎo)語(yǔ):天工作為國(guó)產(chǎn)大語(yǔ)言模型,在中文語(yǔ)境和特定場(chǎng)景下,其表現(xiàn)優(yōu)于ChatGPT3.5。然而,在邏輯推理、代碼分析和長(zhǎng)對(duì)話能力方面,
(原標(biāo)題:這可能是關(guān)于昆侖萬(wàn)維天工模型,最詳盡的一次評(píng)測(cè)了)

導(dǎo)語(yǔ):天工作為國(guó)產(chǎn)大語(yǔ)言模型,在中文語(yǔ)境和特定場(chǎng)景下,其表現(xiàn)優(yōu)于ChatGPT3.5。然而,在邏輯推理、代碼分析和長(zhǎng)對(duì)話能力方面,與ChatGPT3.5和Chat GPT4相比仍有明顯差距。
天工模型背景 昆侖萬(wàn)維天工大模型自 4 月 17 日宣布啟動(dòng)邀測(cè),官方宣布:天工是由昆侖萬(wàn)維(SZ:300418)和奇點(diǎn)智源合作自研、中國(guó)第一個(gè)真正實(shí)現(xiàn)智能涌現(xiàn)的國(guó)產(chǎn)大語(yǔ)言模型。 “大”模型有一個(gè)重要的特性“涌現(xiàn)”。所謂涌現(xiàn)現(xiàn)象就是在越過(guò)了某個(gè)參數(shù)量和頭尾數(shù)據(jù)量后,其能力曲線就會(huì)陡然提升,包括但不限于知識(shí)庫(kù)的擴(kuò)大和推理能力的提升。 昆侖萬(wàn)維表示天工用到了兩個(gè)千億模型 —— 千億預(yù)訓(xùn)練基座模型和千億 RLHF(Reinforcement Learning from Human Feedback)模型。 而其中的 RLHF 就是“涌現(xiàn)”能力的最重要由來(lái)。千億級(jí)別的 RLHF 或許是未來(lái)模型進(jìn)步的最重要模塊。 LLM(大語(yǔ)言模型)的新范式:RLHF (Reinforcement Learning from Human Feedback) ,即以強(qiáng)化學(xué)習(xí)方式依據(jù)人類反饋優(yōu)化語(yǔ)言模型。 RLHF 需要收集大量高質(zhì)量的人類偏好數(shù)據(jù),包括人工生成的文本和對(duì)模型輸出的排名標(biāo)簽。除此之外,RLHF 還需要處理標(biāo)注者的偏見(jiàn)和不一致以及模型輸出的有害或不真實(shí)的風(fēng)險(xiǎn)。 總體來(lái)說(shuō),相較于傳統(tǒng)算法,RLHF 需要更多的人工標(biāo)注和數(shù)據(jù)清洗以向模型提供充足的帶標(biāo)注的文本數(shù)據(jù)(又或者是圖片數(shù)據(jù)以訓(xùn)練多模態(tài)模型)。 本次天工還有一個(gè)重要宣傳點(diǎn)為:超過(guò)20輪的對(duì)話能力和1萬(wàn)字以上的長(zhǎng)篇文本記憶能力。這也是當(dāng)前大部分國(guó)產(chǎn)模型最為欠缺的。 之前測(cè)試文心一言和 ChatGLM 的時(shí)候也表現(xiàn)出了明顯的記憶丟失現(xiàn)象。而長(zhǎng)記憶能力也是大語(yǔ)言模型的“涌現(xiàn)”現(xiàn)象的一個(gè)表征。本文也將著重于測(cè)試這項(xiàng)能力。 模型能力測(cè)試 本次測(cè)試我們主要將天工與 ChatGPT3.5做對(duì)比。在部分較難問(wèn)題(ChatGPT3.5 和天工均無(wú)法完成),會(huì)引入當(dāng)前公認(rèn)最強(qiáng)大語(yǔ)言模型 ChatGPT4 作為參考模型。 對(duì)大語(yǔ)言模型能力的測(cè)試,常常使用三個(gè)模塊來(lái)評(píng)價(jià),分別為語(yǔ)言生成能力,邏輯推理能力,代碼分析能力以及長(zhǎng)對(duì)話連續(xù)生成能力。 一、語(yǔ)言生成能力 1.問(wèn)題:“猜謎語(yǔ):埋在奴家心底,打一字”。 上圖天工 中圖 ChatGPT3.5 下圖 ChatGPT4 本題中,僅有天工正確回答了這個(gè)字謎,而 OpenAI 旗下的兩款 AI 模型都未正確答復(fù)。 ChatGPT4 則是看似正確地給出了一個(gè)不正確的答案。而這正說(shuō)明本土的語(yǔ)言模型的優(yōu)勢(shì),即針對(duì)本國(guó)語(yǔ)言的專業(yè)調(diào)優(yōu)能力以更符合本地人的使用習(xí)慣。 2.“這首詩(shī)是什么意思:女?huà)z煉石補(bǔ)天處,石破天驚逗秋雨。夢(mèng)入神山教神嫗,老魚(yú)跳波瘦蛟舞。吳質(zhì)不眠倚桂樹(shù),露腳斜飛濕寒兔。” 上圖天工 中圖 ChatGPT3.5 下圖 ChatGPT4 事實(shí)上這一段句子是出自于李賀的《李憑箜篌引》。雖然天工和ChatGPT3.5均根據(jù)這首詩(shī)本身給出了解讀,但是很顯然由于知識(shí)庫(kù)的欠缺,都無(wú)法基于詩(shī)詞本身的背景解讀,只能從文字本身推斷詩(shī)詞含義,自然水平有限。 3.“請(qǐng)幫我列舉一個(gè)一份賽博朋克世界觀的科幻小說(shuō)的故事大綱和主要人物設(shè)定”。 上圖天工 中圖 ChatGPT3.5 下圖 ChatGPT4 從本題結(jié)果來(lái)看,生成效果 ChatGPT4 > 天工 > ChatGPT3.5 。天工在面對(duì)中文類題目時(shí)表達(dá)能力不錯(cuò),可以較好地理解中文問(wèn)題并給出相關(guān)答案。 ChatGPT3.5在理解問(wèn)題和給出答案方面表現(xiàn)也不錯(cuò),但相較于 ChatGPT4 和天工,生成結(jié)果的流暢度和準(zhǔn)確性稍有欠缺。ChatGPT4表現(xiàn)最好,能夠更加準(zhǔn)確地理解問(wèn)題和生成相關(guān)內(nèi)容,輸出結(jié)果的流暢度和準(zhǔn)確性也更高。 4.“從這封電子郵件中提取收貨人姓名和地址:親愛(ài)的凱利,很高興在研討會(huì)上與您交談。我覺(jué)得簡(jiǎn)的演講很好,謝謝你要送我的書(shū),這是我的地址 2111 Ash Lane, Crestview CA 92002。Best, Maya”。 上圖天工 中圖 ChatGPT3.5 下圖 ChatGPT4從本題結(jié)果來(lái)看,天工的表現(xiàn)好于 ChatGPT3.5 和 ChatGPT4。天工能夠準(zhǔn)確地識(shí)別并提取出郵件中的收貨人姓名而ChatGPT3.5 則識(shí)別錯(cuò)誤。
二、邏輯推理能力 1.“樹(shù)上有9只鳥(niǎo),獵人開(kāi)槍打死1只,樹(shù)上還剩幾只鳥(niǎo)?” 上圖天工 中圖 ChatGPT3.5 下圖 ChatGPT4 ChatGPT4 能夠準(zhǔn)確理解問(wèn)題并給出正確的答案,即樹(shù)上沒(méi)有鳥(niǎo)。ChatGPT4 理解了這是一個(gè)腦經(jīng)急轉(zhuǎn)彎或者需要聯(lián)合實(shí)際的題目,而另外兩款模型則沒(méi)有這種推理能力。 2.“假設(shè)False 與 True 是 False. 則True 與 not False 是?” 上圖天工 中圖 ChatGPT3.5 下圖 ChatGPT4ChatGPT3.5 和 ChatGPT4 能夠理解問(wèn)題并給出正確的答案,即 True 與 not False 都是 True。而天工則出現(xiàn)了錯(cuò)誤的答案,這可能是因?yàn)樗鼪](méi)有很好地理解問(wèn)題中的邏輯關(guān)系,導(dǎo)致輸出結(jié)果與實(shí)際不符。 3.“爸爸媽媽結(jié)婚為什么沒(méi)有邀請(qǐng)我?” 上圖天工 中圖 ChatGPT3.5 下圖 ChatGPT4ChatGPT4 能夠更好地理解問(wèn)題并給出比較合理的答案,而天工也能理解到這其實(shí)是一個(gè)玩笑。ChatGPT3.5 則一本正經(jīng)的胡說(shuō)。 4.“確定給定句子是否表明兩個(gè)事件之間存在因果關(guān)系、相關(guān)關(guān)系或中性關(guān)系。如果句子表示因果關(guān)系,則回答因果關(guān)系;如果句子表示相關(guān)關(guān)系,則回答相關(guān);如果句子表示兩個(gè)事件之間既沒(méi)有因果關(guān)系也沒(méi)有相關(guān)關(guān)系,則回答中性。句子為:“如果你去過(guò)博物館,你就去過(guò)大英博物館?!? 上圖天工 中圖 ChatGPT3.5 下圖 ChatGPT4 對(duì)于語(yǔ)言邏輯的推理,三者均能正確表達(dá)。
三、代碼分析能力 1.“使用C語(yǔ)言解決:輸入一行字符,分別統(tǒng)計(jì)出其中英文字母、空格、數(shù)字和其他字符的個(gè)數(shù)。提示:靈活使用getchar() 函數(shù)來(lái)按順序讀入所輸入字符串里面的各個(gè)字符?!? 上圖天工 中圖 ChatGPT3.5 下圖 ChatGPT4 在給予了提示后二者均能正確完成這種基礎(chǔ)題目。 2.下面是一道經(jīng)典的力扣鏈表題: 上圖天工 下圖 ChatGPT3.5 這是一道基礎(chǔ)的鏈表類題目,而天工已經(jīng)無(wú)法正確解決。在代碼數(shù)據(jù)集上,坐擁 GitHub 的微軟聯(lián)合 OpenAI 的實(shí)力異常強(qiáng)大。 3.給定一個(gè)未排序的整數(shù)數(shù)組 nums ,找出數(shù)字連續(xù)的最長(zhǎng)序列(不要求序列元素在原數(shù)組中連續(xù))的長(zhǎng)度。請(qǐng)你設(shè)計(jì)并實(shí)現(xiàn)時(shí)間復(fù)雜度為 O(n) 的算法解決此問(wèn)題。 上圖天工 下圖 ChatGPT3.5 與上一題相同,本題天工依舊回答錯(cuò)誤而 ChatGPT3.5 回答正確。
四、長(zhǎng)對(duì)話能力 天工本次的宣傳重點(diǎn)就在于20+輪長(zhǎng)對(duì)話能力和超過(guò)1萬(wàn)字的記憶能力。而這也一直是除了 OpenAI 外的大模型的普遍痛點(diǎn),即記憶能力不強(qiáng)。因此此次測(cè)試特此加入多輪對(duì)話的實(shí)測(cè)。 我們首先讓他給出一個(gè)廢土風(fēng)格的科幻小說(shuō)框架: 接著讓他給出主人公的設(shè)定: 由于這個(gè)框架中沒(méi)有女性角色,我們讓他在原有的故事框架中添加女性角色: 全篇超過(guò)了1800字,而天工并沒(méi)有丟失記憶。在目前的國(guó)產(chǎn)大模型中是效果最好的一檔。天工也印證了其宣傳的多輪對(duì)話能力。 總結(jié)
從上述評(píng)測(cè)結(jié)果來(lái)看,天工作為國(guó)產(chǎn)大語(yǔ)言模型,在中文語(yǔ)境和特定場(chǎng)景下表現(xiàn)出色,能夠理解和回答相關(guān)問(wèn)題。 在語(yǔ)言生成能力方面,天工和ChatGPT3.5都表現(xiàn)得相對(duì)不錯(cuò),尤其是在中文問(wèn)題上,天工的表現(xiàn)優(yōu)于ChatGPT3.5。然而,在邏輯推理、代碼分析和長(zhǎng)對(duì)話能力方面,天工與ChatGPT3.5和ChatGPT4相比仍有明顯差距。 在邏輯推斷上,天工確實(shí)表現(xiàn)出了其宣稱的“涌現(xiàn)”現(xiàn)象,獲得了一定的邏輯推理能力。這是模型增大和引入 RLHF 的典型表現(xiàn)。其在算法積累和模型參數(shù)量擴(kuò)大上有一定的成效。 但是天工的代碼能力確實(shí)顯著弱于ChatGPT3.5的能力。ChatGPT3.5可以出色的完成大部分的 leetcode 算法題并且可以一次通過(guò)。 而天工生成的代碼一般都無(wú)法直接通過(guò)。這可能主要得益于微軟旗下的 GitHub 的龐大積累以及其提供的巨量代碼樣例。 在天工自己宣傳的多輪對(duì)話和涌現(xiàn)現(xiàn)象來(lái)看,可以看到天工確實(shí)具備了一定的多輪對(duì)話能力。 對(duì)于上下文的記憶能力當(dāng)前處于國(guó)內(nèi)領(lǐng)先水平。大語(yǔ)言模型的涌現(xiàn)現(xiàn)象,是指當(dāng)一個(gè)語(yǔ)言模型的規(guī)模(參數(shù)量、訓(xùn)練數(shù)據(jù)量、計(jì)算量等)達(dá)到一定的閾值時(shí),它會(huì)表現(xiàn)出一些小規(guī)模模型所不具備的能力。 例如在沒(méi)有額外訓(xùn)練或梯度更新的情況下,通過(guò)少量的示例或提示來(lái)完成各種下游任務(wù)。這種能力是難以預(yù)測(cè)和解釋的,因?yàn)樗环虾?jiǎn)單的伸縮法則,而是在某個(gè)臨界點(diǎn)發(fā)生了質(zhì)變。 在目前來(lái)看,天工可能確實(shí)產(chǎn)生了涌現(xiàn)現(xiàn)象,極大提升了模型的能力并降低了模型對(duì)于定向數(shù)據(jù)的依賴。同時(shí)長(zhǎng)期記憶能力也賦予了模型更多的可能性。 總體來(lái)說(shuō),天工作為國(guó)內(nèi)大語(yǔ)言模型的代表,表現(xiàn)出了一定的競(jìng)爭(zhēng)力。在未來(lái),天工在不斷優(yōu)化和改進(jìn)的過(guò)程中,有望在特定場(chǎng)景和應(yīng)用領(lǐng)域取得更好的成績(jī)。 然而,要在全球范圍內(nèi)與頂級(jí)模型展開(kāi)競(jìng)爭(zhēng),天工仍需在各個(gè)方面加強(qiáng)提升。
天工,模型,ChatGPT






