這可能是關(guān)于昆侖萬(wàn)維天工模型，最詳盡的一次評(píng)測(cè)了

時(shí)間： 2023-05-04 07:53:34 來(lái)源：阿爾法工場(chǎng) 作者：佚名

掃描到手機(jī)

摘要：（原標(biāo)題：這可能是關(guān)于昆侖萬(wàn)維天工模型，最詳盡的一次評(píng)測(cè)了）導(dǎo)語(yǔ)：天工作為國(guó)產(chǎn)大語(yǔ)言模型，在中文語(yǔ)境和特定場(chǎng)景下，其表現(xiàn)優(yōu)于ChatGPT3.5。然而，在邏輯推理、代碼分析和長(zhǎng)對(duì)話能力方面，

　　（原標(biāo)題：這可能是關(guān)于昆侖萬(wàn)維天工模型，最詳盡的一次評(píng)測(cè)了）

昆侖萬(wàn)維

　　導(dǎo)語(yǔ)：天工作為國(guó)產(chǎn)大語(yǔ)言模型，在中文語(yǔ)境和特定場(chǎng)景下，其表現(xiàn)優(yōu)于ChatGPT3.5。然而，在邏輯推理、代碼分析和長(zhǎng)對(duì)話能力方面，與ChatGPT3.5和Chat GPT4相比仍有明顯差距。

　　天工模型背景 昆侖萬(wàn)維天工大模型自 4 月 17 日宣布啟動(dòng)邀測(cè)，官方宣布：天工是由昆侖萬(wàn)維(SZ:300418)和奇點(diǎn)智源合作自研、中國(guó)第一個(gè)真正實(shí)現(xiàn)智能涌現(xiàn)的國(guó)產(chǎn)大語(yǔ)言模型。 “大”模型有一個(gè)重要的特性“涌現(xiàn)”。所謂涌現(xiàn)現(xiàn)象就是在越過(guò)了某個(gè)參數(shù)量和頭尾數(shù)據(jù)量后，其能力曲線就會(huì)陡然提升，包括但不限于知識(shí)庫(kù)的擴(kuò)大和推理能力的提升。昆侖萬(wàn)維表示天工用到了兩個(gè)千億模型 —— 千億預(yù)訓(xùn)練基座模型和千億 RLHF（Reinforcement Learning from Human Feedback）模型。而其中的 RLHF 就是“涌現(xiàn)”能力的最重要由來(lái)。千億級(jí)別的 RLHF 或許是未來(lái)模型進(jìn)步的最重要模塊。 LLM（大語(yǔ)言模型）的新范式：RLHF (Reinforcement Learning from Human Feedback) ，即以強(qiáng)化學(xué)習(xí)方式依據(jù)人類反饋優(yōu)化語(yǔ)言模型。 RLHF 需要收集大量高質(zhì)量的人類偏好數(shù)據(jù)，包括人工生成的文本和對(duì)模型輸出的排名標(biāo)簽。除此之外，RLHF 還需要處理標(biāo)注者的偏見(jiàn)和不一致以及模型輸出的有害或不真實(shí)的風(fēng)險(xiǎn)。總體來(lái)說(shuō)，相較于傳統(tǒng)算法，RLHF 需要更多的人工標(biāo)注和數(shù)據(jù)清洗以向模型提供充足的帶標(biāo)注的文本數(shù)據(jù)（又或者是圖片數(shù)據(jù)以訓(xùn)練多模態(tài)模型）。本次天工還有一個(gè)重要宣傳點(diǎn)為：超過(guò)20輪的對(duì)話能力和1萬(wàn)字以上的長(zhǎng)篇文本記憶能力。這也是當(dāng)前大部分國(guó)產(chǎn)模型最為欠缺的。之前測(cè)試文心一言和 ChatGLM 的時(shí)候也表現(xiàn)出了明顯的記憶丟失現(xiàn)象。而長(zhǎng)記憶能力也是大語(yǔ)言模型的“涌現(xiàn)”現(xiàn)象的一個(gè)表征。本文也將著重于測(cè)試這項(xiàng)能力。 模型能力測(cè)試 本次測(cè)試我們主要將天工與 ChatGPT3.5做對(duì)比。在部分較難問(wèn)題（ChatGPT3.5 和天工均無(wú)法完成），會(huì)引入當(dāng)前公認(rèn)最強(qiáng)大語(yǔ)言模型 ChatGPT4 作為參考模型。對(duì)大語(yǔ)言模型能力的測(cè)試，常常使用三個(gè)模塊來(lái)評(píng)價(jià)，分別為語(yǔ)言生成能力，邏輯推理能力，代碼分析能力以及長(zhǎng)對(duì)話連續(xù)生成能力。一、語(yǔ)言生成能力 1.問(wèn)題：“猜謎語(yǔ)：埋在奴家心底，打一字”。上圖天工中圖 ChatGPT3.5 下圖 ChatGPT4 本題中，僅有天工正確回答了這個(gè)字謎，而 OpenAI 旗下的兩款 AI 模型都未正確答復(fù)。 ChatGPT4 則是看似正確地給出了一個(gè)不正確的答案。而這正說(shuō)明本土的語(yǔ)言模型的優(yōu)勢(shì)，即針對(duì)本國(guó)語(yǔ)言的專業(yè)調(diào)優(yōu)能力以更符合本地人的使用習(xí)慣。 2.“這首詩(shī)是什么意思：女?huà)z煉石補(bǔ)天處，石破天驚逗秋雨。夢(mèng)入神山教神嫗，老魚(yú)跳波瘦蛟舞。吳質(zhì)不眠倚桂樹(shù)，露腳斜飛濕寒兔。” 上圖天工中圖 ChatGPT3.5 下圖 ChatGPT4 事實(shí)上這一段句子是出自于李賀的《李憑箜篌引》。雖然天工和ChatGPT3.5均根據(jù)這首詩(shī)本身給出了解讀，但是很顯然由于知識(shí)庫(kù)的欠缺，都無(wú)法基于詩(shī)詞本身的背景解讀，只能從文字本身推斷詩(shī)詞含義，自然水平有限。 3.“請(qǐng)幫我列舉一個(gè)一份賽博朋克世界觀的科幻小說(shuō)的故事大綱和主要人物設(shè)定”。上圖天工中圖 ChatGPT3.5 下圖 ChatGPT4 從本題結(jié)果來(lái)看，生成效果 ChatGPT4 > 天工 > ChatGPT3.5 。天工在面對(duì)中文類題目時(shí)表達(dá)能力不錯(cuò)，可以較好地理解中文問(wèn)題并給出相關(guān)答案。 ChatGPT3.5在理解問(wèn)題和給出答案方面表現(xiàn)也不錯(cuò)，但相較于 ChatGPT4 和天工，生成結(jié)果的流暢度和準(zhǔn)確性稍有欠缺。ChatGPT4表現(xiàn)最好，能夠更加準(zhǔn)確地理解問(wèn)題和生成相關(guān)內(nèi)容，輸出結(jié)果的流暢度和準(zhǔn)確性也更高。 4.“從這封電子郵件中提取收貨人姓名和地址：親愛(ài)的凱利，很高興在研討會(huì)上與您交談。我覺(jué)得簡(jiǎn)的演講很好，謝謝你要送我的書(shū)，這是我的地址 2111 Ash Lane, Crestview CA 92002。Best, Maya”。上圖天工中圖 ChatGPT3.5 下圖 ChatGPT4從本題結(jié)果來(lái)看，天工的表現(xiàn)好于 ChatGPT3.5 和 ChatGPT4。天工能夠準(zhǔn)確地識(shí)別并提取出郵件中的收貨人姓名而ChatGPT3.5 則識(shí)別錯(cuò)誤。

　　二、邏輯推理能力 1.“樹(shù)上有9只鳥(niǎo)，獵人開(kāi)槍打死1只，樹(shù)上還剩幾只鳥(niǎo)?” 上圖天工中圖 ChatGPT3.5 下圖 ChatGPT4 ChatGPT4 能夠準(zhǔn)確理解問(wèn)題并給出正確的答案，即樹(shù)上沒(méi)有鳥(niǎo)。ChatGPT4 理解了這是一個(gè)腦經(jīng)急轉(zhuǎn)彎或者需要聯(lián)合實(shí)際的題目，而另外兩款模型則沒(méi)有這種推理能力。 2.“假設(shè)False 與 True 是 False. 則True 與 not False 是？” 上圖天工中圖 ChatGPT3.5 下圖 ChatGPT4ChatGPT3.5 和 ChatGPT4 能夠理解問(wèn)題并給出正確的答案，即 True 與 not False 都是 True。而天工則出現(xiàn)了錯(cuò)誤的答案，這可能是因?yàn)樗鼪](méi)有很好地理解問(wèn)題中的邏輯關(guān)系，導(dǎo)致輸出結(jié)果與實(shí)際不符。 3.“爸爸媽媽結(jié)婚為什么沒(méi)有邀請(qǐng)我？” 上圖天工中圖 ChatGPT3.5 下圖 ChatGPT4ChatGPT4 能夠更好地理解問(wèn)題并給出比較合理的答案，而天工也能理解到這其實(shí)是一個(gè)玩笑。ChatGPT3.5 則一本正經(jīng)的胡說(shuō)。 4.“確定給定句子是否表明兩個(gè)事件之間存在因果關(guān)系、相關(guān)關(guān)系或中性關(guān)系。如果句子表示因果關(guān)系，則回答因果關(guān)系；如果句子表示相關(guān)關(guān)系，則回答相關(guān)；如果句子表示兩個(gè)事件之間既沒(méi)有因果關(guān)系也沒(méi)有相關(guān)關(guān)系，則回答中性。句子為：“如果你去過(guò)博物館，你就去過(guò)大英博物館?！? 上圖天工中圖 ChatGPT3.5 下圖 ChatGPT4 對(duì)于語(yǔ)言邏輯的推理，三者均能正確表達(dá)。

　　三、代碼分析能力 1.“使用C語(yǔ)言解決：輸入一行字符，分別統(tǒng)計(jì)出其中英文字母、空格、數(shù)字和其他字符的個(gè)數(shù)。提示：靈活使用getchar() 函數(shù)來(lái)按順序讀入所輸入字符串里面的各個(gè)字符?！? 上圖天工中圖 ChatGPT3.5 下圖 ChatGPT4 在給予了提示后二者均能正確完成這種基礎(chǔ)題目。 2.下面是一道經(jīng)典的力扣鏈表題：上圖天工下圖 ChatGPT3.5 這是一道基礎(chǔ)的鏈表類題目，而天工已經(jīng)無(wú)法正確解決。在代碼數(shù)據(jù)集上，坐擁 GitHub 的微軟聯(lián)合 OpenAI 的實(shí)力異常強(qiáng)大。 3.給定一個(gè)未排序的整數(shù)數(shù)組 nums ，找出數(shù)字連續(xù)的最長(zhǎng)序列（不要求序列元素在原數(shù)組中連續(xù)）的長(zhǎng)度。請(qǐng)你設(shè)計(jì)并實(shí)現(xiàn)時(shí)間復(fù)雜度為 O(n) 的算法解決此問(wèn)題。上圖天工下圖 ChatGPT3.5 與上一題相同，本題天工依舊回答錯(cuò)誤而 ChatGPT3.5 回答正確。

　　四、長(zhǎng)對(duì)話能力天工本次的宣傳重點(diǎn)就在于20+輪長(zhǎng)對(duì)話能力和超過(guò)1萬(wàn)字的記憶能力。而這也一直是除了 OpenAI 外的大模型的普遍痛點(diǎn)，即記憶能力不強(qiáng)。因此此次測(cè)試特此加入多輪對(duì)話的實(shí)測(cè)。我們首先讓他給出一個(gè)廢土風(fēng)格的科幻小說(shuō)框架：接著讓他給出主人公的設(shè)定：由于這個(gè)框架中沒(méi)有女性角色，我們讓他在原有的故事框架中添加女性角色：全篇超過(guò)了1800字，而天工并沒(méi)有丟失記憶。在目前的國(guó)產(chǎn)大模型中是效果最好的一檔。天工也印證了其宣傳的多輪對(duì)話能力。 總結(jié)

　　從上述評(píng)測(cè)結(jié)果來(lái)看，天工作為國(guó)產(chǎn)大語(yǔ)言模型，在中文語(yǔ)境和特定場(chǎng)景下表現(xiàn)出色，能夠理解和回答相關(guān)問(wèn)題。在語(yǔ)言生成能力方面，天工和ChatGPT3.5都表現(xiàn)得相對(duì)不錯(cuò)，尤其是在中文問(wèn)題上，天工的表現(xiàn)優(yōu)于ChatGPT3.5。然而，在邏輯推理、代碼分析和長(zhǎng)對(duì)話能力方面，天工與ChatGPT3.5和ChatGPT4相比仍有明顯差距。在邏輯推斷上，天工確實(shí)表現(xiàn)出了其宣稱的“涌現(xiàn)”現(xiàn)象，獲得了一定的邏輯推理能力。這是模型增大和引入 RLHF 的典型表現(xiàn)。其在算法積累和模型參數(shù)量擴(kuò)大上有一定的成效。但是天工的代碼能力確實(shí)顯著弱于ChatGPT3.5的能力。ChatGPT3.5可以出色的完成大部分的 leetcode 算法題并且可以一次通過(guò)。而天工生成的代碼一般都無(wú)法直接通過(guò)。這可能主要得益于微軟旗下的 GitHub 的龐大積累以及其提供的巨量代碼樣例。在天工自己宣傳的多輪對(duì)話和涌現(xiàn)現(xiàn)象來(lái)看，可以看到天工確實(shí)具備了一定的多輪對(duì)話能力。對(duì)于上下文的記憶能力當(dāng)前處于國(guó)內(nèi)領(lǐng)先水平。大語(yǔ)言模型的涌現(xiàn)現(xiàn)象，是指當(dāng)一個(gè)語(yǔ)言模型的規(guī)模（參數(shù)量、訓(xùn)練數(shù)據(jù)量、計(jì)算量等）達(dá)到一定的閾值時(shí)，它會(huì)表現(xiàn)出一些小規(guī)模模型所不具備的能力。例如在沒(méi)有額外訓(xùn)練或梯度更新的情況下，通過(guò)少量的示例或提示來(lái)完成各種下游任務(wù)。這種能力是難以預(yù)測(cè)和解釋的，因?yàn)樗环虾?jiǎn)單的伸縮法則，而是在某個(gè)臨界點(diǎn)發(fā)生了質(zhì)變。在目前來(lái)看，天工可能確實(shí)產(chǎn)生了涌現(xiàn)現(xiàn)象，極大提升了模型的能力并降低了模型對(duì)于定向數(shù)據(jù)的依賴。同時(shí)長(zhǎng)期記憶能力也賦予了模型更多的可能性。總體來(lái)說(shuō)，天工作為國(guó)內(nèi)大語(yǔ)言模型的代表，表現(xiàn)出了一定的競(jìng)爭(zhēng)力。在未來(lái)，天工在不斷優(yōu)化和改進(jìn)的過(guò)程中，有望在特定場(chǎng)景和應(yīng)用領(lǐng)域取得更好的成績(jī)。然而，要在全球范圍內(nèi)與頂級(jí)模型展開(kāi)競(jìng)爭(zhēng)，天工仍需在各個(gè)方面加強(qiáng)提升。

關(guān)鍵詞：

天工,模型,ChatGPT

審核：yj115 編輯:yj127

分享到：

免責(zé)聲明:

1：凡本網(wǎng)注明“來(lái)源：***”的作品，均是轉(zhuǎn)載自其他平臺(tái)，本網(wǎng)贏家財(cái)富網(wǎng) m.xfjyyzc.com 轉(zhuǎn)載文章為個(gè)人學(xué)習(xí)、研究或者欣賞傳播信息之目的，并不意味著贊同其觀點(diǎn)或其內(nèi)容的真實(shí)性已得到證實(shí)。全部作品僅代表作者本人的觀點(diǎn)，不代表本網(wǎng)站贏家財(cái)富網(wǎng)的觀點(diǎn)、看法及立場(chǎng)，文責(zé)作者自負(fù)。如因作品內(nèi)容、版權(quán)和其他問(wèn)題請(qǐng)與本站管理員聯(lián)系，請(qǐng)?jiān)?0日內(nèi)進(jìn)行，我們收到通知后會(huì)在3個(gè)工作日內(nèi)及時(shí)進(jìn)行處理。

2：本網(wǎng)站刊載的各類文章、廣告、訪問(wèn)者在本網(wǎng)站發(fā)表的觀點(diǎn)，以鏈接形式推薦的其他網(wǎng)站內(nèi)容，僅為提供更多信息供用戶參考使用或?yàn)閷W(xué)習(xí)交流的方便（本網(wǎng)有權(quán)刪除）。所提供的數(shù)據(jù)僅供參考，使用者務(wù)請(qǐng)核實(shí)，風(fēng)險(xiǎn)自負(fù)。

版權(quán)屬于贏家財(cái)富網(wǎng)，轉(zhuǎn)載請(qǐng)注明出處查看更多

下一篇: 創(chuàng)維汽車主打健康養(yǎng)生卻質(zhì)量存憂銷量欠佳，創(chuàng)維電視業(yè)務(wù)下滑明顯