率先完成DeepSeek-R1適配!萬興科技鞏固數(shù)字創(chuàng)意軟件龍頭地位
摘要: 在當(dāng)下,多模態(tài)融合已成為AI領(lǐng)域的高確定性趨勢。這一趨勢的形成,與大語言模型的局限性密切相關(guān)。盡管大語言模型在自然語言處理方面取得了顯著進(jìn)展,但在面對(duì)復(fù)雜多樣的現(xiàn)實(shí)世界數(shù)據(jù)時(shí),其短板逐漸顯現(xiàn)。
在當(dāng)下,多模態(tài)融合已成為 AI 領(lǐng)域的高確定性趨勢。這一趨勢的形成,與大語言模型的局限性密切相關(guān)。盡管大語言模型在自然語言處理方面取得了顯著進(jìn)展,但在面對(duì)復(fù)雜多樣的現(xiàn)實(shí)世界數(shù)據(jù)時(shí),其短板逐漸顯現(xiàn)。
為了突破大語言模型的局限,多模態(tài)融合技術(shù)應(yīng)運(yùn)而生。所謂多模態(tài),簡單來說,就是AI能夠同時(shí)處理和理解來自不同來源的信息,比如文本、圖像、聲音、視頻等。值得注意的是在DeepSeek-R1爆火之后,DeepSeek緊接著在北京時(shí)間1月28日凌晨,于GitHub平臺(tái)發(fā)布了Janus-Pro多模態(tài)大模型,進(jìn)軍文生圖領(lǐng)域,這說明多模態(tài)發(fā)展是行業(yè)的大趨勢。
多模態(tài)AI應(yīng)用市場未來增長或?qū)崿F(xiàn)五年五倍
而通過多模態(tài)融合技術(shù)還可以讓 AI 系統(tǒng)能夠像人類一樣,從多個(gè)維度感知和理解世界。例如,當(dāng)我們向多模態(tài)AI 描述 “一只在花叢中飛舞的蝴蝶”時(shí),多模態(tài) AI 不僅能理解文本含義,還能生成對(duì)應(yīng)的生動(dòng)圖像,甚至模擬出蝴蝶飛舞時(shí)的輕柔音效。
因此,多模態(tài)融合技術(shù)的應(yīng)用場景極為廣泛。在教育領(lǐng)域,它能為學(xué)生打造個(gè)性化的學(xué)習(xí)體驗(yàn),結(jié)合文本講解、圖像演示和音頻講解,讓知識(shí)傳授更加生動(dòng)形象;在娛樂行業(yè),可實(shí)現(xiàn)更逼真的虛擬角色互動(dòng),虛擬偶像不僅能與用戶流暢對(duì)話,其表情和動(dòng)作也能與對(duì)話內(nèi)容完美匹配;在智能家居中,用戶通過語音指令,結(jié)合手勢或面部識(shí)別,就能輕松控制家電設(shè)備,為生活帶來極大便利。
市場空間上,根據(jù)全球性市場研究和咨詢公司 Omdia的研究報(bào)告顯示,多模態(tài)市場AI將在五年內(nèi)增長五倍,從 2024 年的 146 億美元(1060 億元人民幣左右)增長到 2029 年的 728 億美元(5300億元人民幣左右)。
多模態(tài)AI海外代表企業(yè):OpenAI、谷歌
面對(duì)廣闊的市場空間,國內(nèi)外有許多公司都在布局相關(guān)領(lǐng)域。在海外市場上,代表企業(yè)是OpenAI和谷歌。
OpenAI方面,其旗下Sora 的出現(xiàn)意義重大,是視頻生成領(lǐng)域的一個(gè)重要轉(zhuǎn)折點(diǎn)。Sora 展示了利用 DiT 可擴(kuò)展架構(gòu)的有效性,吸引了全球同行們快速跟進(jìn),推動(dòng)視頻生成從學(xué)術(shù)研究到工業(yè)級(jí)應(yīng)用的重大跨越。
谷歌方面,2024年12月,谷歌發(fā)布了全新多模態(tài)大模型——Gemini 2.0,被稱為“迄今為止谷歌最強(qiáng)大的AI模型”。與1.0版本相比,Gemini 2.0在多模態(tài)能力上實(shí)現(xiàn)了突破,支持圖像和音頻輸出,并增強(qiáng)了工具使用能力,這將推動(dòng)谷歌構(gòu)建新的AI智能體,進(jìn)一步實(shí)現(xiàn)“通用助手”的愿景。
多模態(tài)AI國內(nèi)代表企業(yè):萬興科技

對(duì)于國內(nèi)投資者而言,可能更關(guān)注的是國內(nèi)企業(yè)。在一眾相關(guān)企業(yè)中,筆者認(rèn)為萬興科技(300624.SZ)或許有望成為行業(yè)代表者。
這一判斷的依據(jù)首先在于其足夠聚焦,有稀缺優(yōu)勢。正所謂專業(yè)的人做專業(yè)的事,雖然國內(nèi)做文生視頻模型的企業(yè)有很多,但是專注于做創(chuàng)意類音視頻模型及AI應(yīng)用的A股上市企業(yè)屈指可數(shù)。萬興科技此前推出了國內(nèi)首個(gè)音視頻多媒體大模型萬興“天幕”,涵蓋語言、音頻、圖像、視頻等多模態(tài)能力。同時(shí),萬興科技構(gòu)建了一個(gè)矩陣式的數(shù)字創(chuàng)意軟件產(chǎn)品創(chuàng)新平臺(tái),從技術(shù)、營銷到管理賦能,較為全面地支持創(chuàng)作者。因此,萬興科技在業(yè)內(nèi)具有一定的稀缺性。
第二個(gè)依據(jù)是萬興科技的先發(fā)優(yōu)勢。在日新月異的AI行業(yè),誰能率先做出改變,誰就能搶占先機(jī)。面對(duì)DeepSeek帶來的行業(yè)變化,萬興科技率先做出改變。具體來看,2月4日,萬興科技率先完成深度求索(DeepSeek)最新推理大模型DeepSeek-R1的深入適配,旗下視頻創(chuàng)意、繪圖創(chuàng)意及文檔創(chuàng)意軟件業(yè)務(wù)產(chǎn)品,諸如萬興喵影、億圖圖示、億圖腦圖MindMaster、萬興PDF等均已融合DeepSeek-R1大模型相關(guān)能力。
第三個(gè)依據(jù)是萬興科技的價(jià)值優(yōu)勢。公司的產(chǎn)品抓住了用戶痛點(diǎn)、實(shí)實(shí)在在地為客戶創(chuàng)造價(jià)值。以公司旗下產(chǎn)品萬興播爆為例,其就是洞察到跨境營銷視頻制作外籍演員難找、多語言難適配、視頻制作周期長成本高等痛點(diǎn)而推出,大幅縮短了制作周期,降低了制作成本和門檻。而產(chǎn)品好不好用戶數(shù)量最有發(fā)言權(quán),公開資料顯示,萬興科技業(yè)務(wù)已覆蓋全球200多個(gè)國家和地區(qū),累計(jì)用戶數(shù)超15億。
第四個(gè)依據(jù)是萬興科技的數(shù)據(jù)優(yōu)勢。目前包括Sora、MidJourney等在內(nèi)的大部分視頻/圖像生成模型,都主要是以海外數(shù)據(jù)進(jìn)行訓(xùn)練,對(duì)中國元素的生成仍舊不盡如人意。而萬興“天幕”大模型依托大量本土化數(shù)據(jù),能夠更好地理解和生成符合用戶期望的音視頻內(nèi)容,滿足本土內(nèi)容創(chuàng)作的需求。
對(duì)于公司的行業(yè)地位和未來,機(jī)構(gòu)們也表達(dá)了看好。例如,平安證券指出公司深耕視頻創(chuàng)意與數(shù)字辦公業(yè)務(wù),產(chǎn)品線對(duì)標(biāo)全球創(chuàng)意軟件巨頭,同時(shí)面對(duì)當(dāng)下AIGC多模態(tài)領(lǐng)域的機(jī)遇,公司持續(xù)加深核心產(chǎn)品智能化,多款產(chǎn)品在業(yè)內(nèi)率先實(shí)現(xiàn)AI應(yīng)用落地,將為公司后續(xù)業(yè)務(wù)增長奠定基礎(chǔ)。
多模態(tài),AI,模型






