OpenAI發(fā)布的人工智能文生視頻大模型Sora
摘要: Sora,OpenAI發(fā)布的人工智能文生視頻大模型(但OpenAI并未單純將其視為視頻模型,而是作為“世界模擬器”),于2024年2月15日(美國當?shù)貢r間)正式對外發(fā)布,出色的視頻制作能力瞬間“點燃”科技圈。英偉達人工智能研究院首席研究科學(xué)家Jim Fan直言,這是視頻生成領(lǐng)域的GPT-3時刻。
Sora,OpenAI發(fā)布的人工智能文生視頻大模型(但OpenAI并未單純將其視為視頻模型,而是作為“世界模擬器”),于2024年2月15日(美國當?shù)貢r間)正式對外發(fā)布,出色的視頻制作能力瞬間“點燃”科技圈。英偉達人工智能研究院首席研究科學(xué)家Jim Fan直言,這是視頻生成領(lǐng)域的GPT-3時刻。根據(jù)360集團創(chuàng)始人、董事長周鴻祎微博稱,隨著Sora的到來,人類離AGI真的就不遠了,不是10年、20年的問題,可能一兩年很快就可以實現(xiàn)。
Sora繼承了DALL-E 3的畫質(zhì)和遵循指令能力,可以根據(jù)用戶的文本提示創(chuàng)建逼真的視頻 ,該模型可以深度模擬真實物理世界,能生成具有多個角色、包含特定運動的復(fù)雜場景,能理解用戶在提示中提出的要求,還了解這些物體在物理世界中的存在方式 。
OpenAI在大模型領(lǐng)域的成功
2022年底,OpenAI正式推出ChatGPT,這款由人工智能技術(shù)驅(qū)動的自然語言處理工具能夠通過學(xué)習(xí)和理解人類的語言來進行對話 。ChatGPT是OpenAI邁出的第一步,這款讓所有人都能體會到人工智能潛力的現(xiàn)象級產(chǎn)品,展現(xiàn)出了文字對于過去人工智能的理解力和邏輯能力的超越。隨后,OpenAI的開發(fā)重點逐步過渡到圖像的生成,Dall-E模型在生成圖像方面也獲得了重大突破
視覺算法近年來的突破在泛化性、可提示性、生成質(zhì)量和穩(wěn)定性等方面均取得了進展,這預(yù)示著技術(shù)拐點的臨近以及爆款應(yīng)用的涌現(xiàn)。特別是在3D資產(chǎn)生成和視頻生成領(lǐng)域,由于擴散算法的成熟,這些領(lǐng)域受益匪淺。然而,與圖像生成相比,3D資產(chǎn)和視頻生成在數(shù)據(jù)和算法方面面臨的難點更多。
Sora可以快速制作最長一分鐘、準確反映用戶提示、可一鏡到底的視頻 (其他AI視頻工具還在突破幾秒內(nèi)的連貫性 ),視頻可以呈現(xiàn)“具有多個角色、特定類型的動作、以及主題和背景的準確細節(jié)的復(fù)雜場景” 。
靜態(tài)圖生成視頻
Sora還具備根據(jù)靜態(tài)圖像生成視頻的能力,能夠讓圖像內(nèi)容動起來,并關(guān)注細節(jié)部分,使得生成的視頻更加生動逼真,這一功能在動畫制作、廣告設(shè)計等領(lǐng)域具有應(yīng)用前景 。
視頻擴展與缺失幀填充
Sora能夠獲取現(xiàn)有視頻并對其進行擴展或填充缺失的幀,這一功能在視頻編輯、電影特效等領(lǐng)域具有應(yīng)用前景,可以幫助用戶快速完成視頻內(nèi)容的補充和完善 。
連接視頻
可以使用Sora連接兩個輸入視頻,在具有完全不同主題和場景組成的視頻之間實現(xiàn)無縫過渡。
本文資料搜集來源于互聯(lián)網(wǎng)公開資料,內(nèi)容可能有缺失不全歡迎指正。
Sora,人工智能,OpenAI






