微軟(MSFT)推出全能型人工智能模型Kosmos-1 可處理文本、音頻、圖像和視頻等內(nèi)容
摘要: 據(jù)中證網(wǎng),近日微軟(MSFT)推出全能型人工智能模型——Kosmos-1。與局限于文本內(nèi)容的ChatGPT(LLM)相比,Kosmos-1屬于多模式大型語(yǔ)言模型(MLLM),
據(jù)中證網(wǎng),近日微軟(MSFT)推出全能型人工智能模型——Kosmos-1。與局限于文本內(nèi)容的ChatGPT(LLM)相比,Kosmos-1屬于多模式大型語(yǔ)言模型(MLLM),可以像人類思維一樣來(lái)處理文本、音頻、圖像和視頻等內(nèi)容。

據(jù)悉,微軟表示,用于訓(xùn)練Kosmos-1的數(shù)據(jù)同樣源自網(wǎng)絡(luò),同時(shí)為了讓Kosmos-1能進(jìn)一步理解圖像內(nèi)容,研究人員通過(guò)事先將圖像以文字內(nèi)容加上大量標(biāo)記,讓此大型語(yǔ)言模型可以進(jìn)一步理解圖像內(nèi)容,以實(shí)現(xiàn)多模式大型語(yǔ)言模式。加入圖像內(nèi)容理解能力之后,將有助于Kosmos-1識(shí)別文字以外的圖像內(nèi)容,甚至進(jìn)一步判斷動(dòng)態(tài)視頻描述內(nèi)容。
在進(jìn)一步朝多模式大型語(yǔ)言模型發(fā)展后,微軟預(yù)期將能在全能型的人工智能技術(shù)發(fā)展邁進(jìn)一大步,不再讓現(xiàn)有人工智能局限對(duì)應(yīng)特定領(lǐng)域應(yīng)用發(fā)展。
Kosmos,圖像,模型






