OpenAl推出Sora模型一句話生成1分鐘視頻效果炸裂

2024-02-18 12:02:10

熙熙攘攘的人群中，有人在舞龍，舞龍動作相當絲滑標准還有人舉起手機拍攝，場景細節豐富、嚴謹。很難想象，這並不是真實場景，而是OpenAI的模型Sora以“中國龍年春節"為提示詞生成的視頻片段。

據OpenAI官網，OpenAI首個視頻生成模型Sora發布。Sori建立在過去對DALL·E和GPT模型的研究之上。它使用DALL·E 3的重述提示詞技術，為視覺訓練數據生成高度描述性的標注，因此能夠更忠實地遵循用戶的文本指令。

^{圖：OpenAI首個視頻生成模型Sora以“中國龍年春節"為提示詞生成的視頻片段顯得非常真實}

OpenAI表示，正在教AI理解和模擬運動中的物理世界，目標是訓練模型來幫助人們解決需要現實世界交互的問題。根據文本提示生成視頻，僅僅是整個計劃其中的一步。

除了能夠僅根據文本指令生成視頻之外，該模型還能夠獲取現有的靜態圖像並從中生成視頻，准確地讓圖像內容動起來並關注小細節。該模型還可以獲取現有視頻並對其進行擴展或填充缺失的幀。

該模型可以深度模擬真實物理世界，標志着人工智能在理解真實世界場景並與之互動的能力方面實現了重大飛躍。

OpenAI聲稱，Sora模型能夠生成包含多個角色、特定類型運動和主體及背景精確細節的復雜場景。該模型不僅能理解用戶在提示中所要求的內容，還能理解這些事物在現實世界中的存在方式。該模型對語言有深刻理解，能准確解讀提示，並生成表達豐富情感的引人入勝的角色。Sora還能在單個生成的視頻中創建多個鏡頭，使角色和視覺風格保持准確-致。對於任何需要制作視頻的藝術家、電影制片人或學生來說，這都帶來了無限可能。

Sora還可以在單個視頻中創建多個鏡頭，並依靠對語言的深入理解准確地解釋提示詞，保留角色和視覺風格。在官方博客中，OpenAI提供了很多 Sora生成的視頻示例，非常超現實。

OpenAI表示目前已交由Team Red(網絡安全演習中扮演敵人或競爭對手角色的群體)測試 Sora，評估潛在的危害或風險。此外，OpenAI還邀請了一支專業的創意人士測試，用於反饋其在專業環境中的實用性。0penAI計劃根據這些反饋意見改進 Sora，確保它能有效滿足用戶的需求。

Sora是能夠理解和模擬現實世界的模型的基礎，OpenAI相信這一功能將成為實現AGI的重要裏程碑。但Sora當前也存在弱點，OpenAI表示，模型在准確模擬復雜場景的物理特性方面可能會遇到困難，也可能無法理解具體的因果關系實例。例如“五只灰狼幼崽在一條偏僻的碎石路上互相嬉戲、追逐”，狼的數量會變化，一些憑空出現或消失。

此外，模型還可能會混淆提示的空間細節，例如左右不分，並且在處理隨時間發生的事件的精確描述方面也可能存在困難，比如跟蹤特定的攝像機軌跡。

新技術的出現將重塑視頻行業。制作一部專業電影需要大量的昂貴設備。這個模型將讓普通人在社交媒體上制作出高質量的視頻內容成為可能。