OpenAI 推出文字到視訊人工智慧模型Sora
OpenAI 正在推出一個新的影片生成模型,它的名字叫Sora。這家人工智慧公司稱,Sora”可以根據文字說明創建逼真而富有想像力的場景」。文字轉影片模式可讓使用者根據自己編寫的提示創建長達一分鐘的逼真影片。
根據OpenAI 的介紹博文,Sora 能夠創建”具有多個角色、特定運動類型以及主體和背景準確細節的複雜場景”。該公司還指出,該模型能夠理解物體”在物理世界中的存在方式”,還能”準確解釋道具並生成表達生動情感的引人注目的角色”。
該模型還能根據靜態圖像生成視頻,以及在現有視頻中填充缺少的幀或擴展視頻。OpenAI 的部落格文章中包含的Sora 產生的示範包括淘金熱時期加州的空中場景、從東京火車內部拍攝的影片等。許多演示都有人工智慧的痕跡–例如在一段博物館的影片中,地板疑似在移動。OpenAI 表示,該模型”可能難以準確模擬複雜場景的物理現象”,但總體而言,演示結果令人印象深刻。
幾年前,像Midjourney 這樣的文字到圖像生成器在模型將文字轉換為圖像的能力方面處於領先地位。但最近,視訊技術開始飛速進步:Runway 和Pika 等公司都展示了自己令人印象深刻的文字轉視頻模型,而Google的Lumiere 也將成為OpenAI 在這一領域的主要競爭對手之一。與Sora 類似,Lumiere 也為用戶提供了文字轉換影片的工具,也能讓用戶透過靜態影像創建影片。
Sora 目前只對”紅隊”人員開放,他們負責評估模型的潛在危害和風險。OpenAI 也向一些視覺藝術家、設計師和電影製片人提供存取權限,以獲得回饋意見。它指出,現有模型可能無法準確模擬複雜場景的物理現象,也可能無法正確解釋某些因果關係。
本月早些時候,OpenAI 宣布將在其文字到圖像工具DALL-E 3 中添加水印,但指出這些水印”很容易去除”。與其他人工智慧產品一樣,OpenAI 將不得不面對人工智慧逼真影片被誤認為是真實影片的後果。