Sora團隊罕見專訪:短期內不會對外開放目前還不是一個產品
最近,Sora 團隊三位負責人露面,接受了科技部落客@MKBHD 約16 分鐘的專訪。整個影片掐頭去尾,再除去想詞和提問的時間,透露的資訊並不多,還迴避了訓練資料之類的敏感問題。
或許因為沒有採訪經驗,他們盯著鏡頭,坐姿有些拘束,YouTube 網友評價:OpenAI 的採訪給人的感覺,就像旁邊有個拿著槍的律師。
訪談得到最明確的訊息是,Sora 短期內不會對外開放。
另外,他們也談到了Sora 的原理、優缺點、發展路線、安全問題,以及對創造力的影響。
但無論如何,這都是在外界眾說紛紜和等待Sora 之時,OpenAI 公開表達態度的一次採訪,值得一看。
Q:科技部落客@MKBHD
A:三位OpenAI 團隊成員
Bill Peebles,OpenAI 研究科學家,Sora 負責人。
Tim Brooks,OpenAI 研究科學家,Sora 負責人。
Aditya Ramesh,OpenAI 影像生成模型DALL·E 開發者,Sora 負責人。
Q:簡單解釋一下Sora 的工作原理?
A:總的來說,Sora 是一個生成模型。
這幾年面世的生成模型很多,包括GPT 等語言模型,DALL·E 等圖像生成模型,而Sora 是視頻生成模型,透過大量的視頻數據,學習生成逼真的現實世界和數位世界視頻。
Sora 的工作方式,借鑒了類似DALL·E 的基於擴散的模型,以及類似GPT 系列的大語言模型,但介於兩者之間,像DALL·E 那樣被訓練,在架構上更像GPT 系列。
Q:Sora 是基於什麼訓練的?
A:這個我們不能透露太多,只能說基於公開可用的數據以及OpenAI 已經獲得許可的數據。
Sora 在訓練方面有一項創新,能在不同時長、寬高比、解析度的影片上訓練。以前訓練圖像或影片生成模型時,素材的尺寸通常是非常固定的,例如只有一個解析度。
但我們將所有寬高比、時間長短、高分辨率、低分辨率的圖像和視頻,全部變成叫作補丁(patch)的小塊,然後根據輸入的大小,在不同數量補丁(patch)的影片上訓練模型。
這樣一來,我們的模型非常靈活,既能在更廣泛的資料上訓練,也能用於產生不同解析度和大小的內容。
Sora 可以取樣1920×1080、1080×1920 以及介於兩者之間的所有影片.
Q:現階段的Sora 在創作上的優點和缺點是什麼?
A:Sora 的逼真度,以及1 分鐘的時長,都是巨大的進步,但有些地方還不夠好。
一般來說,手還是一個痛點。
Sora 可能生成六根手指.
另外還有一些物理上的問題,例如3D 列印機的例子。
Sora 沒懂3D 列印機,也沒理解縮時攝影.
如果要求提得更加具體,像是隨時間變化的運動和攝影機軌跡,對Sora 來說也有困難。
(編按:訪談者@MKBHD 也在X 分享了他的觀點。
1.Sora 往往無法處理好步行等動作,雙腿經常交叉並相互融合。
2.Sora 產生的商品與現實生活不完全相符,汽車、相機等無法辨識為特定型號。
3.Sora 的燈光和陰影效果有時候很自然。
4.Sora可以很寫實,體現光線和反射,甚至特寫和紋理,也可以要求Sora 生成具體的拍攝風格,例如35 毫米膠片,或背景模糊的數位單眼相機,體現對焦的效果。)
Q:但這些影片都沒有聲音,加入聲音很難嗎,你們計畫什麼時候在AI 生成的影片裡加入AI 生成的聲音?
A:很難給出一個確切的時間,初代的Sora 就是一個影片生成模型,我們的重點在於改進影片生成的能力。
在Sora 之前,很多AI 生成的視頻,只有4 秒鐘,幀率很低,質量不是很好,目前來講,視頻生成仍然是我們努力的主要方向。
當然,加入其他類型的內容會使影片更加沉浸,這也是我們正在考慮的事情。
有人用ElevenLabs 等音訊工具和剪輯工具,讓Sora 視訊更有電影感.
Q:你們怎麼判斷Sora 到達一個臨界點,你們能夠掌控它,知道怎麼改進它,也準備好把它分享出來?
A:Sora 還沒準備好。
我們以部落格文章形式發布Sora(並提供部分訪問權限),就是為了獲得反饋,了解它對人類有什麼用,還需要做哪些工作保證安全,我們也在聽取藝術家的意見,看看Sora 怎麼在工作流發光發熱,從而指引我們的研究路線。
但Sora 目前不是產品,在ChatGPT 或其他地方都不可用,我們甚至還沒有將其轉化為產品的時間表,現在就是一個獲取回饋的階段。
我們肯定會改進它,但應該如何改進它,還是一個等待解答的、開放的問題。
Q:目前你們聽到了什麼有趣的回饋?
A:我們收到了一個重要的回饋,人們希望能更細節地控制Sora,不想只是藉助一個較短的提示詞,而是更好地控制生成的內容,這很有趣,也會是我們研究的一個方向。
Q:未來有沒有這樣的可能,Sora 生成一個與普通視頻無法區分的視頻,就像DALL·E 製作逼真的圖片?
A:這確實是可能的,當然,當我們快要接近時,必須小心謹慎,確保相關的功能不被用來傳播虛假訊息。
現在人們刷社群媒體時,已經在擔心看到的影片是真的還是假的,是否來自權威的信源。
Q:Sora 生成的影片在底部角落有一個浮水印,但這樣的水印可以被裁掉,你們是否考慮了其他方法,簡單地識別AI 生成的影片?
A:是的,對於DALL·E 3,我們訓練了可以辨識影像是否由模型產生的溯源分類器(provenance classifier),我們也將讓這項技術適用於Sora 產生的影片。不過,這還不是一個全面的解決方案,只是第一步而已。
(編按:DALL·E 3 官網顯示,「溯源分類器」還在內測,OpenAI 稱,如果圖片從未修改,判斷是否由DALL·E 生成的準確率超過99%,如果經過裁剪、壓縮、疊加文字或圖像等修改,準確率仍在95% 以上。)
Q:這是否有點像是元資料或嵌入式的標誌?
A:C2PA(Adobe、微軟等發起的技術協議,在媒體檔案中嵌入元數據,驗證其來源和修改歷史)是這樣的。但我們訓練的分類器可以在任何圖像或影片上運行,並判斷某個內容是否由我們的模型之一生成。
C2PA 的圖示“CR”,滑鼠懸停時會出現詳細資訊.
Q:Sora 官方宣布後,有人說這太酷了、太神奇了,也有人覺得害怕,工作岌岌可危了。對於大眾的這些反應,你們又有什麼反應?
A:焦慮肯定是存在的。
關於接下來會發生什麼,我們的使命是確保這項技術安全地部署,並負起相關的責任。
同時,也有很多新的機會。例如,如果一個人有製作電影的想法,但拿到投資真正地製作電影很難,因為製作公司必須衡量預算和風險,而AI 可以極大地降低從產生創意到完成視頻的成本,這很酷。
Q:我現在用DALL·E 腦力激盪、製作影片縮圖,Sora 應該也有許多類似的工具化用途。但Sora 還處於測試階段,它會不會盡快對外開放?
A:不會很快。
Sora 提示:一隻中等體型、看起來很友善的狗走過工業停車場。環境多霧、多雲。以35mm 底片拍攝,色彩鮮豔.
Q:相較於照片,影片有時間、物理、反射、聲音等更多的維度和變數。在更遠的未來,當Sora 製作出有聲音的、完美寫實的五分鐘YouTube 影片時,AI 生成媒體的下一個發展方向會是什麼?
A:其實更讓我們興奮的是,AI 工具的使用,如何促進創造全新的內容。
我們往往很容易想像,AI 工具如何被用來創造現有的東西,但當新工具到最有創意的人手中,我們才能知道他們如何使用工具,創造的事物會是什麼樣子,或許是當前不可能的、想像不到的、全新的體驗。
透過製作新的工具,讓真正有創意的人推動創意的邊界,是非常令人興奮的,也是我們一直以來的動力。
Q:讓Sora 更有創意的方式,是透過更好的提示詞嗎?
A:Sora 還有其他特別酷的提示方式,而不僅僅是基於文字的提示。
我們發布的Sora 技術報告中有一個範例,展示了兩個輸入影片如何融合,左邊的影片是無人機穿過鬥獸場,右邊的影片是蝴蝶在水下的珊瑚礁游泳,而融合的影片是,其中的一個過渡時刻,鬥獸場開始腐爛,部分埋入水下被珊瑚礁覆蓋,無人機變成了蝴蝶。
這種生成視頻,與使用舊技術製作的內容相比,確實給人眼前一亮的感覺。
所以,我們對於創作這類事物的興奮感超越了提示詞的範疇,人們可以用像Sora 這樣的技術產生新的體驗。
某種程度上可以說,我們將「建模現實」視為「超越現實」的第一步。
Q:這很有趣,Sora 模擬現實的能力越強,我們也能夠更快地在其基礎上構建,將它作為一個工具,解鎖新的創造可能。關於Sora 和OpenAI,你們還有什麼想分享的嗎?
A:讓我們興奮的另一件事是,如何讓AI 從影片資料中學習,發揮更多的作用,而不僅僅是創作影片。
在我們生活的世界,觀察事物就像觀看視頻,很多信息不能用文本表達,雖然像GPT 這樣的模型非常聰明,對世界已經了解很多,但如果它們無法像我們一樣以視覺方式看待世界,就會缺失一些資訊。
所以我們希望Sora 和未來在Sora 基礎上建立的其他AI 模型,從關於世界的視覺數據中學習,更好地理解我們所處的世界和其中的事物,然後更好地幫助人類。