OpenAI Sora負責人專訪:20個問題深入研發細節Sora仍是GPT-1時期
AI生成影片不僅是影像產生器的升級,更是邁向AGI(通用人工智慧)的關鍵一步。在”No Priors”節目中,Sora團隊負責人Aditya Ramesh、Tim Brooks和Bill Peebles與主持人一起討論了OpenAI最近宣布的生成式視頻模型——Sora。該模型能夠根據文字提示產生真實、視覺連貫且高清的影片片段,最長可達一分鐘。
訪談中,三位負責人探討Sora的開發過程,並就其潛在應用,如教育、娛樂、數位化身分等闡述各自的觀點。但目前團隊的重點仍在於技術的基礎開發,而不是特定的下游應用。 Brooks表示,雖然包括數位化身在內的想法很有意義,但團隊目前尚未探索這個問題。Brooks認為,Sora仍舊處於AI視訊模型的GPT-1時代。
此外,Ramesh談到,Sora的視覺美感引人注目,但其美學並未深深嵌入模型中。在安全性方面,Sora也面臨錯誤訊息和攻擊性文字生成等挑戰。對此,他們將在確保模型為使用者提供實際價值的同時,採取一切可能的安全措施,防止產生深度偽造內容和誤導資訊。同時,逐步開放技術,尊重用戶自由表達的權利。
Peebles則討論如何使這項技術更廣泛地普及,包括降低成本和處理可能出現的錯誤訊息和相關風險。 Peebles提到,作為數據網路(DN)的一部分,團隊必須考慮安全因素,並積極採取措施應對相關風險。而這些,已經成為團隊研究道路上的重要任務之一。
以下是Sora團隊負責人專訪中的20個問答,為方便閱讀,部分問題及回答在盡可能不違背原意的前提下進行了處理:
1.從文字到視頻,從AI到AGI的轉換,你們是如何開始研究這個領域的呢?
Peebles:我們堅信像Sora這樣的模型確實是實現AGI的關鍵步驟。我們認為一個很好的例子是一群人在東京的冬天穿行的場景,這是一個極其複雜的環境。在這種情況下,你可以想像一台攝影機飛過場景,許多人相互交流、說話、手牽手,以及附近的商販。這個範例說明了Sora如何在神經網路權重範圍內建模極其複雜的環境和世界。
要產生真正逼真的視頻,必須學習人們的工作方式、互動方式以及最終的思考過程。這不僅包括人類,還包括動物和其他需要建模的物體。因此,隨著我們繼續擴大像Sora這樣的模型,我相信我們將能建造類似世界模擬器的東西。
這意味著任何人都可以與其中的人物互動,我作為一個個體可以運行自己的模擬器,與模擬器中的人物互動。這種互動是通往AGI的路徑之一。隨著我們未來擴大Sora的規模,我們將會看見AGI的實現。
2.在更廣泛地使用Sora之前,你需要進行哪些工作?
Brooks:我們真的希望能與OpenAI以外的人交流,並思考Sora將如何影響世界,以及它如何為人們提供幫助。目前,我們沒有製定產品的即時計劃,甚至沒有客製化產品明確的時間表。但我們正在採取行動,向一群小藝術家和紅隊成員提供對Sora的訪問權限,開始探索它可能產生的影響。
我們收到了藝術家的回饋,了解如何讓Sora成為對他們最有用的工具。我們也收到了紅隊成員的回饋,幫助我們確保安全,並考慮如何向公眾展示它。這些回饋將為我們未來的研究制定路線圖,並指導我們是否最終推出該產品,以及具體的時間表。
3.可以分享一下你得到的回饋嗎?
Ramesh:我們已經向一小部分藝術家和創作者開放了對Sora的訪問權限,以獲得早期回饋。我們認為最重要的是可控性。目前模型僅接受文字作為輸入。儘管這項功能已經相當有用,但它仍然受限於需要精確描述你想要的內容。因此,我們正在考慮如何在未來擴展模型的功能,以便接受文字以外的輸入。
4、你們有沒有看見藝術家或其他人用它製作的最喜歡的東西,或者最喜歡的視頻,亦或你覺得鼓舞人心的事物?
Brooks:看到藝術家們如何運用這個模型真是太神奇了。我們對一些事情有自己的想法,但那些以製作創意內容為職業的人非常有創造力。例如,Shy Kids製作了一個非常酷的視頻,他們製作了短篇故事Airhead,這個角色有一個氣球,他們很喜歡這個故事。看到Sora能夠解鎖並讓這個故事更容易講述,簡直太酷了。我認為這與Sora製作某個特定剪輯或影片無關,更多的是這些藝術家想要講述並能夠分享這個故事,而Sora可以幫助實現這一點。
Peebles:我個人最喜歡的樣本是我們創作的Bling Zoo。在我們推出Sora那天,我在Twitter上發布了它。它本質上就是紐約動物園的多鏡頭場景,也是珠寶店。你可以看到劍齒虎在這個閃閃發光的環境中彷彿成了裝飾品,這非常超現實。
我喜歡這些樣本,因為作為一個喜歡創造內容但實際上沒有創作技能的人,透過操作這個模型,我很容易就能產生一大堆想法,並最終得到一些很棒的作品。而且,實際生成所需的時間相比於透過迭代提示生成內容而言要少得多。
因此,對我來說,操作這個模型非常有趣,並從中獲得想要的東西。我很高興看到藝術家們也喜歡使用這個模型,並從中獲得創造性的靈感。
5、我們何時能夠看到Sora或其他模型產生的實際內容,這些內容由專業人士製作,並成為更廣泛媒體類型的一部分?
Brooks:好問題。我對確切時間線沒有預測,但我對此非常感興趣,那就是除了傳統電影之外,人們可能會將其用於什麼。在未來幾年裡,我們或許會看到人們製作越來越多的電影,但我認為人們也會找到使用這些模型的全新方式,這些方式與我們習慣的當前媒體完全不同。當你告訴這些模型你希望看到什麼,並且它們能夠以一種非常不同的方式回應時,這就構成了一個非常不同的範式。
也許會出現一種全新的互動模式,類似真正富有創意的藝術家與內容互動的方式。所以,我對人們將要嘗試的全新創意感到非常興奮。這真的很有趣,因為與我們目前擁有的不同。
6.當你考慮這個世界模擬模型的功能時,你認為它會成為模擬的實體引擎嗎?人們實際上正在模擬風洞?它是機器人技術的基礎嗎?
Peebles:我認為你說到重點了。對於像機器人這樣的應用,你可以從影片中學到很多你不一定能從其他模式中學到的東西,就像OpenAI等公司過去投入了大量資金在這方面,如語言,手臂和關節在空間中移動的方式等類似的細節。
回到東京的那個場景,你可以觀察到腿部是如何移動以及它們如何以物理上準確的方式與地面接觸。因此,在訓練中可以學到很多關於物理世界的知識。我們認為原始影片對於諸如物理體現之類的事情的發展至關重要。
7.你能為廣大技術受眾解釋一下什麼是擴散Transformer嗎?
Brooks:Sora建立OpenAI的DALL-E模型和GPT模型的研究之上。擴散是一種資料生成過程,以我們的案例為例,即視訊生成。這個過程從噪音開始,透過反覆多次去除噪音,直到最終去除了足夠的噪音,只產生一個樣本。這就是我們生成影片的過程。我們從一段有噪音的影片開始,逐步去除噪音。
從架構角度來看,我們的模型必須是可擴展的,它們需要能夠從大量資料中學習,並理解影片中那些非常複雜且具有挑戰性的關係,這一點至關重要。因此,我們採用了一種類似GPT模型的架構,稱為Transformer。我們甚至發布了一份關於Sora的技術報告,展示了在使用較少、中等和更多的計算量時,從同一提示中獲得的結果。
我們認為,隨著我們不斷增加運算資源和數據,我們將不斷改進這些模型,使它們能夠勝任更多的任務,例如更好的模擬和更長期的生成。
8.你可以跟我們解釋一下這種模型的縮放定律是什麼嗎?
Peebles:這是一個很好的問題。正如Tim所提到的,使用Transformer的一個優點是,可以繼承我們在其他領域,例如語言中看到的所有優秀特性。因此,你可以開始提出視訊而不是語言的縮放法則。
這是我們團隊正在積極研究的事情,我們不僅在建立模型,還使其變得更好。這意味著,我可以透過使用相同的訓練計算量,在不從根本上增加所需計算量的情況下,獲得更好的結果。這些是我們研究團隊每天都在解決的問題之一,以推動Sora和未來模式的發展。
9.在這個領域應用Transformer的問題之一就是標記化。還有,這個名字是誰想出來的呢?但像時空補丁那樣科幻的名字真的很棒,你能解釋一下它是什麼以及為什麼它與此相關嗎?
Brooks:我不認為我們創造了這個名字,它更像是一個描述性的術語。 LLM範式的關鍵成功之一就是token的概念。當你瀏覽網路時,你會發現各種各樣的文字數據,包括書籍、程式碼、數學等。語言模型的妙處在於它們有token這個單一概念,使得它們能夠在如此廣泛的資料上進行訓練。然而,在過去,視覺生成模型缺乏類似的概念。因此,在Sora之前,你會在256×256解析度的影像或256×256的影片上訓練影像生成模型或影片生成模型,而這些影片正好四秒長。
因此,在Sora中,我們引入了「時空補丁」的概念。你可以把它想像成數據的表示方式,存在於圖像和長視頻中,就像一個高度堆疊的垂直視頻,你可以從中提取立方體。因此,Sora不僅可以產生720P解析度的視頻,還可以產生垂直視頻、寬螢幕視頻,甚至可以產生影像。這使得Sora成為第一個具有廣度的視覺內容生成模型,就像語言模型具有廣度一樣。這就是我們朝著這個方向邁進的真正原因。
8、如何將端到端深度學習應用於影片?
Brooks:在Sora之前,許多處理影片的模型實際上都在考慮擴展影像生成模型,並在影像生成方面取得了許多進展。許多人一直在嘗試使用圖像生成器並對其進行一些擴展,以便製作一些持續時間較長的視頻,而不僅僅是一張靜態圖像。
但對Sora來說,真正重要的是架構的差異。我們並不是從圖像生成器開始,然後嘗試將其擴展為視訊生成器。相反,我們從一個更宏觀的問題出發:如何製作一分鐘的高清影片剪輯。這就是我們的目標。當我們設定了這個目標時,我們意識到我們不能僅僅依賴擴展圖像生成器。
為了製作高清素材,我們需要可擴展的東西,將資料分解成非常簡單的方式,以便我們可以使用可擴展的模型。所以我認為這確實是從圖像生成器到Sora的架構演變。這是一個非常有趣的框架,因為我們相信它不僅可以應用於視訊生成領域,還可以應用於其他許多領域。
當然,在最短的時間內,我們並不是第一個推出影片產生器的人。許多人在影片生成方面取得了令人印象深刻的進展。但是,我們更希望朝著更遠的未來目標努力。我們寧願選擇未來的一個點,然後花一年時間研究它。而且,我們有快速做事的壓力,因為AI發展太快了。
11、Sora引人注目的一個面向就是其視覺效果和美學。能說說如何調整或打造Sora的美學嗎?
Ramesh:對於Sora,我們並沒有太多花費精力在美學上,世界本身就很美,但或許是一個很好的答案。實際上,Sora的語言理解允許使用者以一種更直接的方式來引導它,這是其他模型很難做到的。使用者可以提供各種提示和視覺線索,以指導模型產生他們想要的內容類型。這種互動性使得使用者能夠更靈活地與模型進行溝通,從而獲得更符合其預期的生成結果。
我認為,未來的模型將會理解個人美學。我們接觸的許多藝術家和創作者都希望將他們的全部資產上傳到模型中,這樣在寫標題時就可以藉鑑大量的作品,並讓模型理解他們設計公司幾十年來積累的術語等。因此,我認為個性化以及如何將它與美學結合在一起,將成為值得探索的很酷的事情。
12、我們能否得到一種與我們現在非常不同的娛樂典範?
Brooks:我覺得視訊模式的發展將引領全新的娛樂、教育和溝通方式。娛樂是其中重要組成部分,但更深層次地,這些模型有望讓我們更深入地了解世界和我們的生活,以及如何透過視覺體驗它們。它們不僅可以為我們提供娛樂,還可以成為教育的強大工具。
有時候,客製化的教育影片可以是學習新事物的最佳途徑,而製作影片來解釋觀點可能是與他人溝通的最有效方式。因此,我認為視訊模型存在更廣泛的潛在應用。
13.你們有嘗試過將這些技術應用於數位化身分等方面嗎?這是否會不太適用?因為它更像是文字到影片的提示。
Brooks:到目前為止,我們的重點主要是在Sora的核心技術上,而不是在具體的應用方面。雖然包括數位化身在內的想法很有意義,但我們還沒有探索這個問題。我認為嘗試這些想法會很酷,但我認為我們現在在Sora的軌跡中的位置,就像是這個新視覺模型範式的GPT-1。
14.你們是如何看待影片模型引發有關安全性的問題,以及如何防止偽造、惡搞或其他類似問題?
Ramesh:這是一個非常複雜的問題。我認為我們可以從DALL-E3中學到很多相關措施,例如我們處理的色情或血腥圖像的方式。但肯定會出現新的安全性問題,例如錯誤訊息,或是否允許使用者產生具有攻擊性的內容。
一個關鍵問題是,部署這項技術的公司應該要承擔多少責任?例如,公司是否應該通知用戶,他們看到的內容可能不是來自可信任來源?還有多少責任應該由使用者承擔?這是一個棘手的問題,我們需要認真思考這些問題,以找到最好的解決方案。
15.過去,人們使用Photoshop處理圖像並發布,提出索賠。人們並沒有說,Photoshop的製造商要為濫用該技術的人負責,你又如何看待這些先例?
Ramesh:這很重要。我們希望人們能夠自由地表達自己,做他們想做的事情,但同時也需要負責任。逐步釋放技術,並逐步引導人們適應它,這是一個明智的方法。這樣可以確保科技的使用是負責任的,同時也尊重了使用者的自由表達權。
16.能介紹一下你們下一步或正在開發一些功能嗎?
Brooks:我對人們將如何利用我們的產品創造出新的東西感到非常興奮。我認為有很多才華橫溢、富有創造力的人都有自己想要創造的東西。但有時要做到這一點真的很困難,因為他們可能缺乏必要的資源、工具或其他東西。這項技術有可能讓許多才華橫溢、富有創造力的人創造出他們想要的東西。我真的很期待他們將要製作出什麼了不起的東西,以及這項技術將如何幫助他們。
17.除了長度等顯而易見的問題之外,你能描述一下你們想要解決的限制是什麼嗎?
Peebles:為了讓這項技術更加普及,我們需要考慮多個因素。其中一個重要的因素是降低成本,以便更多人能承擔。我們都知道,在影片生成領域,確切的參數設定對結果影響很大。你知道你正在創建的影片的解析度和持續時間,但是你也知道生成過程不是即時的,需要等待幾分鐘,尤其是對於較長的影片。
因此,我們積極努力降低線程成本,以實現更廣泛的普及。作為資料網路(DN)的一部分,我們也必須考慮安全因素,特別是在選舉年。我們非常謹慎地處理潛在的錯誤訊息,並積極採取措施來應對周圍的風險。今天,解決這些問題已成為我們研究道路上的重要任務之一。
18.對於Sora未來的研究方向,你有什麼想說的?
Brooks:我們希望,Sora能夠透過分析所有視覺數據,實現對世界有更深入的理解,甚至能夠理解3D。這是非常令人興奮的,因為我們並沒有直接將3D資訊輸入其中,而是讓它透過觀察視訊資料自行學習。它能夠理解在影片中存在的3D結構,例如,它知道了當你咬下一口漢堡時,會留下咬痕。
因此,它對我們的世界有了更深入的了解。當我們與世界互動時,大部分資訊都是視覺的,我們所學習的也是視覺資訊。因此,我們確實相信,引領AI模型變得更聰明、更優秀,讓它們像我們一樣理解世界是非常重要的。我們的世界充滿了複雜性,有許多關於人們如何互動、事情如何發生、過去的事件如何影響未來的事件的內容,這實際上會導致比生成影片更廣泛的更聰明的AI模型。
人類的許多智慧實際上與我們對世界的建模有關。每當我們考慮如何行動時,我們都會在腦海中構想場景,憑藉著想像力演繹各種可能情景。在實際行動之前,我們會思考:「如果我這樣做,會發生什麼?如果我那樣做,會有什麼後果?」所以我們有一個世界模型,將Sora建構成世界模型,與人類擁有的大部分智能非常相似。
19.我們是如何讓Sora擁有與人類非常相似的世界模型,而不是像物理引擎那樣完全精確的東西呢?
Peebles:我們知道,人類的認知並不總是十分準確,所以我們無法做到完全精確。當我們深入研究一組非常狹窄的物理規律,並進行長期預測時,我們可以透過一些系統來改善我們的理解。
因此,我們對Sora的前景持樂觀態度,認為它能夠在某一天取代這種能力。從長遠來看,我們希望它能比人類更好地扮演世界模型的角色。但是,我們也必須認識到,對於其他類型的智慧來說,這種能力並不總是必要的。儘管如此,對於Sora和其他模型來說,未來仍會有改進的空間。
20.你認為大眾對視訊模型有什麼誤解嗎?
Ramesh:對於大眾來說,Sora的發布可能是最大的更新。正如Bill和Tim所說,在內部,我們一直在將Sora與GPT模型進行比較。當GPT-1和GPT-2問世時,人們開始越來越清楚地認識到,只需擴大這些模型的規模就能賦予它們驚人的能力。
目前還不清楚,擴大下一個標記預測的規模是否會產生一個有助於編寫程式碼的語言模型。對我們來說,很明顯,將同樣的方法應用於視訊模型也會帶來非常驚人的能力。我認為Sora 1的發布證明了這一點,現在我們站在了縮放曲線上的關鍵點。我們對此感到非常興奮。
Peebles:正如Tim和Aditya所暗示的那樣,我們確實覺得視訊模型正處於GPT-1的時刻,但這些模型很快就會變得更好。我們對此感到非常興奮,因為我們相信,這將為創意世界帶來難以置信的好處。
雖然實現AGI還需要時間,但我們正在努力確保安全問題得到充分考慮,並建立一個強大的技術基礎,以確保社會真正從中受益,同時減輕潛在的負面影響。儘管我們面臨挑戰,但現在確實是一個令人振奮的時刻,我們迫切地想要知道未來模型能夠實現什麼。