Sora上網擠爆伺服器:1個影片3塊網友已玩瘋
掀起視訊大模型風暴的Sora,終於正式發布!今日凌晨,OpenAI推出文生視訊模型Sora的新版Sora Turbo,稱其比2月預覽的Sora模型快得多。 Sora可產生最高1080p解析度、最長20秒、16:9 / 1:1 / 9:16畫面比例的視頻,支援用戶輸入文字或上傳圖像,並上線全新UI介面,以便對生成視頻進行修改、創建、擴展、循環、混合,或用文字產生全新的內容。
OpenAI在Sora.com上發布一個獨立產品,免費提供給ChatGPT Plus和Pro用戶。
Plus用戶每月最多可產生50個480p解析度視頻,或更少的720p解析度、5秒視頻,對應月費20美元(折合人民幣145元)。
Pro訂閱者則最多可生成500個視頻,並支援20秒時長、1080p分辨率,可下載無水印版視頻,對應月費200美元(折合人民幣1450元)。
平攤下來生成一個影片花2.9元。
ChatGPT Plus和Pro每月分別為使用者提供1000和10000積分。其中480p影片需要20-150個積分,720p影片需要30-540個積分,1080p影片需要100-2000個積分。 Pro用戶則享有無限量的relaxed影片。
OpenAI正在為不同類型的用戶制定不同定價,計劃於明年初推出。
Sora一發布,ChatGPT氪金黨們立刻瘋玩起來,紛紛在社群平台上曬出自己的第一個Sora生成影片大作。
例如下面這個新聞播報視頻,雖然最終生成的視頻中有一堆亂碼文本,但視頻畫面切換的節點、文字滾動條、新聞風格鏡頭……這些都是Sora自主完成的,並且新聞主播的形像也十分逼真。
還有先前體驗許久的藝術家,直接用Sora生成了一個1分38秒的MV。
//oss.zhidx.com/uploads/2024/12/675746373459d_675746372ef6e_675746372ef3a_HYAdqeoL_yYrgAFd.mp4
不過有網友發現,同為付費用戶,ChatGPT Plus並不能產生帶有人物的視頻,只有ChatGPT Pro才可以。
伺服器很快就火爆到進不去了。
OpenAI聯合創始人兼CEO Sam Altman轉發了Sora團隊技術人員關於註冊被禁用的帖子:“需求高於預期,註冊將被禁用,生成將在一段時間內變慢。盡力而為。”
他還抽空發文恭喜Google剛發布的量子運算晶片Willow。
▲阿爾特曼回應Sora註冊被暫時停用
一、Sora專屬頁面上線:預設風格、多種選項、社群分享
OpenAI開發了新的介面,以便更輕鬆地使用文字、圖像和影片提示Sora。
頁面下方有輸入框,可以輸入想要產生影片的文字描述,並提供「預設」、「螢幕比例」、「解析度」、「長度」、「變體」等選項。如果滑鼠移到「?」圖標,會顯示產生影片所需消耗的積分值。
畫面比例可選16:9、1:1、9:16。解析度可選1080p(慢8倍)、720p(慢4倍)、480p(最快)。時長可選20秒、15秒、10秒、5秒。一次可產生1個、2個或4個視訊變體。
預先設有6個選項。
點擊“Create”即可建立影片。
打開每個視頻,底部還能進一步編輯提示詞、觀看故事、Re-cut(重剪輯)、Remix(基於此修改或創建新視頻)、Blend(兩個視頻無縫過渡)和Loop(無縫循環播放)。
頁面右上角有「讚」、「分享」、「下載」等選項。
OpenAI也提供精選和最新動態,不斷更新社群的創作。點選頁面左側Featured,可看到分享的作品。
點擊頁面右上方帳戶,可以看到影片教學。
二、畫面元素絲滑替換,逐幀分鏡頭講故事超便捷
具體來看看Sora不同功能的效果。
1、Remix:替換、刪除或重構影片中的元素
你可以輸入指令,要求Sora產生的影片重複修改畫面元素。有「強」、「中」、「微」、「客製化」四種Remix強度選項。
例如把影片畫面中的「猛獁象換成機器人」:
再來例如產生「打開通往圖書館的大門」的影片:
然後「把門換成法式門」:
「把圖書館變成一艘太空船」:
「移除太空船,加入叢林」:
「把叢林換成月球景觀」:
2、Re-cut:找到你最滿意的影片片段,將它截取出來,向任一方向延展以完成場景
3.Storyboard工具:在時間軸上組織和編輯影片的獨特序列,精確指定每一幀的輸入
使用故事板(Storyboard),影片畫面能控制得非常精細。使用者可透過輸入文字提示、上傳圖片或基於已有視頻,在頁面中新增多個分鏡頭。
例如指定第一幀是“一隻美麗的黃尾白鶴站在小溪里”,第二幀畫面是“鶴把頭伸進水里,撈出一條魚”。
系統會自動擴寫提示詞。
有了這個工具,你就可以製作多鏡頭影片大片了。
例如生成一個「一片廣闊的紅色景觀,遠處有一艘停靠的太空船」的影片:
將下一個鏡頭指定為「從太空船內部向外看,一位太空牛仔站在畫面中央」:
然後來個「針織布面罩框住太空人的眼睛的詳細特寫」:
影片就有了清晰的故事線。
4、Loop:使用循環剪輯並創建無縫重複的視頻
Loop有「短」(2秒)、「中」(4秒)、「長」(完整版)三種循環選項。
例1:花
範例2:樓梯
5.Blend:將兩個影片合成為一個無縫剪輯
Blend曲線有過渡(Transition)、混合(Mix)、採樣(Sample)、客製化(Custom)四個選項。
可將兩個影片畫面無縫融合:
6、Style presets(樣式預設):使用預設創建和分享激發想像力的風格
右下角是兩個猛獁像在步行的視頻,你可以將風格切換成“硬紙板和紙質工藝品”(左上)、“復古電影”(右上)、“懷舊檔案”(左下)。
三、網友玩出Sora各種bug:搞錯性別、文字亂碼、鏡頭變化不聽指令
Sora公開上線後,首批ChatGPT試用者積極在社群平台曬作品。許多影片乍看之下都非常逼真,其中也不乏一些令人啼笑皆非的畫面細節。
這個用戶的提示詞是“一隻鵜鶘沿著俯瞰港口的沿海小徑騎自行車”,不過最後生成的視頻中,鵜鶘在中途莫名其妙地變為向相反的方向騎行。
還有用戶的生成影片中,Sora直接把人物性別搞反了。網友的提示詞是「一個30多歲的男人,黑髮,戴著眼鏡,和一位黑髮女子一起走在尼斯的長廊上。天氣很好,有幾個人在海灘上曬日光浴」。但影片中出現了兩位女士。
再來看下面的用戶體驗視頻,網友稱這條視頻Sora花費了大約30s,不過其並沒有公開提示詞。
還有使用者立即比較了Sora、Runway、快手可靈、MiniMax海螺的效果。提示詞是「維京演員的情感表演。當演員皺眉時,鏡頭推到臉上」。
從結果來看,Sora的視訊鏡頭多變,且頗有大片風範,但沒有實現「當演員皺眉時,鏡頭推到臉上」。
快手可靈的生成效果是最契合提示詞的,人物有細微的皺眉動作,鏡頭聚焦到了人物臉上。
MiniMax的海螺產生的影片則拉遠了鏡頭。
Runway的人物表情相比其他三家在皺眉的同時帶動了臉部其他位置的變化。
四、公開、專用、人類三類資料來源,數百名創意人士已體驗10個月
OpenAI也發布了Sora System Card來分享其安全和監控方法的詳細資訊。
Sora建構於DALL·E和GPT模型的基礎之上,是一種採用Transformer架構的擴散模型,從一個看起來像靜態噪聲的基礎視頻開始生成視頻,然後通過多個步驟消除噪聲,逐漸對其進行轉換。透過讓模型一次預測多個幀,Sora產生的影片可以確保主體即使暫時消失在視野之外也能保持不變。
此模型使用了DALL·E 3中的重新標註技術(Recaptioning Technique)。該技術可以為視覺訓練資料產生高度描述性的字幕,使模型能夠更忠實地遵循生成的影片中使用者的文字指令。
除了能夠僅根據文字指令生成影片外,該模型還能夠利用現有的靜態影像生成影片或利用現有影片進行擴展或填充缺少的影格。 OpenAI相信這項能力將是實現通用人工智慧(AGI)的重要里程碑。
1.訓練資料來源:公開可用、企業專有資料、人類數據
與語言模型擁有文字token不同,Sora擁有視覺區塊(visual patches),這已被證明是視覺資料模型的有效表示。
基於此,OpenAI的研究人員發現視覺區塊是一種高度可擴展且有效的表示形式,可用於在各種類型的影片和影像上訓練生成模型。在高層次上,他們首先將視訊壓縮成一個低維的潛在空間,然後將表示分解成時空視覺塊。
此外,Sora接受了各種資料集的訓練,包括公開可用的資料、透過合作夥伴關係存取的專有資料以及內部開發的自訂資料集。這些包括:主要從行業標準的機器學習數據集和Web爬蟲中收集到的公開可用數據;OpenAI建立合作夥伴關係以訪問非公開可用的專有數據,並合作調試和創建適合其需求的數據集;來自AI培訓師、紅隊成員和員工的回饋。
2、四項輸出前安全措施,數百名專業人士已測試10個月
Sora的能力可能帶來新的風險,例如濫用相似或產生誤導性或露骨影片內容的可能性。
在安全方面,自2024年2月發布Sora以來,OpenAI與來自60多個國家/地區的數百名視覺藝術家、設計師和電影製作人合作,以獲得有關如何推進該模型以對創意專業人士最有幫助的回饋。
▲動畫師上傳微縮模型圖片後產生的視頻
OpenAI採用了以下形式,作為Sora向使用者顯示其請求輸出之前採取的安全緩解措施:
透過多模態審核分類器進行文字和影像審核、自訂大語言模型篩選(客製化GPT,利用影片產生的時間窗口,對某些特定主題高精度審核)、影像輸出分類器、黑名單(事先設定文字阻止列表)。
目前OpenAI屏蔽了一些特別有害的形式,如兒童虐待、深度性偽造等。這些題材上傳會被限制。
OpenAI稱其分類器非常準確,但偶爾可能會錯誤地標註成人或非現實的兒童圖像。他們也承認研究和現有文獻強調了年齡預測模型存在種族偏見的可能性。
接下來幾個月裡,OpenAI團隊將致力於提高分類器的效能,最大限度地減少誤報,並加深其對潛在偏差的理解。
為了確保Sora技術被負責任的使用,所有Sora產生影片均附帶C2PA元資料。它將識別影片是否來自Sora,以提供透明度,並可用於驗證來源。 OpenAI預設添加了可見水印等保護措施,並建立了一個內部搜尋工具,該工具使用第二代的技術屬性來幫助驗證內容是否來自Sora。
結語:Sora仍有許多局限性
正在部署的Sora版本有許多限制,通常會產生不切實際的實體效果,同時長時間複雜動作仍具挑戰性。
OpenAI仍在努力使每個人都負擔得起這項技術。團隊希望Sora早期版本能讓世界各地的人們探索新的創意形式,講述自己的故事,並突破影片說故事的可能性。
對於影片創作者來說,Sora的到來無疑是最頂的聖誕禮物之一。很期待看到世界將用Sora創造出什麼。