OpenAI CTO：Sora今年將發表會加入語音功能

2024-03-14 Comments 0 Comment

美國當地時間週三，人工智慧新創公司OpenAI的首席技術長米拉·穆拉蒂（Mira Murati）接受了媒體記者專訪。在採訪中，她談到了該公司最新文本轉視頻工具Sora，這款產品預計將於今年晚些時候向公眾發布，同時還將添加語音功能；此外在發布前，團隊將對其進行優化，以降低計算資源消耗。

以下為翻譯全文：

某個清晨醒來時，你是否曾幻想過一頭公牛在精緻的瓷器店中悠然自得地行走的場景？要實現這奇幻景象，你有三種途徑：

A）聯絡當地的動物馴養師以及知名家居品牌Crate & Barrel；

B）請頂尖的好萊塢動畫製作人；

C）使用神奇的AI工具Sora，簡單輸入指令即可。

歡迎進入人工智慧的下一個「魔法世界」。在這裡，你的語言能夠化作逼真、流暢且細膩的影片畫面。

OpenAI計劃在今年稍後向大眾推出其文字到影片的轉換工具Sora。儘管正式發布尚需時日，但OpenAI已經向我們揭示了這款工具的驚人潛力：僅需精心設計的文本指令，便可創造出幾乎足以替代許多視頻製作專業人員的作品。《華爾街日報》專欄作家喬安娜·斯特恩（Joanna Stern）向該公司提交了幾條由她自己編寫的提示，比如一條美人魚和她的螃蟹夥伴評測智能手機，或者一頭公牛在精緻的瓷器店內自由漫步。

史特恩隨後親身體驗了Sora的神奇之處，她利用這款工具製作了一段模擬對OpenAI首席技術官穆拉蒂進行虛擬視訊採訪的片段，兩人深入剖析了這些有趣的問題，並對該技術的潛在問題進行了探討。

OpenAI在上個月首次展示了用其生成式人工智慧工具製作的影片預覽，整個網路都為此沸騰。與之前那些斷斷續續、分辨率低下的人工智慧視訊技術相比，Sora生成的內容無疑是一場視覺盛宴，堪比高品質的自然紀錄片或大製作電影。

與先前的人工智慧技術相似，Sora首先讓我們對其能力感到驚嘆，隨即又擔憂其對社會的影響。面對斯特恩的擔憂，穆拉蒂向她保證，OpenAI在發布這一強大工具時將採取慎重的步驟。但這並不意味著一切都將無憂無慮。

這些超逼真影片真的是Sora生成的嗎？

史特恩對Sora生成的影片感到深深震撼：從無人機視角拍攝的義大利阿馬爾菲海岸的壯觀景色，到手持自拍棒的柯基犬，再到衝浪板上活潑的動畫水獺，這些畫面無一不展現了Sora在創意和細節處理上的強大能力。她進一步挑戰Sora，要求它產生更接近日常生活的場景：“兩名30多歲、棕髮的職業女性在一個明亮的演播室裡坐下接受新聞採訪。”

在Sora生成的影片中，兩位女性的嘴唇和頭髮動作自然流暢，皮夾克的細節也清晰可見。穆拉蒂透露，這段20秒長、720P解析度的影片僅用了幾分鐘就完成了生成，儘管目前還未加入聲音。但她承諾，OpenAI正在計劃為Sora增添語音功能。

為了比較Sora與其他工具的區別，斯特恩也在另一個AI視訊產生器Runway上輸入了相同的提示。然而，得到的結果大相徑庭，Runway生成的畫面是兩個模糊、幽靈般的女性形象，它們看起來像是直接從惡夢中走出來的，令人毛骨悚然。

那麼，Sora究竟是如何實現這神奇轉換的呢？儘管解釋其內部工作原理可能比解釋美人魚的進化還要複雜，但簡單來說，Sora背後的AI模型透過分析大量視訊數據，學會了識別和理解各種物體與動作。輸入文字提示後，模型能夠迅速勾勒出整個場景的基本輪廓，並逐幀添加細節。

產業觀察家和競爭對手，包括Runway的首席執行官，都認為OpenAI的這些顯著成就歸功於其巨大的計算資源和龐大的訓練資料量。但OpenAI最近也面臨著版權侵犯的指控，因未經授權使用大量線上內容訓練其ChatGPT模型。

當被問及OpenAI為訓練Sora使用了哪些資料時，穆拉蒂表示：「我們主要使用了公開可取得的資料及已授權資料。」。當進一步追問這些數據是否包括YouTube、Instagram和Facebook上的影片時，穆拉蒂表示她並不清楚具體細節，但後來確認，已授權的資料確實包含了知名版權圖片網站Shutterstock上的內容。

人工智慧模型對一般使用者來說往往是個神秘的黑盒子。我們看到的是輸入和輸出，而中間的處理過程則不得而知。因此，我們可能永遠無法完全理解為何生成的內容展現出某些特定的風格或特徵。例如，斯特恩提到的那條美人魚身旁的甲殼類夥伴留著類似《海綿寶寶》中蟹老闆的鬍鬚，這是否是模型的創新還是某種偶然？

穆拉蒂還告訴斯特恩，目前Sora生成影片的成本遠高於該公司的圖像生成器Dall-E。但她承諾，在Sora正式向公眾發布前，團隊將對其進行最佳化，以降低運算資源消耗。

如何識別人工智慧生成影片？

在當前的早期階段，人工智慧生成的內容中還存在一些明顯的瑕疵。

例如，在Sora生成的採訪影片中，一位淺髮色女子的一隻手似乎多出了五根手指。對此，穆拉蒂解釋道：“準確再現手部運動真的很難。”

在另一次測試中，斯特恩期望看到一個機器人從電影製片人手中奪走攝影機的場景。但Sora生成的是一位人類電影製片人突變成機器人，場面顯得突兀且不自然。更有甚者，背景中的黃色計程車也不知怎的變成了銀色轎車。穆拉蒂承認模型「在維持連貫性方面表現尚可，但並不完美」。

這引出了一個深刻的議題：當這些缺陷被修正，人工智慧產生的影片愈發逼真時，我們如何區分真實與人工智慧生成的影片？

Sora生成的每個影片下方都會有一個浮水印。穆拉蒂解釋說，最終這些影片還將包含元數據，以標示其產生方式和來源。此外，OpenAI設有一個名為「Sora紅隊」的安全測試小組。團隊的職責是提供各種提示，探索潛在的漏洞、偏見和其他可能的有害結果。穆拉蒂說：“這就是我們目前還沒有廣泛部署這些系統的原因。我們需要先弄清楚這些問題，然後才能放心地將其推向市場。”

就Sora的提示詞政策而言，穆拉蒂透露，它可能藉鏡OpenAI的另一個工具Dall-E的做法。例如，為了防止濫用和侵犯隱私，使用者將無法使用Sora來產生公眾人物的形象。當史特恩試圖輸入「在任美國總統的電視新聞畫面」時，Sora拒絕了這項要求。

斯特恩也嘗試讓Sora生成“在東歐小鎮上行走的士兵”的視頻，但也遭到了拒絕。對於裸露等敏感內容的提示，穆拉蒂表示OpenAI正在與藝術家和專家緊密合作，共同探討如何在不阻礙創意表現的同時，設立合理的「護欄和限制」。

將與好萊塢合作

隨科技發展，像Sora這樣的AI工具將變得更強大、更精細。這種進步可能會改變傳統的工作方式，如無人機操作員或插畫家的角色，引起好萊塢既期待又憂慮的迴響。

演員、電影製片人和工作室老闆泰勒佩里（Tyler Perry）表示，看到Sora的潛力後，他宣布暫停耗資8億美元的工作室擴建計劃。他認為這項技術能夠削減佈景和外景拍攝的成本，但同時也對電影業和演員的未來抱持擔憂。

代表好萊塢和全美各地動畫藝術家的動畫協會主席珍妮特·莫雷諾·金（Jeanette Moreno King）也稱，儘管藝術創作決策仍需人類參與和判斷力，未來卻是充滿不確定性的迷霧。

愛德華·薩奇（EdwardSaatchi）及其人工智慧視訊工作室Fable正夢想打造一個AI版Netflix：只需輸入一段文字提示，便可呈現完整的電視劇集。

對於Sora對影片製作產業的潛在影響，穆拉蒂重申了OpenAI採取的緩步審慎策略。她表示，OpenAI正在與業界內部人士合作，進行早期的測試和回饋徵集，希望全球的電影製作者和創作者能加入這一探索過程，共同促進電影產業的發展。

如果將OpenAI比喻為一開始提到的那頭在瓷器店裡自由漫步的公牛，那麼它目前可能需要小心行事。但最終，它可能不可避免地將帶來一些破壞。

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

WONGCW 網誌

記錄生活經驗與點滴

OpenAI CTO：Sora今年將發表會加入語音功能

2024-03-14 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆