快手AI文生影片大模型體驗：更偏商業端「國產版Sora」來了？

2024-06-22 Comments 0 Comment

中國版Sora來了？日前，快手推出影片生成大模型－可靈，支援文生影片、圖生影片以及影片續寫功能。可靈大模型基於Diffusion Transformer架構打造的文本視頻語義理解能力，支援輸出1080P30幀最長2分鐘的視頻，生成時長直接趕上Sora。

6月21日，在可靈上線的視訊續寫功能中，支援已產生的視訊一鍵續寫和連續多次續寫，單次可讓影片延續約5秒，最長可產生約3分鐘影片。

快手可靈的內測申請在快手的剪輯軟體快影App的「AI創作」功能模組中，財聯社記者申請通過後，進行了深入的體驗。

目前可靈的生成速度上表現尚可，財聯社記者每次文生5s影片基本上都能在2–3分鐘內完成。根據公開訊息，快手、Sora之外，Luma AI發布了文生成圖模型Dream Machine，並開啟內測；Adobe的Firefly新增生成式擴展功能，生成音頻和視頻功能即將推出；美圖構建AI短片工作流，開發了AI短片創作工具MOKI，預計今年7月31日上線。

有研究機構指出，在目前AI大模型的輸出內容不能完全保證正確性與精準度的背景下，對「幻覺」問題不敏感的文生文、文生圖、文生視頻、數位人等AIGC領域有望率先實現商業化落地。

文生影片更自然，圖生影片仍有進步空間

為了展現可靈AI的能力，財聯社記者從對於語言的辨識精準程度、影片表現精度這兩個層面對可靈大模型進行測試。其中在精確度層面上，主要從兩個層面考慮，首先是光影效果的呈現，其次是物體關係（如人與人互動，人與物體互動）等。

為了方便觀看，財聯社記者將影片轉換成了動圖，因此會對影片品質和幀數造成一定的影響，但基本上能夠展現可靈的影片生成能力。

首先是對文字辨識和處理層面上，財聯社記者嘗試詳細描述了一個場景：「滿頭白髮的中年女人，穿著深藍色西服，向一台佳能相機展示白色瓶身綠色瓶蓋的藍月亮洗衣液，背景是沙灘與海洋的落日場景。

可靈基本按需復現了描述文字的需求，只是文字描述中的相機並未出現在視頻畫面中，以及可能是出於版權爭議方面的考慮，洗手液的品牌被塗上了馬賽克。

接下來記者又嘗試了更簡短的描述：“一隻比熊犬穿著宇航服和高跟鞋在夜店跳舞。”

雖然比熊犬身上的服裝與真實的太空衣仍有差異，但這次的還原度要高不少。

接下來，財聯社記者又描述了兩個場景，以測試可靈的光影展現效果，以及對於物體關係的還原的程度。

以上的影片描述文字為：「在燈光複雜的深海隧道中，一輛銀白色引擎蓋加上黑色外觀的邁巴赫，開著遠光燈，以時速120公里每小時行駛過一攤積水，水花四濺到鏡頭上。

以上影片的描述文字為：“荒蕪的死亡星球上，一群假面騎士透過光劍進行對戰，並砍下了對方的頭盔。”

以上影片的描述文字為：“兩個壯漢在水立方裡互扇巴掌。”

以上影片的描述文字為：“小貓送外賣，抽象風格，把披薩送到人手上。”

以上影片的描述文字為：“小貓用前爪把頭上的頭盔脫下來，放入到電動車的前框裡。”

以上影片的描述文字為：「一個小女孩吃麵條」。

以上影片的描述文字為：“女性推著自行車，往後倒退，一片櫻花花瓣落到她的頭上。”

目前圖生影片的功能更多是讓畫面主體移動起來，透過準確的關鍵字做動作，但複雜的物體互動，呈現效果不佳。

如小貓咪用前爪脫下頭盔，AI並未正確識別圖中貓咪的前爪，而是生成了另外的前爪，並且沒有脫下頭盔的動作，而是將生成的前爪搭在了前框裡的頭盔上。

小女孩吃麵基本上產生了「吃播」效果，五官與食物清晰。

而女子推車倒退變成了騎車倒退，雖然動作方向正確，但花瓣只落到了鏡頭的前方，並未落到女子的頭上。

透過上述的測試，我們基本上可以推論出以下幾個結論：

可靈對於光影關係，流體與人物的關係呈現大致上是沒有問題的，在文生影片的準確度上與sora差異不大。例如，當燈光掃過車頂時，前擋風與引擎蓋金屬反光變化的差異；車輛駛過積水時濺起的水花等。

可靈對於物體關係的處理仍有改進的空間。例如決鬥時光劍出現了「穿模」的狀況。

此外，可靈基本上可以做到符合真實的運動規律。測試中，車輛行駛、女生吃東西等基本上符合現實法則與關鍵字輸入要求。

對於有關鍵字未被識別的問題，有觀點認為，造成這種問題的原因在於，目前視頻生成大模型基本上是直接從視頻數據中學習物理知識，但真實視頻往往包含很多信息，因此大模型很難精準區分每個物理規律並學習。

財聯社記者了解到，快手大模型團隊自研了3D VAE網路和全注意力機制（3D Attention），借助多模態技術更好地實現時空建模。

快手視覺生成與互動中心負責人萬鵬飛公開表示：“快手是一個擁有海量視頻數據的平台，可實現全流程、自動化、高效率的支持模型的訓練和評估。”

他也補充道，快手擁有多維度視訊標籤體系，可精細化的篩選數據，或對數據的分佈進行調整。

商用可能性到底在哪裡？落地場景或更偏商業端

據財聯社記者了解，目前可靈內測申請人數已超14萬人，有不少創作者都在其中。

有影片內容創作者對財聯社記者表示，使用AI工具產生的影片看起來很酷，但這類工具在普通人手中意義不大。 AI生成影片的成本也不低，這點從ChatGPT和Sora的開放程度就能看出來，ChatGPT可以開放給億級用戶，而Sora至今只有少數人試過。」

不過，部分視訊平台也不鼓勵AI合成內容，這類影片分到的流量不多，有的甚至會被限流。目前，各大內容平台都有相關限制，AI生成內容都會標示「作品疑似AI合成，請謹慎甄別」。

這位內容創作者補充道，AI影片產生功能的真正意義在於簡化了影片製作流程，既可以幫助成熟的內容創造者產生無版權糾紛的素材，加速內容創作，也可以幫助傳統的圖文創造者基於已有內容視訊化，加速內容遷移。

他認為，透過精準描述，內容創作者可以省下挑選合適素材的時間。本身職業內容創作者也會自己購買影片素材，或是開通相應的會員。現在唯一的問題只在於，收費是否合理。

但從長遠來看，無論可靈或sora都不會將C端應用作為未來主要發展方向，根據場景應用落地的能力，才更具想像力。

另一位影視業的從業者告訴財聯社記者，AIGC工具已經被應用在了影視行業了，比如《瞬息全宇宙》裡面主角高速穿越多個宇宙的鏡頭，可以用AI技術快速生成出來，能夠降低製作成本。 “如果使用傳統製作流程，哪怕只是為了製作一分鐘的視頻，也需要一個龐大的團隊工作好幾個月才能完成，涉及到腳本、建模和後期渲染等多個過程。”

財聯社記者了解到，有部分電影人在接受Luma發布的Dream Machine內測邀請後，使用該款AI工具製作了一些微電影以及預告影片。繼生成短劇劇本之後，AI影片產生工具將有可能被用於直接產生短劇，而這項嘗試也會讓短劇賽道的連結更短。

當下，可靈在B端的商用還未開啟，但從先前AIGC技術應用來看，短影片切片、留言區互動、數位人主播等均是內容電商可以落地的場景。

據悉，包括京東、快手、抖音在內的電商平台已經使用AI大模型輔助商家進行營運。例如京東免費數位人代播服務，能24小時不斷進行直播；快手的「AI腳本產生+智慧高光切片+全模態檢索大模型」功能等等。

快手方面提供的數據顯示，AIGC技術的應用已開始提升行銷轉換效率，透過盤古影片AIGC素材整體提升行銷轉換率33%。

有業內人認為，未來文生影片工具也有可能被商家應用在產品功能、場景短影片展示上面。 “相較於對每個產品進行實際拍攝，直接使用AI工俱生成視頻的時間成本和人力成本可能會更低。”

對成本端的影響，也能從目前數位人主播應用效果得出一定結果。快手磁力引擎計畫招商負責人、磁力學堂負責人王思洵分享了一組數據：「在盡量過濾掉乾擾項的前提下，我們測試發現真人直播間和數位人直播間數據表現幾乎一樣。AIGC技術自動生成直播/短視訊素材，使得企業的直播風險可控，營運效率也得到了提升。

天風證券分析師認為，生成式AI在影片創作和世界模型的大踏步進步將實現對視訊/3D/遊戲等下游應用場景的滲透。在短片、創作工具、遊戲等下游領域，可靈、Sora等AI原生產品可望融入工作流程，增強使用者體驗、降低使用者使用障礙、進一步降低創作成本，並大幅拓展創作者能力邊界。

這位證券分析師補充說：「與OpenAI其他產品不同，Sora代表的DiT架構路徑復刻難度在算力充足的前提下相對較低，國內互聯網頭大廠在生成式視頻工具上的佈局速度可能會持續超預期。

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

WONGCW 網誌

記錄生活經驗與點滴

快手AI文生影片大模型體驗：更偏商業端「國產版Sora」來了？

2024-06-22 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆