剛發售就被對標Sora,這個國產模型來頭這麼大?
前幾天上網衝浪的時候,刷到了幾個AI 影片片段。大船駛來的壓迫感,被風吹起的髮絲和絲巾,太空人直接走進現實菜園……一幕幕把我看得是一愣一愣的。真實度也是一絕,在湖邊隨著鏡頭移動,不僅光線跟著變化,連天空、樹木的變化都跟咱肉眼看到的沒差。
![](https://i0.wp.com/x0.ifengimg.com/res/2024/00F2095831A5726F22EE1CD4482EBCE3CF113597_size6959_w640_h360.gif?w=640&ssl=1)
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0430/a87ea5897b69f2e.gif?w=640&ssl=1)
要不是右下角有浮水印,我還差點以為是Sora 的影片又上新了。
所以這次的主角不是Sora ,也不是各位差友熟知的Pika 、 Runway 那幾個Sora 競品,而是初出茅廬的國產視頻大模型Vidu。
咱看到的那些視頻,就是前幾天, Vidu 在中關村論壇的人工智慧主題日上公佈的。
它最長能生成16 秒,一句「 木頭玩具船在地毯上航行」 的提示詞,就能生成下面這長長的一段,一鏡到底的絲滑程度,怕是路過的謀子導演看了都會按讚。
![](https://i0.wp.com/x0.ifengimg.com/res/2024/43D64F0DD0C905219B55DA1319B010D4D1DACF75_size7239_w640_h360.gif?w=640&ssl=1)
Sora 號稱能真實模擬物理世界的拿手戲, Vidu 照樣也能實現。
讓它生成一段「 汽車加速駛過森林裡鄉間小路」 的視頻,像是樹林縫隙透過的陽光,後輪揚起的灰塵,都很符合咱們的日常認知。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0430/8a60446875c0963.gif?w=640&ssl=1)
而且Vidu 的想像力比咱人還要豐富,畫室裡的一艘船駛向鏡頭的場景,它分分鐘就能給「 拍」 出來,看這效果,不知道該有多少動效師瑟瑟發抖了。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0430/f710b1519bcad35.gif?w=640&ssl=1)
即使在某些提示詞下, Vidu 的理解能力比Sora 還強,比如“ 鏡頭繞著電視旋轉” 的提示詞, Sora 壓根兒就沒get 到旋轉的意思,反而是Vidu 能輕鬆理解。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0430/57537bda70fca1c.gif?w=640&ssl=1)
有一說一,看完Vidu 的這些影片後,是真覺得它是目前市面上,唯一能在畫面效果上和Sora 拼一拼的模型。
雖然現在16 秒的Vidu在時長上還比不上60 秒的Sora,但它的進步也確實是肉眼可見的快,據極客公園消息,上個月, Vidu 在內部只能生成8 秒的視頻,上上上個月,還只能產生4 秒的影片。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0430/41500cc26c1832d.webp?w=640&ssl=1)
反正媒體們都把Vidu 比作是“ Sora 級視頻大模型” ,網友們也都在評論區喊話催他們趕緊開放內測。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0430/c25480ede3cb778.webp?w=640&ssl=1)
不過這裡面更好奇的是,咱之前壓根兒都沒聽過Vidu ,怎麼突然平地一聲雷,搞出了這麼大的陣仗?
我們也順藤摸瓜找了找資料,發現Vidu 身上,值得說道的東西還挺多,甚至仔細咂摸下,還能從Sora 身上找出點Vidu 的影子來( 可沒說反)。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0430/975e5232ae4b7d3.webp?w=640&ssl=1)
它背後是一家名叫生數科技的公司,別看這個公司才剛滿一歲,但它可是在娘胎裡就開始攢勁兒了。因為它的親媽,是清華系AI 企業瑞萊智慧,背後的研究團隊,幾乎全是這裡面的人。
而在成立生數科技之前,團隊就已經把影片大模型研究得很深入了。
尤其是在影像產生這塊很火紅的擴散( Diffusion )模型,他們算是業界第一批研究這個模型的,整出來的論文也在ICML 、 NeurIPS 、 ICLR 各種頂會發了個遍。
正是因為有這麼好的底子,早在2022 年9 月的時候,團隊就找到了做Vidu 的靈感,就是下面這篇論文。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0430/cc51b949baa19f7.webp?w=640&ssl=1)
讓AI 幫咱解讀了下,大概的思路就是,擴散模型在生成圖像這塊挺強,而大語言模型裡用的Transformer 有個規模( Scale )效應,參數堆得越多,性能就越好。團隊就想著,能不能把這兩個的優點結合一下,整個融合架構,提升影像產生的品質。
於是他們轉頭把擴散模型裡面的U-Net 給換成Transformer ,還取了個名字叫U-ViT ( Vision Transformers )。結果試下來發現這麼一結合還真有用,光是相同大小的U-ViT ,效能就比U-Net 強了。
那好嘛,既然這條路走得通,他們也順勢把技術路線定在了U-ViT 上。
然鵝…在團隊悄悄醞釀Vidu 的時候,大洋彼岸的UC 柏克萊的一個研究,卻讓OpenAI 的Sora 捷足先登了。
就在清華小分隊提交論文的兩個月後, UC 伯克利也在預印平台ArXiv 上提交他們的論文了,一樣說要把Transformers 揉在擴散模型裡面,只不過名字起的更直白了點,叫DiT( Diffusion Transformers )。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0430/96865b4beaa8f98.webp?w=640&ssl=1)
看著是不是挺眼熟,沒錯, OpenAI 的Sora 模型,用的就是柏克萊的DiT 技術路線。
但因為清華小隊早發了兩個月,當年的電腦視覺頂會CVPR 2023 還以「 缺乏創新」的由頭,拒了Sora 的DiT ,收錄了U-ViT 。
而且早在2023 年年初的時候,清華小隊還用U-ViT ,訓練出了一個近10 億參數量的開源大模型UniDiffuser 。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0430/606e883785d0fb1.webp?w=640&ssl=1)
算是第一個用行動證明了,融合架構也遵守Scaling Law 這套規則,也就是說隨著運算量、參數量越來越大,模型的效能就會跟著指數上升。而這個Scaling Law ,同樣也是Sora 這麼強的秘密武器。
所以照這麼來盤算,Sora 其實還得叫Vidu 一聲祖師爺才對…
但現實世界卻是, DiT 被OpenAI 帶著一路飛升。
清華小分隊呢,計算資源沒OpenAI 那麼到位,也沒ChatGPT 這種珠玉在前,總之就是啥啥都不完善,他們只能慢慢來,先做圖像、 3D 模型,等有家底兒了,再去做影片。
還好他們身上還是有點實力在的,穩紮穩打慢慢也追上來了。去年3 月,清華小分隊們成立了生數科技後,就在馬不停蹄地搞自家的產品,現在圖像生成和3D 模型生成大夥兒都能免費用了。
![](https://i0.wp.com/static.cnbetacdn.com/article/2024/0430/d9f3948ba1cb126.webp?w=640&ssl=1)
而且靠著這兩個產品,剛滿一周年,它就存了好幾億的家底。
像是成立3 個月的時候,就完成了一波近億級的天使輪投資,上個月,又完成了新一輪的數億元融資。參與投資的,也都是智譜AI 、 BV 百度創投等業界大佬。
反正看這波架勢, Vidu 還真有可能成為國內的黑馬,去對標OpenAI 的Sora 。
不過生數科技那邊,倒是覺得只把Vidu 看作國產版的Sora ,實在是有點缺乏想像力了,因為他們給Vidu 的定位,可不僅僅是個視頻模型,而是圖、文、視頻全都要,只不過現在影片暫時是重點。
當然了,好聽話誰都會說,能不能搞出來,咱還得實打實地看成品。
已經去排了隊,等拿到內測資格,再跟大夥兒同步一波…