剛發售就被對標Sora，這個國產模型來頭這麼大？

前幾天上網衝浪的時候，刷到了幾個AI 影片片段。大船駛來的壓迫感，被風吹起的髮絲和絲巾，太空人直接走進現實菜園……一幕幕把我看得是一愣一愣的。真實度也是一絕，在湖邊隨著鏡頭移動，不僅光線跟著變化，連天空、樹木的變化都跟咱肉眼看到的沒差。

要不是右下角有浮水印，我還差點以為是Sora 的影片又上新了。

所以這次的主角不是Sora ，也不是各位差友熟知的Pika 、 Runway 那幾個Sora 競品，而是初出茅廬的國產視頻大模型Vidu。

咱看到的那些視頻，就是前幾天， Vidu 在中關村論壇的人工智慧主題日上公佈的。

它最長能生成16 秒，一句「木頭玩具船在地毯上航行」的提示詞，就能生成下面這長長的一段，一鏡到底的絲滑程度，怕是路過的謀子導演看了都會按讚。

Sora 號稱能真實模擬物理世界的拿手戲， Vidu 照樣也能實現。

讓它生成一段「汽車加速駛過森林裡鄉間小路」的視頻，像是樹林縫隙透過的陽光，後輪揚起的灰塵，都很符合咱們的日常認知。

而且Vidu 的想像力比咱人還要豐富，畫室裡的一艘船駛向鏡頭的場景，它分分鐘就能給「拍」出來，看這效果，不知道該有多少動效師瑟瑟發抖了。

即使在某些提示詞下， Vidu 的理解能力比Sora 還強，比如“ 鏡頭繞著電視旋轉” 的提示詞， Sora 壓根兒就沒get 到旋轉的意思，反而是Vidu 能輕鬆理解。

有一說一，看完Vidu 的這些影片後，是真覺得它是目前市面上，唯一能在畫面效果上和Sora 拼一拼的模型。

雖然現在16 秒的Vidu在時長上還比不上60 秒的Sora，但它的進步也確實是肉眼可見的快，據極客公園消息，上個月， Vidu 在內部只能生成8 秒的視頻，上上上個月，還只能產生4 秒的影片。

反正媒體們都把Vidu 比作是“ Sora 級視頻大模型” ，網友們也都在評論區喊話催他們趕緊開放內測。

不過這裡面更好奇的是，咱之前壓根兒都沒聽過Vidu ，怎麼突然平地一聲雷，搞出了這麼大的陣仗？

我們也順藤摸瓜找了找資料，發現Vidu 身上，值得說道的東西還挺多，甚至仔細咂摸下，還能從Sora 身上找出點Vidu 的影子來（可沒說反）。

它背後是一家名叫生數科技的公司，別看這個公司才剛滿一歲，但它可是在娘胎裡就開始攢勁兒了。因為它的親媽，是清華系AI 企業瑞萊智慧，背後的研究團隊，幾乎全是這裡面的人。

而在成立生數科技之前，團隊就已經把影片大模型研究得很深入了。

尤其是在影像產生這塊很火紅的擴散（ Diffusion ）模型，他們算是業界第一批研究這個模型的，整出來的論文也在ICML 、 NeurIPS 、 ICLR 各種頂會發了個遍。

正是因為有這麼好的底子，早在2022 年9 月的時候，團隊就找到了做Vidu 的靈感，就是下面這篇論文。

讓AI 幫咱解讀了下，大概的思路就是，擴散模型在生成圖像這塊挺強，而大語言模型裡用的Transformer 有個規模（ Scale ）效應，參數堆得越多，性能就越好。團隊就想著，能不能把這兩個的優點結合一下，整個融合架構，提升影像產生的品質。

於是他們轉頭把擴散模型裡面的U-Net 給換成Transformer ，還取了個名字叫U-ViT （ Vision Transformers ）。結果試下來發現這麼一結合還真有用，光是相同大小的U-ViT ，效能就比U-Net 強了。

那好嘛，既然這條路走得通，他們也順勢把技術路線定在了U-ViT 上。

然鵝…在團隊悄悄醞釀Vidu 的時候，大洋彼岸的UC 柏克萊的一個研究，卻讓OpenAI 的Sora 捷足先登了。

就在清華小分隊提交論文的兩個月後， UC 伯克利也在預印平台ArXiv 上提交他們的論文了，一樣說要把Transformers 揉在擴散模型裡面，只不過名字起的更直白了點，叫DiT（ Diffusion Transformers ）。

看著是不是挺眼熟，沒錯， OpenAI 的Sora 模型，用的就是柏克萊的DiT 技術路線。

但因為清華小隊早發了兩個月，當年的電腦視覺頂會CVPR 2023 還以「缺乏創新」的由頭，拒了Sora 的DiT ，收錄了U-ViT 。

而且早在2023 年年初的時候，清華小隊還用U-ViT ，訓練出了一個近10 億參數量的開源大模型UniDiffuser 。

算是第一個用行動證明了，融合架構也遵守Scaling Law 這套規則，也就是說隨著運算量、參數量越來越大，模型的效能就會跟著指數上升。而這個Scaling Law ，同樣也是Sora 這麼強的秘密武器。

所以照這麼來盤算，Sora 其實還得叫Vidu 一聲祖師爺才對…

但現實世界卻是， DiT 被OpenAI 帶著一路飛升。

清華小分隊呢，計算資源沒OpenAI 那麼到位，也沒ChatGPT 這種珠玉在前，總之就是啥啥都不完善，他們只能慢慢來，先做圖像、 3D 模型，等有家底兒了，再去做影片。

還好他們身上還是有點實力在的，穩紮穩打慢慢也追上來了。去年3 月，清華小分隊們成立了生數科技後，就在馬不停蹄地搞自家的產品，現在圖像生成和3D 模型生成大夥兒都能免費用了。

而且靠著這兩個產品，剛滿一周年，它就存了好幾億的家底。

像是成立3 個月的時候，就完成了一波近億級的天使輪投資，上個月，又完成了新一輪的數億元融資。參與投資的，也都是智譜AI 、 BV 百度創投等業界大佬。

反正看這波架勢， Vidu 還真有可能成為國內的黑馬，去對標OpenAI 的Sora 。

不過生數科技那邊，倒是覺得只把Vidu 看作國產版的Sora ，實在是有點缺乏想像力了，因為他們給Vidu 的定位，可不僅僅是個視頻模型，而是圖、文、視頻全都要，只不過現在影片暫時是重點。

當然了，好聽話誰都會說，能不能搞出來，咱還得實打實地看成品。

已經去排了隊，等拿到內測資格，再跟大夥兒同步一波…

WONGCW 網誌