自動駕駛獨角獸如此造假LeCun都服了
你以為這是個平平無奇的自動駕駛影片?NO、NO、NO……這其實是完全由AI從頭產生的。沒有一幀是「真的」。不同路況、各種天氣,20多種情況都能模擬,效果以假亂真。
世界模型又立大功了!這不LeCun看了都激情轉發。
如上效果,由GAIA-1的最新版本帶來。
它規模達90億參數,用4700小時駕駛影片訓練,實現了輸入影片、文字或操作產生自動駕駛影片的效果。
帶來的最直接好處就是──能更好預測未來事件,20多種場景都能模擬,從而進一步提升了自動駕駛的安全性、也降低了成本。
其主創團隊直言,這能夠改變自動駕駛的遊戲規則!
所以GAIA-1是如何實現的?
規模越大效果越好
GAIA-1是一個多模態生成式世界模型。
它利用視頻、文字和動作作為輸入,產生逼真的駕駛場景視頻,同時可以對自主車輛的行為以及場景特徵進行細粒度控制。
而且可以僅透過文字提示來產生影片。
其模型原理有點像大語言模型的原理,就是預測下一個token。
模型可以利用向量量化表示將視訊幀離散,然後預測未來場景,就轉換成了預測序列中的下一個token。然後再利用擴散模型從世界模型的語言空間產生高品質視訊。
具體步驟如下:
第一步簡單理解,就是對各種輸入進行重新編碼排列組合。
利用一個專門的編碼器對各種輸入進行編碼,不同輸入投射到共用表示裡。文字和視訊編碼器對輸入分離、嵌入,操作(action)表示則被單獨投射到共用表示裡。
這些編碼的表示具有時間一致性。
在進行排列之後,關鍵部分世界模型登場。
作為一個自回歸Transformer,它能預測序列中的下一組影像token。而且它不僅考慮了先前的圖像token,還要兼顧文字和操作的上下文資訊。
這使得模型生成內容,不僅保持了圖像一致性,而且和預測文字、動作也能保持一致。
團隊介紹,GAIA-1中的世界模型規模為65億參數,在64塊A100上訓練15天而成。
最後再利用視訊解碼器、視訊擴散模型,將這些token轉換回視訊。
這一步關乎影片的語意品質、影像準確性和時間一致性。
GAIA-1的視訊解碼器規模達26億參數規模,利用32台A100訓練15天而來。
值得一提的是,GAIA-1不僅和大語言模型原理相似,同時也呈現了隨著模型規模擴大、產生品質提升的特徵。
團隊將先前6月發布早期版本和最新效果進行了比較。
後者規模為前者的480倍。
可以直觀看到影片在細節、解析度等方面都有明顯提升。
而從實際應用方面出發,GAIA-1也帶來了影響,其主創團隊表示,這會改變自動駕駛的規則。
原因來自三方面:
安全
綜合訓練數據
長尾場景
首先安全方面,世界模型能夠透過模擬未來,讓AI有能力意識到自己的決定,這對自動駕駛的安全性來說很關鍵。
其次,訓練資料對於自動駕駛來說也非常關鍵。產生的資料更安全、便宜,而且還能無限擴充。
最後,它還能解決目前自動駕駛面臨的最大挑戰之一——長尾場景。生成式AI可以兼顧更多邊緣場景,例如在大霧天氣行駛遇到了橫穿馬路的路人。這能更進一步提升自動駕駛的能力。
Wayve是誰?
GAIA-1來自英國自動駕駛新創公司Wayve。
Wayve成立於2017年,投資方有微軟等,估值已經達到獨角獸了。
創辦人為現任CEO亞歷克斯·肯德爾和艾瑪爾·沙(公司官網領導層頁已無其信息) ,兩人都是來自劍橋大學的機器學習博士。
在技術路線上,和特斯拉一樣,Wayve主張利用攝影機的純視覺方案,很早就拋棄高精地圖,堅定的走「即時感知」路線。
前不久,團隊發布的另一個大模型LINGO-1也引發轟動。
這個自動駕駛模型能夠在行車過程中,即時生成解說,更進一步提高了模型可解釋性。
今年3月,比爾蓋茲也曾試乘過Wayve的自動駕駛汽車。