特斯拉FSD V12試駕平平無奇?
特斯拉CEO馬斯克親自上線,開啟了一場路測特斯拉FSD V12的直播。試駕過程中,馬斯克多次表示現在的系統沒有一行規則和條件判斷代碼,不需要高清地圖,甚至不需要聯網就可以完成一切。直播全程45分鐘,吸引超1000萬人在線圍觀。其中,馬斯克只有一次駕駛干預,這發生在一個繁忙的十字路口,馬斯克所駕駛的特斯拉試圖闖紅燈,他立即控制了車輛。
從技術上看,特斯拉FSD V12版本採用的是端到端的大模型技術,即:一端輸入環境圖像,一端輸出控制指令,中間是一個神經網絡大模型,這幾乎是接近人類真實駕駛。
針對這一事件,以及特斯拉FSD V12技術背後的邏輯,AI算法工程師EatElephant進行了解讀,賽博汽車授權進行編髮。
以下為《賽博汽車》依照EatElephant的文章整理改編而成——
其實挺驚訝對這次demo的評價目前看來還是比較負面的,從消費者角度其實這可以理解,畢竟19min就接管一次,還是闖紅燈這種極其普遍的駕駛場景中的致命錯誤,不過要知道這並非發布的用戶版本,而是研發內測的Alpha版本,說一個研發版本不夠完善穩定我個人感覺是有點吹毛求疵了。
作為技術從業者,我們更應該從更加技術的角度去看待FSD Version 12的這次demo,我個人認為這次demo給我帶來的衝擊和引起的思考是比較大的,甚至不輸於以往的幾次AI Day和Autonomous Day。
首先要知道為什麼大家對V12如此感興趣。原因是老馬在今年5月份就爆了一劑猛料,FSD V12會徹底轉向端到端的自動駕駛技術方案,並且他還說V12會令FSD走出Beta階段徹底成為一個正式版的產品。
老馬5月宣布Version12將轉為端到端系統的Twitter(X)
這個消息的噱頭有多大呢,我感覺吧其實不輸於2020年公佈FSD Beta將於當年10月發布,畢竟端到端的自動駕駛長期以來一直局限於學術研究中,Tesla之前唯二的先行者Comma僅僅只能進行高速方面的簡單駕駛動作,Wayve則局限於英國少數地區的內部測試,而要知道FSD可是在廣大的北美大陸可以任意開啟的,這需要端到端系統體現的泛化性可以說和前兩者相比要高出一個層級。
業內普遍共識,端到端的自動駕駛系統理論上有比現今模塊化的自動駕駛系統更高的能力上限,那麼端到端系統為什麼並沒有成為業界主流呢?
原因是端到端系統在提高模型上限的同時也無限放大了神經網絡黑盒的不可解釋的問題,而不可解釋性會給研發迭代和問題解決造成巨大的負面影響,同時業界也沒有端到端系統的成功先例,對於這種處於前沿科技無人區的技術方案絕大多數公司是沒有勇氣和實力敢為天下先的。
那作為端到端的V12首次公開亮相,我認為這次demo是毫無疑問的成功的,甚至是驚豔的。我的理由主要有以下三點:
1. 本次Demo展現了FSD V12端到端系統的成熟度
很多國內外的網友質疑這次Demo的路況場景都十分簡單,Palo Alto的交通即使在下班高峰看起來也遠遠比不了國內大城市道路的擁擠繁雜,在這種情況下甚至還有一次嚴重問題接管,其實算不上優秀,對於這個觀點我其實很認同。
然而作為自動駕駛的算法從業者,我對於這次demo的關注點其實不在場景的困難程度,因為理論上端到端的系統自然比基於規則和搜索的現今主流自動駕駛系統上限高很多,其核心問題在於下限可能很低。
端到端系統起步慢但上限高
今年CVPR 小鵬的Patrick有這樣一個圖表很好的說明了端到端系統的特性,可以看到端到端的系統最大問題在於模型能力起步較慢,同時黑盒不可解釋不可控的性質會導致系統雖然能夠處理複雜場景,但是簡單場景很可能相比目前主流系統會產生退步,甚至是犯很多“弱智”的錯誤,同時因為業界缺乏端到端系統的工程實踐經驗,一些看似簡單的fix無法通過增加規則代碼迅速解決,因此嘗試端端到端的方案大多數時候可能會是死在起跑線。
實際上我甚至認為如果哪家公司能夠利用端到端的新技術架構來獲得一個功能穩定性匹敵現有技術架構的自動駕駛系統,那麼基本可以證明端到端系統是未來方向。
因為,理論上端到端系統在達到現有技術水平的那個時間點之後會很快繼續提高水平將現有技術棧甩在身後,所以上圖紅藍線交叉的點我認為可以稱作端到端系統正收益的爆發點,一旦達到這一點基本上主流的技術範式就會被顛覆。
所以,考慮到Tesla V12應該研發時間不長,我對於V12首秀能在隨機選取的測試路線上在眾多基礎的轉彎,變道,環島,與行人交互等場景表現十分穩定平順其實是非常驚訝的,而FSD V12的這次初次亮相部分說明了Tesla已經比較接近這個爆發點了,而這是我認為本次Demo傳遞的十分重要的信號。
2. 透露了Tesla端到端自動駕駛的一些重要的思路,理念和實踐經驗
這次Demo另一個關鍵意義在於,通過Demo的一些細節以及直播過程中老馬和Ashok的聊天透露了很多Tesla對於端到端系統的實操經驗和理解,而在端到端系統嚴重缺乏行業最佳實踐的現在,這毫無疑問是對技術從業者俱有啟發意義的。
比如說,很多人以為端到端是一個中間完全不透明的黑盒,但是實際上目前大多數比較深入的端到端實踐都表明保持端到端系統中間結果的可解釋性是很重要的。
今年CVPR Best Paper UniAD就設計了一個端到端可導但是保留了中間子網絡輸出的端到端系統,而從直播中可以發現V12幾乎完整的保留了當前FSD的感知結果輸出,很顯然至少在目前階段Tesla的端到端技術方案也是保留中間功能子網絡的路徑。
那這個方案和普通的模塊化方案有什麼區別呢?
其實重要區別在於各模塊都去除了基於規則的代碼,使得整個系統端到端可導,這使得整個系統作為一個整體直接對於駕駛動作進行訓練優化成為可能。而傳統的自動駕駛架構由於模塊化以及並非端到端可導,使得各個功能模塊只能通過各自訓練優化自己的任務,最終結果是多個局部最優無法實現整個系統的全局最優。
CVPR 2023 Best Paper UniAD保留了整個系統中間的各個功能網絡
這樣的方案其實比較好理解,保留中間結果相當於通過人類先驗知識把人類覺得有用的駕駛概念提取出來,給到端到端下游網絡,也給到網絡的還有可能包括更加前端基礎的輸入,由下游決策規劃網絡自由選擇使用哪些信息進行判斷,這樣的技術方案通過人類先驗加快了端到端系統訓練時性能起步速度,但是又保留了原始信息直接輸入下游,減少了傳統模塊話系統中間輸輸出導致的信息損失。
同時,對中間結果進行分析也有助於確定係統犯錯時問題的原因,提高解決問題的效率。
V12幾乎保留全部FSD感知結果可視化效果,但似乎沒有紅綠燈可視化
另外馬斯克和Ashok在聊天過程中反復強調V12沒有顯式的把車道線,環島,減速帶等概念的處理辦法灌輸給系統,對於這點我的理解是V12並不是沒有檢測這些內容,而是在規控網絡中沒有顯式的添加如何應對這些概念的規則,應對方法是由網絡自己通過駕駛員視頻學習得到的。
例如,軟件沒有顯示要求自車要在車道線居中,模型自己從人類駕駛視頻中學習何時應該居中,何時可以適當偏離中線以達成更加擬人的駕駛決策。
3. 展現了端到端自動駕駛系統相比傳統架構優勢的一些閃光點
雖然上面說了,我更加關注的是V12相比現有FSD是否在基礎功能上存在性能回退,但是在這次Demo中我們也看到了很多V12的閃光點。
這次的一個大家容易忽略的亮點其實就發生在老馬第19min紅綠燈接管之前。
當時的場景是這樣的,直行的綠燈亮起但是前方路口擁堵,這時比較合理的駕駛決策是不要進入路口,等待目標路口空間出現再選擇通過路口,而FSD V12也正是這樣做(不要糾結國內國情,實際上我國的交規也是這樣建議的,雖然很少有人按照執行),不過這也導致了這次綠燈V12沒能通行,一直到綠燈變紅,再下一次左轉綠燈亮起的時候V12出現了誤判。
上述情況出行的原因是:V12目前似乎並不直接檢測紅綠燈的狀態(可視化界面中好像不再出現紅綠燈檢測結果),而是綜合參考了紅綠燈情況和周圍其他這輛行為來判斷是否應該通行,所以當有紅燈變綠,且周圍左轉車輛開始移動的時候,V12產生了錯誤判斷,認為直行也已經可以通行,造成接管。
直行綠燈但路口擁堵,V12選擇等待,沒有進入路口
第二個亮點出現在一次途徑點到達過程中,V12可以進行靠邊停車的操作,而這也是目前的FSD所不具備的功能。
而且Ashok在直播過程還透露,未來FSD甚至可以響應用戶語音指令輸入。例如用戶可以告訴FSD向左換道,或者告訴FSD帶自己到達前面沃爾瑪,FSD就會根據語音指令分析其中語義信息並執行相應動作。這裡我的猜測是有可能在V12的模型中也有文字模態的加入,這也是目前自動駕駛系統中很少使用的新技術,隨著大語言模型的爆炸式發展,在自動駕駛中融入語言模型這一方向也給人很大的遐想空間。
總之這次FSD V12的Demo可以說是自動駕駛行業內一次具有顛覆性的事件,雖然本次demo依然存在問題,也還無法完全證明端到端系統就是自動駕駛未來的前進方向,但是隨著本次demo的展示,我相信端到端的自動駕駛很可能將擺脫空中樓閣的尷尬境地,有潛力成為未來幾年內行業爭先投入的重點。
作為行業領軍的Tesla(也許有人不認同,但是我身邊的從業者絕大多數對此是承認或者默認的)再次扮演了敢為天下先的角色,後續自動駕駛技術範式到底如何迭代,這次demo的意義可能比很多人想像的更加深遠。
(本文作者: EatElephant為AI算法工程師,原文發表在知乎,https://www.zhihu.com/people/eatelephant)