智駕產業程式設計師可能早於叫車司機被取代
每項新技術從誕生到推廣,會經歷各個不同的階段,也會面臨各種不同的聲音。研發者為了找到技術最優解,可能會放棄已有多年的努力;而商業機構則更偏重於判斷技術落地的時機,以在適當的時機謀取最大的利益。
關於智慧駕駛,國內各主機廠商就一度有過很深的認知分歧。支持者認為它可以帶來「遙遙領先」的體驗,而反對者則拋出過「臭搞技術的」、「自動駕駛都是忽悠」等言論以表達不屑。
2024 年,隨著基於「端到端」的特斯拉智慧駕駛軟體FSD V12 版本正式推送,中國汽車廠商對智慧駕駛的態度,終於開始收斂了。
以新勢力造車代表蔚小理為例,各家對於「端到端」技術的追逐顯然開始發力了。
小鵬提出將端到端的大模型引入智駕系統,並表示今年要在智能化和訓練數據上投入42 億元,目標是以後可以做到「兩天一次內部OTA」。這是過去依靠人類維護數十萬行智慧駕駛程式碼的工作方式所不敢想像的效率提升。
蔚來也於近期重組了智慧駕駛研發部,將傳統的感知與規模團隊合併為大模型團隊,核心也是推動以神經網路為基礎的典範迭代。
甚至過去被調侃為「摳廠」的理想,也在近期頻繁為智慧研發造勢。 CEO 李想親自為「端到端」研發月台,搬出諾貝爾經濟學家的快慢思考理論,以說明自家團隊找到了解決自動駕駛conner case 的方向。
那麼,讓各廠商從非共識走向共識的端到端,為什麼會有這麼大的魔力?它如何改變了智慧駕駛產業的範式,又將帶來什麼樣的機會與調整?
智駕的GPT 時刻已經來過了
國內各廠商迅速形成共識的重要原因,是特斯拉率先交出了一份讓人羨慕的端到端答案。
今年3 月,特斯拉正式推播了智慧駕駛軟體FSD V12.3 版本。這個版本的最大改變,就是把整個智駕系統工作的動力,從人類編寫的程式碼,切換成了基於神經網路的AI 大模型。馬斯克用「Video in to Control out」來形容這種新的工作範式,即:AI 根據自己「看」到的路面訊息,直接輸出駕駛操作,也就是業界常說的「端到端」(End -to-End)。
上個月,何小鵬在加州體驗了FSD V12.3.6 版本。用他的話來說,FSD「很多路況處理都很絲滑」。這正是AI 神經網路相比代碼驅動的最大優勢所在:在不同城市、不同路況下,大幅提升智駕系統的泛化學習能力。
翻譯成國內消費者更熟悉的廣告行銷話術就是:全國(全球)都能開。
華為在去年9月喊出「全國都能開」的宣傳語| 來源:極客公園
當然,這個結論在現階段還只是一個美好的心願。在實際操作過程中,還需要資料、演算法、算力等AI 基礎設施的全力加持和訓練,才可能接近「AI 變得和人類駕駛員一樣聰明」這個目標。
但對同行來說,FSD V12 版本意義重大。它驗證了神經網路真的可以取代人類編寫的程式碼,甚至可以做得更好更有效率。
這意味著不用再等N 年,智慧駕駛產業裡的ChatGPT 時刻其實已經到來了。想想阿里張勇曾經說過的那句話:所有軟體都值得用AI 重做一遍。 FSD V12 正是給了同行一個新的方向和信心:所有智駕的技術棧,都可以用端到端重做一遍。
在FSD V12 beta 版本發布的時候,馬斯克說過,這一版本把前一版本的30 萬行程式碼壓縮到了2000 行,相當於不到百分之一的水平。
新科技堆疊裡的智駕比拼,不會演變成比誰人更多的反創新內捲遊戲。如果AI 的效率真能達到何小鵬所說的兩天一次內部OTA,那逐條寫規則、改bug 的人海戰術就可以宣布徹底過時。
所以智駕產業還需要那麼多程式設計師嗎?筆者無法給出準確的答案,但可以肯定的是,智駕程式設計師的工作內容也將發生一系列改變。只會寫if else 規則的程式設計師,大機率會早於計程車、叫車司機們被AI 取代。
睏在數據裡
在投資機構辰韜資本上個月發布的《端到端自動駕駛產業研究報告》中,30 餘位自動駕駛產業受訪者,只有13% 表示對端到端技術持相對謹慎的「觀望」態度,其餘均表達了更積極的「預研」甚至「全力投入」的態度。端到端已經在業界從業人員成為了共識。
但事實上,目前還沒有任何一家企業(包括特斯拉在內),可以做到「原教旨主義端到端」。也就是把自動駕駛的所有環節都集中在同一個大的模型裡,真正達到和人類一樣的「輸入視覺訊號,輸出踏板和方向盤操作」。
大部分國內主機廠現階段所做的核心努力,是打通感知與決策模組。這其中的關鍵,就是取消模組之間的人工定義結果,多用特徵向量傳遞無損訊息。
端對端自動駕駛的架構演進示意圖| 圖片來源:辰韜資本
在端到端之前,傳統自動駕駛架構來自機器人領域,分為感知、規劃、控制等不同模組。不同模組由不同團隊開發,在模組與模組之間,主要透過人工定義的介面傳遞訊息。舉個最簡單的例子,對於車輛是否壓線行駛這個現象,在傳統感知模組裡就可以用最簡單的電腦二進位語言進行表徵。
而打通感知和決策模組的最大好處,就是可以涵蓋更多現實世界中規則無法準確描述的「灰階場景」。例如,當你開車時,並不需要知道前車精確的行駛速度,或者它是否壓線,只需要關注相對位置變化。
在這個基礎上,基於生成式AI 的理論,期待神經網路模型也能在大量輸入後產生智慧湧現,成為AI 智能體。
這一切的基礎都來源於數據,也就是「餵」給模型的訓練素材。但是,和基於文字的語言大模型不同,智駕模型並不容易找到足夠的公開視訊資料作為訓練素材。
前述《端到端自動駕駛產業研究報告》顯示,目前規模最大的公開資料集只有1200 小時資料。而根據馬斯克2023 年的說法,特斯拉在端到端的初期,就投入了近4 萬小時的影片進行訓練。
相較於其他車企,特斯拉數據的優勢主要在於量產車多。
目前,特斯拉在全球共交付了超過600 萬輛汽車,而在中國積極佈局智駕的新勢力裡,量產車的數量只是特斯拉的零頭。再加上一貫的極簡SKU 和全量預埋的智駕硬件,讓資料收集變得更加容易。
國內先前的常規做法,通常是依賴人工獲取道路資訊。但是,要訓練出一個聰明的端對端模型,也需要盡量涵蓋足夠多邊緣場景(conner case)的資料。由於邊緣場景的出現非常隨機,有廠商曾經表示,僅靠人工資料收集,只能得到約2% 的有限資料。
此外,和特斯拉相比,國內廠商往往有著更複雜的SKU。而不同車型之間,由於車輛尺寸、感測器佈局等不同,模型中的相關參數也需要重新對齊。
以華為系為例,鴻蒙智行過去一年多的時間裡展現出了極強的終端銷售能力,但對於華為車BU 服務的不同品牌、不同型號的車型來說,端到端落地後仍然需要工程師進行對齊和交付工作。對於有2 個品牌9 款車型的蔚來來說,也是如此,他們把整合團隊重組到了交付團隊中。
在Sora發布後,馬斯克發推表示特斯拉用AI模擬真實世界駕駛| 圖片來源:X截圖
有一種觀點是,以Sora 為代表的文生視訊類產品有可能成為端到端模型的素材來源。但就算對馬斯克來說,用AI 生成的內容訓練AI,也還沒有被公開認可。畢竟資料的資料對於模型訓練太重要了。要知道,一向對人力成本極致「摳門」的馬斯克,當年也在紐約雇了1,000 人團隊,來為特斯拉的道路視訊資料標註。
別被馬斯克“帶溝裡”
聽起來,轉向端到端是個自然而然的事,但刪除30 萬行程式碼,對過往組織架構打散重組,絕對不是一個容易做出的決定。事實上,連馬斯克也是半撞大運的走上了這條路。那個在2022 年底第一次向他提出要學習ChatGPT 搭建智慧駕駛神經網路的工程師,差一點就被老馬調去解決Twitter 收購後的其他問題了。
訓出了端到端模型,對應的支援體系(包括算力等)也要夠有效率。蔚來智慧駕駛研發副總裁任少卿接受《騰訊深網》訪問時,表示如果沒有基本能力就強行上端到端,就等於在用「毒藥」。
他說:「如果你原來的程式碼架構夠清晰,你的(debug)測試量可能只有1%。原先你花三天重新測1%,現在不好意思,你花三天要重測100%。所以你的資料驗證體系效率要夠高。
但是千萬別直接被特斯拉帶到溝裡,端到端此刻只是證明了它具備提高工作效率的可能,但並沒有證明它就是通往自動駕駛的最終解法。
這一點和業界關於Scaling Law 能否通往物理世界AGI(通用人工智慧)的認知是一致的:可以肯定,生成式人工智慧可以具備更高的智能,但是否可以理解物理規律,並在自動駕駛、機器人等領域應用,學界尚無定律。在《端到端自動駕駛產業研究報告》,有超過一半的從業人員不認為端到端是自動駕駛技術的終局解決方案。
對於自研智駕的主機廠來說,現階段最務實的做法,還是依托端到端讓智駕能力多快好省地落地。至於智駕軟體訂閱這件事,也許還需要更長的路。畢竟在中國市場上,硬體往往比軟體和服務好賣。
當然,大機率也沒有那麼多人想成為馬斯克那樣的創新賭徒。放著好好的廉價車款不研發,去豪賭Robotaxi,發布一延後市值能跌千億美元。更多的普通玩家,只是希望搭載了端到端的智駕軟體,能幫助硬體賣得更好。當然,如果還能順便賣得更貴,那就是最美妙的事了。