餵了1000多萬個視頻特斯拉FSD V12開發細節曝光:有時比馬斯克開得好
特斯拉FSD V12系統的開發細節曝光了。雖然馬斯克預告過FSD V12改變了技術路線,但讓人意外的是,特斯拉其實在今年年初才開始訓練這個基於神經網絡的智能駕駛算法。而就在四個月後,新系統就已經準備好取代舊系統;八個月後,全新的FSD V12在馬斯克直播中亮相。
這背後則是一條改變的技術路線,從規則驅動,到數據驅動;從分模塊設計,到端到端。
同時也帶來了新挑戰。
FSD V12:只有神經網絡
總的來說,特斯拉FSD V12只有一個核心特點:沒有規則代碼,只有神經網絡。
什麼意思?
市面上常見的自動駕駛系統,大多采用分模塊設計,包括感知、決策、控制三個模塊,各任務內部採用各自的算法模型。
其中AI算法主要應用在感知模塊,決策、控制模塊還是常規的,基於if else邏輯的代碼。
也就是算法工程師編寫的代碼,會給自動駕駛系統建立一套規則,紅燈時要停車、綠燈時可以通行、要在車道中間行駛等等。
所以這種系統缺點很明顯,規則設定標準由各家工程師確定,駕駛風格很容易和司機習慣不匹配,從而體驗很差,還不如自己開。
而特斯拉FSD V12只有神經網絡的意思是,以往感知、決策、控制的幾大模塊在設計時統統不需要,只要確定神經網絡架構,然後輸入數據訓練就行。
一套神經網絡能處理所有輸入信號,並且輸出駕駛決策。
根據真實的人類駕駛數據,系統就能學會怎麼開車,並不斷開得更好。
這也就是所謂的從規則驅動到數據驅動。
從根據輸入的各種環境信息,系統基於規則來判斷這種情況下要怎麼開;到訓練時先輸入人類駕駛數據,系統充分學習人類駕駛習慣後,在實際駕駛環境中根據輸入的環境信息自己判斷怎麼開。
如果有處理得不好的情況,就專門針對這個場景多輸入一些數據。
也就是類似ChatGPT的訓練方式,不過是更適用於汽車的版本。
在決定改變技術路線之前,特斯拉自動駕駛團隊就向馬斯克展示了基於神經網絡的系統能處理更好的情況。
在道路上散落著垃圾桶、倒下的交通錐,還有一些隨機障礙物時,汽車能準確繞過以上障礙物,穿過車道線,並在必要的時候違反一些交通規則。
而在直播之前,馬斯克也對基於神經網絡開發的FSD進行了一次測試。
共計25分鐘的行駛路程,馬斯克只在系統處理過於謹慎時踩了踩油門,但始終沒有碰過方向盤,中間還有一次系統做出了比他預想中更好的操作。
我的人類神經網絡在這裡失敗了。
如何看待
其實早在馬斯克宣布FSD V12變為端到端技術路線之前,這個概念已經在自動駕駛玩家內興起。
因為端到端自動駕駛系統開發難度低,不用前期寫海量代碼(FSD V11版本控制堆棧中有超過30萬行C++代碼),也不用工程師提前設計規則。
只需要不斷輸入人類駕駛數據,系統就能自己看著學。
但是這對於自動駕駛玩家也提出了很高的要求。
比如輸入的必須是大量優質數據,才能更好幫助系統學習。
馬斯克發現,當輸入超過100萬個視頻後,基於神經網絡的自動駕駛系統才開始表現良好。
而在今年年初,特斯拉就已經向這套系統裡輸入了1000萬個人類駕駛視頻,並且還是經過篩選的,老司機的那種。
特斯拉在全球各地近200萬輛的車隊,每天也會提供約1600億幀視頻用於訓練。特斯拉預計,未來用於訓練的視頻將達到數十億幀。
這對於數據量、數據標註、算力等等來說都是挑戰。
並且,端到端技術之所以沒有大規模在自動駕駛玩家內普及,是因為有一個關鍵問題:這會增加自動駕駛系統的不可解釋性。
現階段來說,端到端自動駕駛仍然是一個“黑盒”,沒有辦法精準解釋某情況下系統處理得不好是因為什麼。
所以特斯拉給出的解決方案是,在測試時發現系統處理得不好,那就針對性的多餵數據。
比如馬斯克直播時系統差點闖紅燈,給出的解決方案就是多輸入一些交通信號燈,特別是左轉信號燈的視頻。
另外,馬斯克也給團隊定下了一個指標,實時顯示FSD系統在沒有人類干預的情況下行使的英里數。如果出現干預情況,就處理對應的問題。
更重要的是,這樣學下去還會誕生一個新的問題:系統不僅會學到老司機的絲滑操作,也會學到人類司機沒有符合交通規則的行為。
比如在遇到停車標誌時,超過95%的人會緩慢通過,而不是完全停車。
這意味著監管部門需要明確規範標準。
美國國家公路安全委員會就正在研究,是否允許自動駕駛系統進行沒有完全遵守交規的操作。
總之,特斯拉FSD V12的面世對於自動駕駛來說確實意義重大。既然能實現全流程AI化,那麼就更有邁向AGI,即通用人工智能的可能。
自動駕駛何時能迎來ChatGPT時刻?
命運的齒輪或許就從此刻開始轉動。
參考鏈接: