建築工地成無人車噩夢Waymo栽跟頭多到被約談
Robotaxi,防火防盜防「工地」。 Waymo就栽了。北美監管部門剛剛又開啟了針對Waymo無人車的調查,起因是收到一系列相關事故報告。有撞上路邊停放車輛的,有撞靜止障礙物的,阻塞交通的…以及一個不尋常高頻場景:建築工地。
發生了什麼事
大概3個月內,Waymo累積上報了22起事故,引起了美國國家公路交通安全管理局的注意。
根據NHTSA的文件顯示,這些事故包括Waymo無人車和靜止和半靜止物體(例如門)相撞、與停放車輛相撞以及違反交通安全控制裝置的情況。
其中「違反交通安全控制裝置」官方特別說明是一個重點調查方向,一個典型場景就是自動駕駛系統對交通錐/雪糕筒的偵測辨識能力。
這個點比較罕見。因為這次上報的22起事故中,很多都牽涉到同一種場景──工地。
例如上個月,6輛編隊行駛的Waymo Robotaxi,下班收工回停車場,結果遇到了施工現場臨時交通管制,直接卡死在雪糕筒圍成的臨時通行區,造成了大約半個小時交通擁堵。
有本地生活經驗的網友立刻認出來,這是舊金山Potrero 大道101 號匝道,Waymo無人車卡死的地方,剛好是高速入口。
最後,是路上的司機老哥直接下車手動移開雪糕筒,後面的車隊依序繞過幾輛「癱瘓」的無人車。
Waymo方面出了簡單聲明,大意是30分鐘內就派人去現場挪車了,沒有造成任何傷亡和財產損失,後續會配合調查。
不過在鳳凰城的建築工地,就沒這麼幸運了。
同樣一輛Waymo無人車,無視了雪糕筒圍出的施工區域,直接衝進了建築工地。
幸好速度不快沒撞到人,不過車輛本身、工地現場都有不同程度損失。
類似這樣的事故很多,每次無人車“衝進工地”的小視頻,都會在網絡上瘋傳。
網友總結的很生動:交通錐就是Robotaxi的氪石(kryptonite),現在再神通廣大的自動駕駛,遇到封閉道路的交通錐,都得完蛋。
咦?好像跟Waymo官方秀出的影片不太一樣呀。
為什麼建築工地很難?
Waymo第五代自動駕駛系統繞行施工區,曾被當做技術亮點專門解析。
在官方的Demo中,無人車面對的場景更加複雜,除了交通錐、不規則區域,還有來回走動的工人。
Waymo無人車當然是毫不費力完成了一系列避讓、繞行動作,順利通過了施工區域:
這裡面讓人嘖嘖稱奇的是,Waymo無人車似乎能夠看懂人類指揮交通的肢體語言,讓停就停,讓走就走,而不僅以路面條件作為依據。
怎麼做到的? Waymo負責預測演算法的工程師Maya Kabkab簡要解釋了一下,大意是第五代技術中,Waymo加強了對不同物體目標的理解能力,以及對可通行區域的識別能力,這兩項使得系統能更好規劃通行路線。
核心是用全新模型VectorNet取代CNN,擷取感測器和高精地圖資訊。
簡單的說,是將高精地圖和感測器輸入資訊表示為點、多邊形或曲線,VectorNet則將所有道路特徵和其他物件的軌跡表示為對應的向量。基於這個簡化的視圖,VectorNet可以提取每個向量的資訊以及學習不同向量之間的關係。
好處是VectorNet比CNN佔用運算資源更少,出結果的速度更快,理論上也能更清晰的提取出關鍵場景資訊。
但VectorNet仍沒有解決「建築工地」難題的核心——
「建築工地」本身就是高精地圖的例外,不可能同步更新,只能靠感測器即時感知。
但感測器的數據在不同子模型之間依序傳遞,訊息損失難以完全避免。
Robotaxi經常出現被建築工地卡死,直接原因是對交通錐、異形物的錯檢漏檢。
而深層原因,是傳統自動駕駛技術範式存在能力的上限、天花板,難以覆蓋路上所有的corner case。
所以能不能順利避讓建築工地,成了一種機率事件:官方Demo精雕細琢反覆測試,那沒問題;單上路實測,就只能看天吃飯了。
端到端能解嗎?
“遇事不決量子力學”,是一句調侃。
但在自動駕駛領域,遇事不決,的確都可以「端到端」一下。
所謂「端到端」是針對傳統技術範式而言的,其中自動駕駛的感知、決策、規控等等相互獨立。感測器收集到的數據,需要通過這一系列不同的演算法模組,最終才能「變成」操作指令。
每個獨立模組之間的資訊是逐級傳遞的,在這個過程中必然會存在資訊的遺失和誤差,而且前一個模組的誤差會影響到下一個,多個模組之間的資訊誤差會不斷累積,進而影響自動駕駛方案的整體效果。
無論是純視覺感知,或是融合感知,「錯檢漏檢」的根源就在這裡。
當然也有對應的解決方法,那就是透過人手寫的規則,盡量打補丁提高感知辨識的可靠性。例如能辨識車、人,但識別不了“人站在車前”,那好辦,直接將這類目標單獨建一個資料集拿來訓練模型不就行了?
這就是所謂感知「白名單」機制。
但問題是,很難窮舉所有種類的交通目標和場景,這次解決了「人在車前」的問題,但如果車子從乘用車變成大卡車呢?或是一個人變成大人牽小孩呢?
對於Robotaxi的建築工地難題來說也是一樣,工地可能臨時出現,隨機刷新,不會限定區域限定時間,而每家工地的搭建、施工路障都不一樣…
所以從感知開始就實現訊息的無損傳遞,讓系統真正理解環境,需要有一個全新的演算法範式──端到端演算法模型。
兩個端分別指資料輸入端和指令輸出端,中間不再分成幾個相互獨立的模組。
端到端模型能夠透過完全數據驅動的模式,將其學到的能力和技巧遷移泛化到其他場景當中,自主且高效解決行泊場景中新出現的各類長尾問題,具備更快的迭代效率,有效降低開城成本。
通俗的說,就是讓AI司學習人類成熟駕駛行為,看到一種場景,做出相應對策。實際上「端到端」已經摸到了AGI的門檻。
2016年端到端模型由英偉達首次提出。但真正得到量產實務這兩年才開始。目前只有特斯拉的FSD和中國AI玩家的CVPR 2023最佳論文— UniAD。
智慧車參考也分別就Waymo遇到的工地難題詢問了這兩家國內自動駕駛頭玩家的看法。
地平線從工程實務角度出發,認為:
自動駕駛的工地難題和端到端技術範式並不是綁定的。理論上講,感知能力夠強、感知白名單夠豐富也是能解決問題的。
但顯然,端到端的自主學習能力、類人思考會更大規模、更高效率的解決這個問題。
而商湯的看法更從「第一原理」出發,絕影智駕相關技術專家相關認為:
不對具體的case進行評價。但基於規則的傳統智駕方案的感知還是人為定義要素,並對感知資訊進行抽象提取,這就會導致資訊傳遞過程的損失和遺漏,讓感知決策模組難以做出正確的決策。而端到端是在一個神經網路中,將外部環境的資訊無損輸入和傳遞,更準確和完整地理解外部交通環境,並做出規劃和決策。
規則方案可以透過增加規則、新增補丁來解決一個場景。但是這樣的場景不會只有一個,是無限的。而足夠的資料進行學習訓練之後,端到端方案可以像人一樣思考、開車,自己解決更多類似的corner case。
總結一下,地平線和商湯表達不同,但核心一樣,都認可端到端是解決Robotaxi工地難題最有效的方法。同時也是解決自動駕駛各類長尾問題最高效的途徑。
對了多說一句,提出UniAD的CVPR 2023最佳論文,地平線和商湯的學者都參與了撰寫。
端到端對傳統科技範式革新,給了所有玩家新的機會:更好的智駕體驗、更低的維護、泛化成本,以及更有競爭力的自動駕駛方案成本。
但代價是以往模組化的、規則驅動主導的技術體系,必須推倒重構。
昔日自動駕駛絕對領導者Waymo,如今陷入「建築工地」困境中,更加證明自動駕駛這條賽道「水無常形,兵無常勢」:
老牌明星可能會優勢歸零重置,「後來者」也會獲得領先優勢。