特斯拉AI Day深層解讀:馬斯克堅持純視覺絕不動搖
“打造像人腦一樣基於視覺的神經網络系統”,這是2021年特斯拉(TSLA.US)AI Day的核心主題,本質上是馬斯克堅持純視覺路線的延續和說明。 汽車人參考結合AI Day的內容,從硬體和軟體兩個層面進行深入分析。
車端感知硬體做減法
從2014年的HW1.0開始,特斯拉自動駕駛不用鐳射雷達已是路人皆知,晶元設計從外購逐步走向自研,車越賣越多,神經網路越來越成熟,車端”12個攝像頭+1個前向雷達”這套感知硬體整體框架一直沒有變化。
2021年5月發佈的”Tesla Vision”,取消了毫米波雷達,特斯拉最終走向了純視覺。
其使用的德國大陸第四代中距前向雷達,作為一款入門產品,無論從FoV還是角解析度,性能上都稱不上最佳,而且更缺乏高度資訊。
這就帶來了一個問題,或者說現有毫米波雷達的通病,對大量靜態目標,包括很低的路燈、隧道頂等產生反射,特別是金屬圓盤,反射信號會被進一步放大,就會產生大量的虛假雜點。
因此需要在演算法上需要進行過濾,但過濾多了就會”漏檢撞車”(可聯想(20.74, 0.35, 1.72%)到蔚來(36.92, 0.63, 1.74%)汽車近期的事故),而過濾少了就會有”幽靈刹車”(特斯拉車主抱怨)。
更重要的是,攝像頭每秒傳輸的比特量是毫米波雷達的100倍,當兩者數據進行融合時,置信度不高,會產生跳躍和抖動的問題。
攝像頭就如同人的視覺,而毫米波雷達更像是人的嗅覺,在對前方物體進行分類識別時,兩者發生衝突,視覺才是主導。
雲端Dojo超算力,足以媲美人腦
現有特斯拉車端FSD晶元算力主要依靠兩塊SoC晶元,算力為144TOPS,並不高,但是,基於幀檢測的攝像頭需要依賴高算力,其核心訴求是高頻寬和低延遲。
高頻寬意味著數據交換的通道多,低延遲表示數據交換速度快,而特斯拉雲端的中央計算平臺”Dojo”就是為此而生。
Dojo由5760個英偉達A100GPU組成,其總算力達到1.8EFLOPS,帶寬達到了1.6TB/s,存儲空間為12PB,足以與人腦相媲美。
其核心是能將多個GPU通過台積電(108.12, -2.40, -2.17%)首次量產的InFO-SoW扇上晶圓直出封裝技術,封裝在一個基板上,成為一個D1晶元組。
由於晶元間的距離極短,因此D1晶元組就是一個低延遲的數據交換結構,以D1晶元組為單元,構建了整個Dojo的硬體體系,用於支撐更大更複雜神經網路的AI訓練,實現對數據的高效處理。
越來越成熟的全棧AI神經網路
在軟體層面,特斯拉整個神經網路架構如下圖所示:
最底層的是數據、GPU集群以及Dojo計算集群,進行數據採集、標註和訓練,生成模型;上一層是基於PyTorch開源框架(Facebook(359.37, 4.25, 1.20%))的深度神經網路,主要負責對模型進行分散式訓練;再用損失函數對模型進行評估;在評估層之上,是雲端推理和車端FSD晶元推理,在這一層意味著模型已經部署到了車端 ;在車端通過影子模式將模型與人類駕駛行為進行比對,檢測是否存在異常。
在這個架構底層,需要數以百萬計的,經過清晰標註的(速度、加速度、深度),且包含大量邊緣案列的數據進行餵養。
在數據標註層面,特斯拉一直致力於自動打標籤,通過Dojo在傳統攝像頭2D圖像基礎上,實現立體空間+時間戳的四維標註。
此外,為了應對長尾問題(Conner Case),特斯拉開發了221個Trigger,主要目的是為了獲得邊緣化的場景。
截止到今2021年6月底,特斯拉一共積累了7輪影子模式反覆運算流程,包括了100萬個由攝像頭拍攝的36 幀/s、10秒時長的高度差異化場景,共計60億個包含精確的深度和加速度的物體標註,總計1.5PB的數據量。
下圖為一輛特斯拉眼中的數據世界Mind of Car:
汽車人參考小結
馬斯克堅持純視覺路線的底層邏輯,本質上是特斯拉的技術壁壘。
在硬體層面,車端感知層開始做減法,雲端超計算Dojo,對數據自動標註;而在軟體層面,實現從數據、模型、訓練、推理、反覆運算的全棧AI神經網路架構。
回到開頭的第一句話,打造像人腦一樣基於視覺的神經網路系統,既是2021年特斯拉AI Day的核心主題,又體現了馬斯克第一性原理的處世哲學。