MIT研究人員利用AI來幫助自動駕駛汽車避免在紅燈前空轉
沒有人喜歡在紅燈前等待。但有信號燈的十字路口對司機來說不僅僅是個小麻煩,並且車輛在等待信號燈變化時會存在浪費燃料以及排放溫室氣體的情況。如果駕駛者可以精確地安排他們的行程從而使他們每次都能直接通過紅綠燈會怎麼樣呢?
雖然這可能只是人類司機在特別幸運的情況下發生,但它可以也由使用AI控制其速度的自主車輛更穩定地實現。
在一項新研究中,麻省理工學院(MIT)的科學家們展示了一種機器學習的方法。該方法可以學習控制一隊自主車輛,當它們接近並通過一個有信號燈的十字路口時能夠保持交通順暢。
根據模擬結果,他們的方法可以減少燃料消耗和排放,與此同時還能提高平均車速。如果道路上的所有汽車都是自主的,那麼該技術就會得到最好的結果,但即使只有25%的汽車使用他們的控制算法,它仍會帶來巨大的燃料和排放效益。
“這是一個非常有趣的地方,它可以進行干預。沒有人的生活會因為他們被堵在一個十字路口而變得更好。在很多其他氣候變化干預措施中有一個預期的生活質量差異,所以那裡有一個進入的障礙,”這項研究的論文高級作者Cathy Wu指出。據悉,他是土木與環境工程系Gilbert W. Winslow職業發展助理教授,也是數據、系統和社會研究所(IDSS)和信息與決策系統實驗室(LIDS)的成員。
LIDS和電氣工程與計算機科學系的研究生Vindula Jayawardana都是該研究的論文第一作者。該研究將在歐洲控制會議上發表。
錯綜複雜的十字路口
雖然人類可能會不假思索地駛過綠燈,但十字路口可能會出現數十億種不同的情況,具體取決於車道的數量、信號燈的運作方式、車輛的數量和速度、行人和騎車人的存在等等。
解決交叉口控制問題的典型方法是使用數學模型來解決一個簡單、理想的交叉口。這在紙面上看起來不錯,但在現實世界中很可能站不住腳,因為那裡的交通模式往往是混亂的。
對此,Wu和Jayawardana換了個角度思考,他們用一種被稱為深度強化學習的無模型技術來處理這個問題。強化學習是一種試驗和錯誤的方法,控制算法學習做出一系列的決定。當它找到一個好的序列時它就會得到獎勵。通過深度強化學習,算法利用神經網絡學到的假設找到通往良好序列的捷徑–即使有數十億的可能性。
這對於解決像這樣的長線問題很有用。Wu指出,控制算法必須在一個較長的時間段內向車輛發出500條以上的加速指令。另外她還補充道:“而且我們必須在我們知道我們已經很好地緩解了排放並以良好的速度到達十字路口之前得到正確的順序。”
不過這裡還存在一個問題,那就是研究人員想讓系統能學習一種策略以減少燃料消耗並限制對旅行時間的影響。這些目標可能是相互衝突的。
“為了減少旅行時間,我們希望汽車開得快,但為了減少排放,我們希望汽車慢下來或根本不動。這些相互競爭的獎勵可能會讓學習代理人感到非常困惑,”Wu說道。
雖然解決這個問題的普遍性很有挑戰性,但研究人員採用了一種被稱為獎勵塑造的技術來進行變通。通過獎勵塑造,他們給系統一些它自己無法學習的領域知識。在這種情況下,每當車輛完全停止時,他們就對系統進行懲罰,這樣它就會學會避免這種行為。
交通測試
一旦研究人員開發出一種有效的控制算法,他們就會使用一個具有單一交叉口的交通模擬平台對其進行評估。該控制算法被應用於一個由聯網的自主車輛組成的車隊,這些車輛可以跟即將到來的交通信號燈進行通信以接收信號燈的相位和時間信息並觀察其周圍環境。該控制算法告訴每輛車如何加速和減速。
當車輛接近十字路口時,他們的系統並沒有造成任何走走停停的交通。在模擬中,更多的汽車在單一綠燈階段通過,這超過了模擬人類司機的模型。當跟其他同樣旨在避免走走停停的交通的優化方法相比,他們的技術帶來了更大的燃料消耗和排放減少。如果路上的每輛車都是自主的,那麼他們的控制系統可以減少18%的燃料消耗和25%的二氧化碳排放,與此同時將行駛速度提高20%。
Wu表示:“一次干預有20%至25%的燃料或排放減少,這真的令人難以置信。但我覺得有趣的是,也是我真正希望看到的,是這種非線性的比例。如果我們只控制25%的車輛,這給我們帶來50%的燃料和排放減少的好處。這意味著我們不必等到我們達到100%的自動駕駛車輛才能從這種方法中獲益。”
接下來,研究人員希望研究多個交叉口之間的互動效應。另外,他們還計劃探索不同的交叉口設置如車道數量、信號燈、計時等如何影響出行時間、排放和燃料消耗。此外,他們還打算研究當自動駕駛車輛和人類司機共享道路時他們的控制系統會如何影響安全。
雖然這項工作仍處於早期階段,但Wu認為這種方法在近期內可以更可行地實施。