英偉達「網紅研究員」:2024最大亮點是機器人「具身智慧」還有三年
2024,除了大模型持續狂飆外,機器人發展也將迎來高潮。“以機械手臂作為實體輸入/輸出設備的多模態LLM、彌合System 1和System 2差距的演算法…”,2024年機器人技術將進一步迅速發展。
去年年底,英偉達「網紅研究員」、OpenAI第一個實習生Jim Fan發推文稱,除了大模型,2024年最重要的就是機器人,我們距離「具身智能」的ChatGPT時刻大約還有三年時間。
Jim指出,長期以來,人們深受「莫拉維克悖論」(Moravec’s paradox)的困擾,這是一種和人們直覺相悖的現象,即「人類覺得容易的任務對人工智慧來說卻極其困難,反之亦然」。
但Jim樂觀地預測,2024年將成為人工智慧界全面崛起反擊這一悖論的元年,Jim表示「我們不會立即獲勝,但我們將走上獲勝之路」。
同時,Jim列舉了2023年關於未來機器人的基礎模型與平台的發展:
1.以機械手臂作為實體輸入/輸出裝置的多模態LLM:VIMA、PerAct、RvT(英偉達)、RT-1、RT-2、PaLM-E(Google)、RoboCat(DeepMind)、Octo(柏克萊、史丹佛、CMU)等。
2、彌合System 1(負責低階控制)和System 2(負責高階推理)之間差距的演算法(使得系統能夠利用高階推理進行決策和理解,並將這些決策轉化為實際的操作和控制):Eureka(英偉達)、Code as Policies(Google)等。
3.在強大硬體方面取得的驚人進展:特斯拉擎天柱、Figure、1X、Apptronik、Sanctuary、Agility+Amazon、Unitree等。
4.數據一直是機器人技術的致命弱點,研究界正在共同策劃下一個ImageNet(人工智慧深度學習取得突破的關鍵項目),如開放Open X-Embodiment (RT-X)數據集。雖然資料集還不夠多樣化,但邁出了重要的一步。
5.模擬和合成數據將在解決機器人靈巧性甚至整個電腦視覺問題上發揮關鍵作用。
- (1)NVIDIA Isaac可以以比即時快1000倍的速度模擬現實,傳入的資料流隨著計算規模的增加而擴展;
- (2)透過硬體加速的光線追蹤可以實現逼真的效果。逼真的渲染還附有免費的地面真實註釋,如分割、深度、3D姿勢等;
- (3)模擬器甚至可以將真實世界的數據擴大,創造更大的數據集,從而大大減少昂貴的人工演示工作。MimicGen(英偉達)就是一個典型的例子。