疊衣服、擦案板、沖果汁……當家事的國產機器人終於要來了
還記得會炒菜的史丹佛ALOHA 機器人嗎?現在,中國的新創公司自變數機器人(X Square)展現了同樣令人驚豔的能力,甚至更進一步。在該公司最新展示的Demo 中,完全基於大模型自主推理的雙臂機器人,利用低成本硬體即實現對不規則物體的精細操作(如抓握、拾取、切割等),以及折疊衣服、沖泡飲料等複雜任務,展現出相當程度的泛化表現。
折疊衣物(3 倍速播放):對柔性物體的操作長久以來都是困擾整個manipulation 領域的難題,需要高度靈活的操作和精細的動作協調。
切火腿(2 倍速播放):複雜的摩擦與阻力,難以用傳統方法快速建模,需要精確的力道控制與物體定位。
切黃瓜,2 倍速播放:在一種物體上習得的能力直接泛化到不同物體的操作上。
用海綿擦掉案板上的污漬(2 倍速播放):自修正的close loop 控制能力,在不同壓力和表麵條件下的精細力度控制,即時檢測並調整擦拭動作,確保徹底清潔污漬。
用湯匙從罐子裡取出適量的果汁粉(3 倍速播放):使用工具的過程中,處理複雜的摩擦一直以來都是極大困難。
沖果汁,舉起水壺往杯中倒入適量的水(3 倍速播放):流體引入大量的隨機性,準確操作非常困難。
這家去年底成立的公司,匯聚了來自世界著名人工智慧/ 機器人學實驗室以及國內外頂尖高校的優秀人才,擁有雄厚的科研背景。該公司的目標是“將人類從無意義的體力勞動中解放出來”,專注於機器人領域的基礎模型(foundation model)研發。
目前,團隊正在建立一個具備從感知到行動的端到端能力的通用機器人大模型(「中樞神經」),目標是能夠控制低成本硬體(如數千元的機械手臂),完成包括烹飪、打掃衛生在內的日常家務,並在未來擴展到照顧老人和小孩等更複雜的家庭護理工作,以及完成其他達到人類水平的通用操作任務。
基於具身智能大模型,開發通用機器人平台
儘管機器人管家是人類對智慧未來最具代表性的暢想,但在現實生活中,能夠勝任家務勞動的通用服務機器人幾十年來的發展一直困難重重。家庭環境的多樣性和不可預測性要求機器人具備高度複雜的感知能力、靈活精確的機械操作、智慧的決策和規劃,以及有效的人機互動能力。此外,技術的整合、機器人的安全性、續航力、成本等,也是必須克服的重要障礙。
傳統的機器人通常採用基於規則和單一任務環境的方式,很難根據環境變化自主調整策略,從長遠看幾乎不可能規模化。大語言模式(LLM)等人工智慧技術的突破,為機器人領域帶來了新的曙光。 Google的RT-2 系統將視覺-語言-動作模型與機器人技術結合,使機器人能夠處理複雜場景,並回應人類的指令。 DeepMind 的AutoRT 系統則使用視覺-語言模型(VLM),幫助機器人適應未知環境,並利用LLM 為機器人提供指令。大模型在知識遷移和泛化方面的這些優勢,有望幫助機器人逼近甚至超越人類的層次。
X Square 認為,目前機器人領域正處於科技的世代更迭之際。史丹佛ALOHA 等計畫表明,通用機器人發展的瓶頸在於智慧而非硬體。事實上,機器人領域長期以來面臨的兩大困難,一是如何在複雜環境中精確感知並做出精細的操作(low level 智能),二是缺乏類似人類的推理、規劃、交互等高級認知能力(high level 智能)。從感知到行動,機器人的智慧可以被視為一個從high level 逐步到low level 的決策過程。
大模型的出現為解決上述難題帶來了新思路。運用LLM 或VLM 來進行高階推理與規劃、與人交互,已成為業界公認的發展方向。
但是,直接用單一的大模型來驅動端到端的機器人manipulation,目前嘗試的團隊還不多。
X Square 的獨特之處便在於此,團隊基於過往在模型、演算法、系統、硬體等方面的科研成果積累,集合所有技能訓練“機器人Large Manipulation Model”,從手部操作切入,基於具身大模型來建造可以精細操作的通用機器人。
團隊希望結合high-level 的推理規劃模型與low-level 的操作控制模型,打造一個類似「機器人大腦-小腦」的通用作業系統。
「我們公司名為X Square,寓意要同時在high level 推理和low level 控制這兩個維度做大模型,並把兩者有機結合。目前我們在兩個方向都已有不錯的基礎,有信心在一年內從追趕到超越目前的世界領先水平。”
X Square 指出:“與腿的移動能力相比,手的操作能力包含了更豐富和複雜的動作,要求更高級別的控制精度。人類手部的精細操作是我們智能的根本表現。”
有別於許多人形機器人公司專注於人體形態的模仿,X Square 更專注於實現接近人類的功能。 “採用輪式移動底盤搭配雙臂,可以大幅降低成本,2-3 年內整體硬體成本有望降至1 萬美元以下,我們認為放棄5% 的人形功能來換取數量級的成本優勢是值得的。”
軟硬體一體,驅動資料飛輪
“我們希望模型擁有怎樣的能力,就需要提供給模型什麼樣的數據。是數據,而非演算法或結構決定了模型的能力,這是當今時代的核心方法論。”
機器人的特殊性在於,它是一個具有前所未有複合性的綜合系統。相較於純軟體的LLM 和多模態大模型,具身智能大模型雖然在規模上暫時無法與之相比,但在工程上難度要高出許多,它必須在海量的真實和模擬場景中不斷實踐、學習。因此,能否找準技術方向,在降低開發成本、提高迭代效率的同時,打造高品質的資料擷取能力,控制試誤成本,最終實現規模化,是決定成敗的關鍵因素。
這對團隊軟硬一體的能力提出了很高的要求,因為是否具有足夠的軟硬結合能力,在機器人這一多模態集中融合的領域直接關係到迭代速度與數據質量。軟硬體一體發展,是X Square 的核心概念。無論是機器人本體的形態設計,或是資料擷取系統,都是為機器人「中樞神經系統」的開發在服務。
在模型演算法設計上,X square 也有自己獨特的理解與創新。 「除了需要有專門的數據,還需要針對性的結構設計和訓練方法,不能單純套用其他領域的大模型經驗,因為它必須直接面對複雜的真實世界,要在真實世界中不斷實踐、迭代。 」
同時,由於大模型與傳統deep learning for robotics 具有相當的gap,是否真正具備足夠的大模型訓練落地經驗,決定了能否快速構建通用具身智能大模型。這也正是X Square 的優勢所在。
「目前語言大模型的訓練預測架構在機器人上不完全work,以Transformer 為底座演算法模型不能很好地支持因果關係的推理,而因果性在機器人所在的物理世界中大量出現,並在機器人操作中起關鍵作用。為了處理因果性,目前有很多world model 的嘗試。但當前的世界模型要么完全集中在圖像/ 視頻重建上(如Sora),要么完全集中在高層語義理解上,缺乏適合機器人的形態。”
X Square 篤定機器人大模型這個方向,一方面是基於團隊成員親歷深度學習從被質疑到一統江湖,以及LLM 從默默無聞到大放異彩的技術浪潮,另一方面,也是看好中國作為全球硬體中心,擁有得天獨厚的產業鏈優勢,也有利於快速縮短機器人的研發週期。
團隊在不到3 個月的時間裡,就完成了技術架構的建構和早期模型的訓練,展現出驚人的成長速度和卓越的工程能力。
「在現階段,我們也積極尋求與上下游合作夥伴的協作,實現智慧的迭代升級。未來,隨著具身智慧大模型技術的日益成熟,我們會更聚焦於特定應用場景,推出自己的機器人產品,例如能完成做飯、打掃等複雜家務的機器人保姆,甚至進行老年人康養護理等服務。」X Square 表示。