他們為機器人造大腦OpenAI紅杉搶著投5億
還記得曾經火遍全網的ALOHA家務機器人嗎?最近該計畫導師,史丹佛電腦科學與電機工程系教授Chelsea Finn在X宣布,正式與其他幾位柏克萊大牛學者、GoogleDeepMind科學家共同創業,全力為機器人打造智慧大腦。
新公司的名字叫做Physical Intelligence,簡稱Pi或π。目標是開發一套“為各種機械設備添加高級智慧的軟體”,最終構建可以控制任何機器人執行任何任務的通用AI模型。
Chelsea Finn解釋說,這其實極具挑戰性,需要整合機器人跨平台策略、從視覺和語言模型中遷移學習、並透過模仿學習實現對靈活技能的掌握。
共同創辦人兼CEO Karol Hausman也興奮表示,計畫將收集前所未見規模的機器人數據,進行演算法改進和訓練超大模型,並攻堅一切將AI引入物理世界所需的技術。為此他們組建了一支“世界級團隊”,迫不及待地想開始這趟新的冒險旅程。
根據公開消息,才創立不到一個月,Pi已經被包括OpenAI和其早期投資者Khosla Ventures、美國紅杉資本、Lux Capital在內的多家創投機構提前鎖定,拿下7,000萬美元的高額融資。這不僅因為公司在機器人賽道中的技術前景被無比看好,更多是對創始團隊實力的信心押注。
十人團隊,人均大神,一位華人成員
Pi的官網頁面上是這樣介紹自己的:
「Physical Intelligence是一家將通用人工智慧帶入物理世界的新公司。
我們是一群工程師、科學家、機器人學家和公司創建者,正在開發驅動當今機器人和未來實體設備的基礎模型及學習演算法。現在還處於初期階段,歡迎有興趣的夥伴加入! 」
列出的成員目前只有十人:
雖然展示方式“過於樸素”,但團隊陣容實際上相當豪華,幾乎是人均大神。在加入Pi以前,他們各自都有不斐的研發成果,好幾位都是業界響噹噹的名字。
首先必須介紹的是Chelsea Finn和Karol Hausman的另一位聯創Sergey Levine。
Sergey Levine現任UC Berkley電機工程與電腦科學系助理教授,專注於研究讓自主智能體透過學習獲得複雜行為的通用演算法,集中在機器學習決策與控制領域。並開發端到端深度神經網路訓練策略,曾帶領團隊與Google共同開發RT-X機器人項目,被認為是強化學習領域的領導者之一。
然而更令這個男人揚名立萬的是他「學術狂魔」的名號。 Sergey LevineGoogle學術上被引用量超過13萬,同時在頂級國際會議和期刊上發表過大量研究論文,接收量長期位居前列,並且經常霸榜。
例如NeurIPS 2019 和2020 上他分別有12 篇論文被接收,名列NeurIPS榜單第一。 2019年ICML論文接收量並列第二。 2022年更是向ICML投稿了30篇論文,並以16篇的接收量斷崖式登頂作者Top1——簡直是令人聞之喪膽的「論文收割機」!
此外Sergey Levine還是柏克萊人氣超高的“網紅教授”,教育成就十分突出。他開設的深度學習課程(Deep Reinforcement Learning,代號CS285)在學生中反應極為熱烈,很受歡迎。線上影片在油管和B站都可以觀看,廣為傳播。
在這次對於新公司Pi的「創業聲明」裡他說,希望為機器人領域帶來類似「大語言模型之於自然語言處理」那樣的通用解決方案。
“過去我們已經多次看到,機器學習在大規模數據集與小數據集中面臨的問題有巨大不同。我們的研究很有實用性價值,相信也會為基礎研究突破打開大門。”
開頭提到的Chelsea Finn也是共同創辦人之一。她從MIT大學畢業後在柏克萊取得博士學位,其介紹元學習演算法的畢業論文獲得2018年ACM博士論文獎,當時的指導老師就有Sergey Levine。
目前Chelsea Finn擔任史丹佛大學電腦科學和電機工程的助理教授,專注於透過學習和互動來發展機器人等智能體的廣泛智慧行為。例如端到端視覺感知和機器人操控,從收集的經驗中自主學習通用技能,以及快速學習新概念和行為的元學習演算法,Google學術引用超4.9萬次。她也曾在Google大腦擔任5年研究科學家,開發機器人深度預測模型。
Pi的執行長Karol Hausman是Google大腦的高級研究科學家,同時也是史丹佛大學的兼任教授。他的研究興趣集中在使機器人能夠在真實世界中以最小的監督自主獲得通用技能,並因「對可擴展的機器人學習演算法做出重大貢獻」而獲得2023年IEEE機器人與自動化學會行業職業獎。
Hausman在X的自我介紹十分有趣:“喜歡機器人、AI、NBA、哲學、足球和杏仁可頌。”
除了這三位,團隊還聚集了擅長機器人運動規劃和基礎模型的前Google研究科學家Brian Ichter;巴基斯坦裔傑出工程師、前特斯拉自動駕駛和硬體專家(設計了Model X獨特的上翹式獵鷹門)、現Anduril Industries高級副總裁兼電氣工程負責人Anduril Industries;Chelsea得意門生、豐田研究所機器學習、機器人學和計算機視覺研究科學家Suraj Nair;以及支付公司Stripe前高管、著名科技投資人Lachy Groom等業界大牛。
另外吸引我們注意的是,這份名單清單裡還有一位華人成員Lucy Shi。這位來自人大附中的女孩在USC獲得電腦科學學士學位,現在是史丹佛的學生研究員,由Chelsea Finn教授指導。曾與NVIDIA 資深研究科學家兼通用具身智慧研究團隊負責人Yoke Zhu、資深研發經理Jim Fan合作。
最近她剛公佈了史丹佛與柏克萊合作的Yell At Your Robot(YAY Robot)項目,展示機器人從語音糾正中即時改進,根據人類口語回饋來學習和不斷提升,執行靈巧操作任務的研究成果。
Lucy Shi在個人頁面上開心地分享了自己以「第一位實習生」身分加入Physical Intelligence 的訊息。
自我介紹中她寫道:「我對機器人學習有著廣泛興趣。研究目標是創造出通用型機器人,在我們日常生活中無縫執行複雜、長期的任務….我深信人類的創造力和人工智慧的潛力。未來20年,我希望成為大學教授,建立起新一代的貝爾實驗室——這個改變世界的創新思想工廠。這讓我們欣喜地看到又一位智慧與理想兼具、前途無量的年輕學者。”
迎難而上的智慧機器人大腦締造者
在歷久以來的科幻小說和電影裡,人們總夢想有一個真正聽懂自己需求的機器人。它會思考、有情緒,能跟在身邊陪伴我們,幫助解決生活中的種種難題,像人類朋友一樣全能。然而現實中的機器人雖說可以在工廠搬運重物、為家裡打掃衛生,但與日益通用化的聊天機器人相比,能夠執行的任務範圍相對要侷限很多。
Chatbot和LLM的崛起得益於網路語料中的大量資料。 OpenAI和Google可以透過向大語言模型輸入數十億個人類語言樣本來訓練它們。然而從真實世界收集類似規模的數據是極其困難的,這也限制了近年來人工智慧在物理機器人領域的進步。
Physical Intelligence認為,現在正是採用新方法來推進通用型機器人的時機。
Figure 01透過連接ChatGPT實現了人形機器人智慧化的「看聽說」交互,讓人們看到大模型與機器人結合的巨大潛力。 Pi也希望將建構語言模型的先進技術與自己的機器控制和指令技術相結合,創建任何硬體、任何平台都可用的,具備廣泛任務執行能力的通用人工智慧系統。
團隊表示,Pi並不專注於特定類型的機械手臂或工業機器人,而是計劃開發可以應用於多種類型機器人的軟體。他們也不會製造自己的硬件,創業後第一步是解決工程問題、搭建模型,以及購買各種不同的機器人並在上面開展訓練,目的就是積累迄今為止最大規模的機器人數據。
Karol Hausman在接受公開採訪時強調,團隊要開發一個通用模型,將人工智慧從電腦帶到物理世界,“它能為任何硬體設備提供動力,用於任何應用。”
而這顯然不只是Pi的願景。除了面臨Figure AI和特斯拉等製造人形機器人公司的競爭,幾十年來,人們也一直在努力改進驅動機器人的軟體。
就在Pi宣布成立的同一周,有著7年歷史、由知名AI科學家Pieter Abbeel和他三位華人博士生創立的Covariant公司就推出了基礎模型RFM-1,為機器人提供類似ChatGPT的語言理解和生成能力。經過一般網路資料和豐富現實世界互動資料的共同訓練,RFM-1可以讓機器人理解自然語言指令並產生對應的動作,並能處理一些突發狀況,收穫大量好評。
如今強強聯合,正式加入戰場的Pi,到了將團隊多年潛心累積的卓越成果集大成的時候了。再加上OpenAI的背後支持,能不能湊齊龍珠召喚神龍,推動通用機器人領域的新時代?
「我們的目標是為機器帶來人類那樣的基本能力。」Lachy Groom 說,「我認為建造人形機器人是非常酷的事情。但從根本上讓人類變得有趣的是大腦,而不是我們的硬體——我們才是終極的通才。”