給波士頓動力機器狗裝上ChatGPT後會發生什麼?
波士頓動力的“大黃狗”Spot 可以說是網紅機器人的典範。會巡邏、會搬磚、會跳舞Spot 自誕生以來就吸引了全世界機器人愛好者的目光,誰能拒絕像這樣一條動作靈活、姿態憨厚,還會賣萌的機器狗呢。
經過多年的發展,賣萌已經不再是Spot 的“主業”,根據波士頓動力的介紹,Spot 現在能幫助人類完成一些特定場景下的工作,例如在跨洋輪船上檢測儀表、參與地勢複雜的勘測或救援工作等等。
如果給Spot 這麼靈活的身軀,裝上一個像ChatGPT 這麼聰明的大腦,會發生什麼?
人工智能專家Santiago Valdarrama 還真做出來了這麼一條擁有“最強大腦”的Spot。
用ChatGPT 大幅簡化人機交互
Santiago 在Twitter 上分享了他與改造版Spot 互動的視頻,這可能是史上第一條會講話、會聊天的機器狗。
在演示視頻中可以看到,Spot 並不僅僅是裝了個“Siri”那麼簡單,當它在回答人類問題時,它的身體也會隨著語句的內容和語調一起擺動,看上去就像是科幻片中的Wall-E 走進了現實。
當你問到一些“Yes Or No”的簡單問題時,它還會用“點頭”“搖頭”等身體語言代替語音來回答你,由此可見Spot 遠不是內置了一個智能音箱那麼簡單。
接入ChatGPT 後,Spot 最大的變化就是聽得懂人話,並且能夠和使用者用自然語言交流。
Santiago 演示了一個場景,他跟Spot 說因為它太礙事導致房間太擁擠了,讓它往後稍稍,話音剛落Spot 就理解了Santiago 的意思,往後退了幾步。
怎麼樣,是不是已經有科幻電影中呼喚機器人工作那味了。
過去操作Spot 需要用類似無人機的大型遙控器或者用電腦輸入複雜的指令,而現在ChatGPT 的加入賦予了Spot 強大的自然語言理解能力,動動嘴就能與機器人交互。
在這個過程中,ChatGPT 擔任了人類與機器人之間的翻譯,把人類輸入的“人話”變成機器能看懂的指令,再把機器人的反饋用實際行為或者“人話”表達出來。
Santiago 介紹,他們把Spot 的文件輸進了ChatGPT,並向其解釋了文件的結構以及如何讀取這個文件,從而實現了與Spot 語音對話和操作。
操作員與Spot 之間的交互被大幅簡化,人們可以直接問它:“你的電量還有多少?”,然後Spot 就會用語音的方式回答,這其中用到了Google 文字轉語音的技術,再把ChatGPT 的答復經Spot 的“口”講出來。
Spot(或者說內置的ChatGPT)會根據實際情況來回答問題,例如當你問它接下來要完成什麼任務時,它會根據設定好的任務列表來作答,這在很大程度上避免了ChatGPT 編造事實的情況。
當操作者給Spot 下達像轉向90 度、前進1 米這樣的命令時,Spot 會聯動內部的傳感器和定位系統,精準地響應這些命令,不會說因為“大腦過於發達”而失去控制。
有趣的是,當你問它“你是誰?”的問題時,它會回答“我是OpenAI。”,而不是機器狗Spot。
Santiago 所在的公司Levatas 是一家與波士頓動力合作的AI 公司,為企業提供專業解決方案,幫助企業探索如何利用機器人解決實際問題。
Santiago 認為,給Spot 裝上ChatGPT 最大的實際意義,是把原本只有技術人員才能處理的複雜數據變成了任何人都能看得懂、聽得懂的自然語言。
機器人每次在執行任務前,都要輸入冗長的指令集;在結束工作後,還會產生大量的數據,只有最專業的技術人員才能從這些數據中分析出問題。
但現在通過ChatGPT,簡單的兩句話就能搞定。
當機器人的操作門檻變低之後,機器人的使用場景就會隨之變得豐富起來。
AI 大模型的潛力不容小覷
“最強大腦”版Spot 並不是一蹴而就的,在一個月前,Santiago 曾發布一個視頻介紹了一條能“聽懂人話”的Spot,其用到的是OpenAI 另一個重要AI 模型Whisper。
在這個“初版”智能Spot 中,Santiago 更詳細地介紹了其中的原理:
Whisper 可以高效地把語音實時轉換成文字,轉換的正確率和速度都非常可觀。通過把Whisper 與Spot 的SDK 結合在一起,它可以從人類說的話中提取關鍵文字,然後通過SDK 向Spot 發送命令。
只需要向它說句話,就可以讓Spot 離開充電塢,起身去檢查儀表是否出現問題,大大降低了人類的操作成本。
Santiago 的實踐從一個很好的角度回答了一個被廣泛討論的問題:ChatGPT 一類的大語言模型到底有什麼意義?
一開始,人們認為ChatGPT 就是一個單純文本生產式AI,它有著比較強的自然語言理解能力,可以寫文章、寫報表,雖然不那麼靠譜,但也算驚艷。
後來人們發現只要給ChatGPT 恰當的指令,它可以代替人類自動得完成編程或者文字處理等工作,猶如一台基於自然語言運轉的計算機。
OpenAI 發布了插件集功能後,ChatGPT 可以與許多互聯網的應用結合在一起,把很多跨平台的操作用對話整合在了一起,變成了互聯網的新入口。
微軟發布的Copilot 則啟發了人們對下一階段人機交互的想像:圖形操作界面並不一定是永遠合理的範式,許多我們習以為常的操作都可以被對話代替。
再回到Spot 上時,我們就能比較清晰地看出大語言模型的意義:簡化人機交互,賦予機器人更高級的智能。
無論是把ChatGPT 當作新的互聯網入口,還是當作控制具備學習能力、問題分析能力和執行高精度操作能力的工業機器人的遙控器,本質上都是把複雜的指令集變成自然語言,降低操作成本。
這種賦能將使未來的工業機器人不僅僅成為指令執行的工具,更能具備與人類大腦相當的智能水平。
就像圖形界面把複雜的命令行變成了一個個直觀的圖標,現在點按不同圖標的複雜操作又變成了一句簡單的話,人類正在從圖形用戶界面走向一個新的階段:自然語言用戶界面。
在這個階段,大語言模型將成為工業機器人的關鍵技術,它將簡化人機交互,提高生產效率,進一步推動人類社會的科技發展。
並且在某些情況下,語言模型在理解語言時甚至會比人類表現得更好。普林斯頓大學的教授Arvind Narayanan 在他一篇博客中提到了他的一個親身案例。
Arvind Narayanan 為ChatGPT 接上了語音交互,給自己快要四歲的女兒使用。就和所有孩子一樣,他的女兒也充滿好奇心,經常問ChatGPT 各種問題。
讓他感到意外的是,當他告知ChatGPT 它在和一位小朋友說話時,ChatGPT 變得很善於表達同理心。
女兒:“關燈後會發生什麼事?”
ChatGPT:“關了燈之後,會變得很黑,也可能會有點讓人害怕。但不用擔心!有很多東西能幫助你在黑暗中感到安全和舒適。”
《彭博社》專欄作家Parmy Olson 指出,微軟和Google 都忙著把大模型用在搜索引擎上,但卻沒看到,和作為一個事實提供者相比,ChatGPT 更合適做情感陪伴者。
Olson 還讓ChatGPT 去做了情商測試,結果居然比她自己和同事都好。正因為ChatGPT 是用網絡上文字素材訓練的,數據中會有大量錯誤信息,但這也讓它更善於模仿共情。
這些案例都充分說明了,大語言模型對自然語言的理解能力其實有著很大的應用潛力。
借助如此強大的理解能力,我們可以利用大語言模型真正實現又一次的人機交互革新,同時大語言模型的出現為機器人的發展帶來了新的可能性。
大語言模型可以讓機器人可以更好地理解和處理指令,更快地學習和適應新的任務和環境。
《紐約客》在封面文章《黑暗工廠》(Dark Factory)中提到,目前工業機器人一個共同的難點,就是設計一個像人手一樣的“末端執行器(end effector)”,讓機器人能以不同的力度抓取大小形狀各異的物體。
如果這個技術難題得到解決,機器人能完成更多精細的工作,很多領域自動化的程度也會大大提高。比如各種水果的採摘可以實現自動化,富士康的流水線也不再需要這麼多工人了。
未來的工業機器人不僅僅應該是指令執行的工具,更應具備與人類大腦相當的智能水平,具備學習能力、問題分析能力和執行高精度操作的能力。
在工業生產線上,“肌肉發達”的工業機器人更加靈活高效,能夠更好地應對各種生產問題,提高生產效率和質量。例如,在汽車製造領域,大語言模型可以為機器人賦予更強的智能和認知能力,使其能夠更好地完成多樣化的任務。
在醫療機器人領域,機器人可以通過自然語言處理技術與醫生和病人進行交流,提供更好的醫療服務。
大語言模型為機器人行業帶來了一顆強大的大腦,為機器人創造了出更泛化的應用場景,這很有可能會成為第四次工業革命的技術核心。而“語音版”Spot,便是這場技術變革迸發出的第一縷火花。