Google稱Gemini AI正在讓機器人變得更智能

Google正在使用Gemini AI 訓練其機器人，以便它們可以更好地導航和完成任務。 DeepMind 機器人團隊在一篇新研究論文中解釋如何使用Gemini 1.5 Pro的長上下文視窗（決定AI 模型可以處理多少資訊）讓使用者更輕鬆地使用自然語言指令與其RT-2 機器人進行互動。

這項技術的工作原理是拍攝指定區域（例如家庭或辦公室空間）的視頻，研究人員使用Gemini 1.5 Pro 讓機器人觀看視頻以了解環境。

然後，機器人可以根據觀察到的情況，使用口頭和/或圖像輸出執行命令- 例如在向用戶展示手機並詢問「我可以在哪裡充電？」之後，引導用戶到電源插座。

DeepMind 表示，其Gemini 驅動的機器人在9,000 多平方英尺的操作區域內對50 多條使用者指令的成功率達到90%。

研究人員還發現初步證據，顯示Gemini 1.5 Pro 使其機器人能夠規劃如何執行導航之外的指令。

例如，當辦公桌上有許多可樂罐的使用者詢問機器人是否有他們最喜歡的飲料時，團隊表示Gemini知道機器人應該導航到冰箱，檢查是否有可樂，然後再回來給使用者報告結果。

DeepMind 表示計劃進一步調查這些結果。

Google提供的影片示範令人印象深刻，儘管根據研究報告，機器人確認每個請求後明顯的切換掩蓋了處理這些指令需要10-30 秒的時間。我們可能還需要一段時間才能與更先進的環境地圖機器人分享我們的家園，但至少這些機器人可能能夠找到我們遺失的鑰匙或錢包。

WONGCW 網誌