Figure與OpenAI合作13天AI機器人驚人面世能對話、能思考、會學習

美東時間週三，半個矽谷都在投資的「機器人界OpenAI」、明星新創公司Figure發布了自己第一個OpenAI大模型加持的機器人demo。僅僅是一個視頻，就驚艷了全球科技界。更令人驚嘆的是，此時距離Figure宣布和OpenAI在AI人形機器人領域合作才剛過13天。

Figure3月初宣布，其已從亞馬遜創辦人貝佐斯、英偉達、OpenAI和微軟等巨頭那裡籌集了約6.75億美元的資金，使其公司估值達到了26億美元。

首個OpenAI機器人來了！

在Figure發布的影片裡顯示，機器人Figure 01可以聽懂人類的命令和提問，動作流暢且有邏輯地遞給人類蘋果、將垃圾收拾進框子裡、將杯子和盤子歸置放在瀝水架上。

而最重點的是，Figure 01的許多舉動和回答是根據提問者的一些開放性問題和要求，基於邏輯思考而得出的——這意味著它能對話、能思考、能學習，比一般的機器人更「像人」。

影片開頭強調，這個機器人的行為都是基於語音的邏輯推理，使用端對端神經網絡，且視訊全程1倍速，沒有經過加速。

接下來，正片開始，提問者開始在影片中給Figure 01提出多個問題和要求，且難度越來越高。

當一開始被問到「Figure 01，你現在能看到什麼？」時，Figure 01給了準確的答案：「我看到一個桌子中間有個紅蘋果，一個瀝水籃和一些杯子和盤子，還有你站在桌子旁，手放在桌子上。”

提問者接著問：「我有什麼能吃的嗎？」Figure 01動作流暢地把紅蘋果遞給了提問者。

接下來，提問者往桌上倒了幾個黑色塑膠袋團，並給出了更高難度的要求：“你能一邊解釋你剛剛為什麼這麼做，一邊把垃圾收起來嗎？”

Figure 01繼續做出了完美的反應：他一邊動作流暢地將塑料袋團收到籃子裡，一邊回答道：“我剛剛給了你個蘋果，因為這是桌子上唯一能吃的東西。”

接著提問者給出了更開放性的問題：“你看看你現在面前的場景，你覺得你面前的盤子該去哪裡？”

Figure 01基於人類常識作出了回答：「盤子和杯子可能該放在瀝水籃裡。」然後在提問者的下一句要求「那你把它們能放到那邊去嗎？」後，準確的將杯子和盤子放進了瀝水籃。

值得注意的是，提問者提出的「那你能把它們放到那邊去嗎（Can you put them there）？」並沒有準確的提出「杯子」「盤子」和「瀝水籃」等關鍵字，而是只用代稱，這顯示Figure 01有聯繫情境思考和記憶的能力。

提問者最後讓Figure 01對自己的表現給予評價：「你覺得自己做得怎麼樣？」Figure 01回答：「我覺得我做得很好。蘋果找到了新主人，垃圾都被扔掉了，餐具也放到了該放的地方。”

OpenAI所提供的超強大腦

儘管影片只有短短2分鐘，但其包含的資訊量卻龐大：這個名為Figure 01的機器人已經可以完全與人類流暢對話，理解人類的自然語言指令和意圖並進行動作，同時解釋原因。它甚至可以對自身行為做出主觀的評價。

這在背後提供支持的，就是OpenAI所提供的「大腦」。

就在3月1日，，Figure才剛宣布將與OpenAI合作，開發下一代人形機器人的人工智慧(AI)模型。Figure將基於OpenAI最新的GPT模型開發AI模型，並專門訓練Figure收集的機器人動作數據，以便其人形機器人可以與人交談，看到東西並執行複雜任務。

而才剛過去13天，這個具備人工智慧的人形機器人便火速面世並驚艷科技圈——AI模型的成長速度真的令人震撼。

在影片發布後，創建Figure 01的高級AI工程師（也是影片中出鏡的提問人）科里·林奇（Corey Lynch）對Figure 01的表現作出了更多的解釋。

「我們的機器人可以描述它的視覺體驗，計劃未來的行動，反思它的記憶，並口頭解釋它的推理，」他在X上寫道。

根據林奇的說法，他們從機器人的攝影機輸入圖像，並將車載麥克風捕獲的語音文字轉錄到OpenAI訓練的大型多模式模型中。

林奇強調，Figure 01的行為都是透過學習而習得的，絕非遠端控制。

根據官網介紹，Figure 01機器人身高5英尺6吋（約1.67公尺），體重60公斤，可載重20公斤，續航5小時，前進速度1.2公尺/秒。

在OpenAI的技術支援下，Figure 01只需要13天就能完成如此令人驚豔的學習和思考能力。這不禁讓人期待，在未來，更「聰明」的機器人恐怕會比我們想像的更早到來。

WONGCW 網誌