AI推演OpenAI內鬥結果：奧特曼僅有20%勝率馬斯克也有機會接盤？

奧特曼「熹妃回宮」已一週年，具體內情還是不清楚，咋辦？搞幾個Agent模擬OpenAI董事會各個成員，把這齣熱鬧模擬推演了一次（doge）。結果你還別說，在20場模擬宮斗大戲中，奧特曼僅有4次順利回宮。

Ilya贏的次數只比奧特曼少一次。

更離譜的是，有一次馬斯克也被拉回來接合了。

這場實驗來自AI遊戲公司Fable，使用了他們的AI模擬系統Sim Francisco。

模擬中，每個Agent針對不同董事會成員及其性格設定，各個懷抱一肚子「心眼子」。

為了更逼真，這些AI甚至還需要“睡眠”和“進食”，平衡不同的身體、心理和情緒目標。

有人認為，用這種方式模擬現實事件著實是有些奇怪了，但Fable CEO Edward Saatchi對此很感興趣：

在11月17日到21日這五天裡，世界目睹了一些最聰明的人如納德拉、奧特曼、Ilya，被迫在一場快節奏的「權力的遊戲」中運作。在高壓、短時間框架情境下，他們必須運用賽局理論和欺騙手段才能勝出。

我們認為這是測試SIM-1、GPT4o和Sim Francisco的完美場景。

AI模擬奧特曼5天，每天舌戰4回合

他們使用了一個SIM-1 AI決策框架，對奧特曼從被罷免OpenAI CEO到重返職位這五天進行模擬。

SIM-1部分基於GPT4o展示了：

它對OpenAI內部奧特曼和Ilya之間發生的事情的理解

核心人物如Satya Nadella和Marc Andreessen所採取的隱藏策略

這些人在應對科技業這場前所未有的危機時說了什麼

五天時間裡，代表奧特曼、納德拉和Ilya等人的Agent每天要大戰四個回合（包括一次睡眠回合），它們可以對彼此的行為做出反應。

另外還有一個裁判Agent，像地下城城主似的決定每輪哪個Agent獲勝以及最終的總贏家。

模擬過程中，不同的Agent採用不同策略獲勝，例如建立聯盟、直接對抗。

而且不同的Agent根據其角色，也被賦予了不同的目標。例如Anthropic CEO Dario Amodei需要平衡為Anthropic招募、掌握籌資機會、推動其安全願景等任務。

那場面be like（整個過程長達4小時，以下是20倍速版本）:

14:27

在某些情況下，有的Agent只收集資訊而避免採取激進行動，還有一次Mira Murati在四輪中都是CEO，同時攛掇其它Agent互相削弱。

在這其中有趣的是，由於這些人都很知名，LLM可以猜測他們在特定情況下的行為，推導他們在董事會內鬥中互相智取時會如何一步步展開。

最終，在嘗試了20次模擬後，奧特曼Agent只有4次成功回歸OpenAI，接著是Ilya和Mira Murati Agent都有3次擔任CEO的經驗。

Fable CEO Edward Saatchi也補充說：

我們發現，大語言模型的設計並不是基於決策能力的，而這是遊戲中非常重要的一點。它更多地基於個性。

如果你想開發一款策略遊戲，沒人真正在乎個性，他們更關心的是決策能力。例如你在壓力下會怎樣表現？你過去20年的經驗和行為又如何幫助預測你未來可能的行動？

值得一提的是，關於這種策略模擬的實作細節，Fable團隊一年前發了篇論文。

是一種名為SHOW-1的Showrunner AI技術，它可以自動產生劇本內容，包括對話、劇情發展等，可以根據特定的風格或歷史資料自訂內容。

而這家公司自2016年成立，就開始基於AI和擴增實境技術開發以故事為基礎的專案。

有興趣的童鞋可以自行查看。

WONGCW 網誌