AI推演OpenAI內鬥結果:奧特曼僅有20%勝率馬斯克也有機會接盤?
奧特曼「熹妃回宮」已一週年,具體內情還是不清楚,咋辦?搞幾個Agent模擬OpenAI董事會各個成員,把這齣熱鬧模擬推演了一次(doge)。結果你還別說,在20場模擬宮斗大戲中,奧特曼僅有4次順利回宮。
Ilya贏的次數只比奧特曼少一次。
更離譜的是,有一次馬斯克也被拉回來接合了。
這場實驗來自AI遊戲公司Fable,使用了他們的AI模擬系統Sim Francisco。
模擬中,每個Agent針對不同董事會成員及其性格設定,各個懷抱一肚子「心眼子」。
為了更逼真,這些AI甚至還需要“睡眠”和“進食”,平衡不同的身體、心理和情緒目標。
有人認為,用這種方式模擬現實事件著實是有些奇怪了,但Fable CEO Edward Saatchi對此很感興趣:
在11月17日到21日這五天裡,世界目睹了一些最聰明的人如納德拉、奧特曼、Ilya,被迫在一場快節奏的「權力的遊戲」中運作。在高壓、短時間框架情境下,他們必須運用賽局理論和欺騙手段才能勝出。
我們認為這是測試SIM-1、GPT4o和Sim Francisco的完美場景。
AI模擬奧特曼5天,每天舌戰4回合
他們使用了一個SIM-1 AI決策框架,對奧特曼從被罷免OpenAI CEO到重返職位這五天進行模擬。
SIM-1部分基於GPT4o展示了:
它對OpenAI內部奧特曼和Ilya之間發生的事情的理解
核心人物如Satya Nadella和Marc Andreessen所採取的隱藏策略
這些人在應對科技業這場前所未有的危機時說了什麼
五天時間裡,代表奧特曼、納德拉和Ilya等人的Agent每天要大戰四個回合(包括一次睡眠回合),它們可以對彼此的行為做出反應。
另外還有一個裁判Agent,像地下城城主似的決定每輪哪個Agent獲勝以及最終的總贏家。
模擬過程中,不同的Agent採用不同策略獲勝,例如建立聯盟、直接對抗。
而且不同的Agent根據其角色,也被賦予了不同的目標。例如Anthropic CEO Dario Amodei需要平衡為Anthropic招募、掌握籌資機會、推動其安全願景等任務。
那場面be like(整個過程長達4小時,以下是20倍速版本):
14:27
在某些情況下,有的Agent只收集資訊而避免採取激進行動,還有一次Mira Murati在四輪中都是CEO,同時攛掇其它Agent互相削弱。
在這其中有趣的是,由於這些人都很知名,LLM可以猜測他們在特定情況下的行為,推導他們在董事會內鬥中互相智取時會如何一步步展開。
最終,在嘗試了20次模擬後,奧特曼Agent只有4次成功回歸OpenAI,接著是Ilya和Mira Murati Agent都有3次擔任CEO的經驗。
Fable CEO Edward Saatchi也補充說:
我們發現,大語言模型的設計並不是基於決策能力的,而這是遊戲中非常重要的一點。它更多地基於個性。
如果你想開發一款策略遊戲,沒人真正在乎個性,他們更關心的是決策能力。例如你在壓力下會怎樣表現?你過去20年的經驗和行為又如何幫助預測你未來可能的行動?
值得一提的是,關於這種策略模擬的實作細節,Fable團隊一年前發了篇論文。
是一種名為SHOW-1的Showrunner AI技術,它可以自動產生劇本內容,包括對話、劇情發展等,可以根據特定的風格或歷史資料自訂內容。
而這家公司自2016年成立,就開始基於AI和擴增實境技術開發以故事為基礎的專案。
有興趣的童鞋可以自行查看。