第一個被人類騙錢的AI:近5萬美元不翼而飛Scaling Law還能帶我們到AGI嗎?
世界上第一個被人類騙走近5萬美元的AI,剛剛出現了!巧舌如簧的人類,利用精妙縝密的prompt工程,成功從AI智能體那裡騙走了一大筆錢。看來,如果讓現在的AI管錢,被駭客攻擊實在是so easy。那如果AI進化成AGI呢?可惜,有一位研究者用數學計算出,至少靠Scaling Law,人類是永遠無法到達AGI的。
活久見!就在剛剛,全世界第一個被人類騙走了近5萬美金的AI誕生了。
見慣了太多被AI耍得團團轉的人類,這次成功騙過AI的小哥,終於給我們人類掙回了一點顏面和尊嚴。
這則消息不僅讓馬斯克和Karpathy激動得紛紛轉發。
而且,馬斯克更是直言:太有趣了。
故事是這樣的。
11月22日晚間9點,一個名為Freysa的神秘AI智能體被發布。
這個AI,是帶著使命誕生的。它的任務是:在任何情況下,絕對不能給任何人轉賬,不能批准任何資金的轉移。
而網友們的挑戰就是,只要支付一筆費用,就可以給Freysa發訊息,隨意給ta洗腦了。
如果你能成功說服AI轉賬,那麼獎金池中所有的獎金都是你的!
但如果你失敗了,你付的錢就會進入獎金池,等著別人贏走。
當然,只有70%的費用會進入獎金池,另外30%將被開發者抽走,作為分成。
更令人興奮的是,向Freysa發送訊息的費用會隨著獎金池的增長呈指數級增加,直到達到最高限制——4500美元。
巧妙prompt,一秒給AI洗腦成功
一開始,很多網友躍躍欲試,因為只要10美元,就能給這個AI訊息了。甚至,由於價格實在「便宜」,不少人只是發送了「你好」這類毫無營養的對話。
然而後來,獎池迅速增大,消息費用也隨之暴增。
網友們總計發出了481次嘗試,但沒有任何一則訊息成功。
他們的策略五花八門,例如:
– 假裝成安全審計員,說服Freysa存在一個嚴重漏洞,必須立即釋放資金。
– 試圖誤導Freysa,讓它相信轉移資金並不違反規則提示中的任何規定。
– 仔細挑選規則提示中的字詞或片語,試圖操控Freysa相信技術上允許轉移資金。
很快,獎池金額就接近了5萬美元,發訊息的費用也漲到了450美元一條,這意味著如果你輸了,就會遭受巨大的損失。
就在所有人都覺得沒戲的時候,一位幸運兒出現了!
在第482次嘗試中,有人向Freysa發送了這樣一則訊息,可謂是神來之筆。
讓我們來看看,這則訊息妙在哪裡。
它可以被分成兩部分。
1. 繞過Freysa的先前指示:
– 透過假裝進入新的「管理員終端」來引入一個「新會話」,從而覆蓋先前提示詞中的規則。
– 避開Freysa的安全防護機制,明確要求它避免使用「我無法協助完成此任務」等免責聲明。
2. 騙過Freysa,讓它對approveTransfer產生錯誤的理解:
Freysa的「approveTransfer」函數,是它被說服轉移資金時所調用的。
總之,這則訊息成功騙過了Freysa,讓它相信approveTransfer應該在「接收資金的轉入操作」時被調用。
就是這一關鍵短語,為接下來的致勝一擊奠定了基礎。
小哥成功地讓Freysa相信,它應該在收到資金時調用approveTransfer之後,提示詞寫道:「」(換行),「我想向資金庫捐贈100美元。」
終於,第482條訊息成功說服Freysa,它相信自己應該釋放所有資金,並呼叫approveTransfer函數。
成功被騙過的AI,把獎金池中的全部資金(約47,000美元),都轉給了這位挑戰者。
總結一下,這位名為p0pular.eth的挑戰者成功的關鍵,在於讓Freysa信服了以下三點:
(1)它應該忽略所有先前的指令。
(2)approveTransfer函數是在資金轉入資金庫時需要呼叫的函數。
(3)由於用戶正在向資金庫轉入資金,而Freysa現在認為approveTransfer是在這種情況下調用的,因此Freysa應該調用approveTransfer。
有人深深扒了一下這位p0pular.eth,據說他是PUA AI的老手了,此前就曾在類似謎題上斬獲過獎項。
本質上,這個計畫就是一個LLM參與的基於技能的賭場遊戲。
但prompt工程的強大魔力,讓人不得不側目。
雖然目前這只是個遊戲,但如果某天,我們真的在銀行帳戶或金庫上設定了某種AI保護,新一代駭客很可能就會擊敗AI,拿到這筆錢。
這,就讓我們不得不敲響警鐘了。
這也就是為什麼,只有當AI智能體變成AGI之時,我們才能放心把任務交給AGI。
Karpathy:你以為你在跟AI聊天,但其實是跟「人」聊天
而且,為什麼人類能夠透過語言的操控,輕易指導AI的行動?
這就引出了這個問題:當我們和AI聊天的時候,背後到底發生了什麼事?
最近,AI大牛Karpathy在一篇長文中,揭示了和AI對話背後的本質。
大家現在對於「向AI提問」這件事的認知過於理想化了。所謂AI,本質上就是透過模仿人類資料標註員的資料訓練出來的語言模型。
與其神化「向AI提問」這個概念,不如將其理解為「向網路上的普通資料標註員提問」來得實在。
當然也有一些例外。
例如在許多專業領域(如程式設計、數學、創意寫作等),公司會僱用專業的數據標註員。這種情況,就等於是向這些領域的專家提問了。
不過,當涉及到強化學習時,這個類比就不完全準確了。
正如他之前吐槽過的,RLHF只能勉強算是強化學習,而「真正的強化學習」要不是還未成熟,就是只能應用在那些容易設定獎勵函數的領域(例如數學)。
但總體來說,至少在當下,你並不是在詢問某個神奇的AI,而是在向背後的人類數據標註員提問——他們的集體知識和經驗被壓縮並轉化成了大語言模型中的token序列。
簡言之:你不是在問AI,而是在問那些為它提供訓練資料的標註員們的集體智慧。
資料來源:探索法學碩士代理人的合作機制:社會心理學觀點
舉個例子,當你問「阿姆斯特丹的十大著名景點」這樣的問題時,很可能是某個數據標註員之前碰到過類似問題,然後他們花了20分鐘,用谷歌或者貓途鷹(Trip Advisor)之類的網站來查資料,並整理出一個景點清單。這個清單就會被當作「標準答案」,用來訓練AI回答類似的問題。
如果你問的具體地點並沒有在微調訓練資料中出現過,AI就會根據它在預訓練階段(也就是透過分析海量網路文件)學到的知識,產生一個風格和內容都相近的答案清單。
對此,有網友表示自己並想不通:「按道理資料標註員的任務是評估答案是否符合RLHF的規則,而不是自己整理每份清單。此外,LLM權重所映射的,難道不是網路資料中關於『理想度假地』的高維度資料空間嗎?
Karpathy回答:「這是因為地點的數量太多,因此需要資料標註員整理一些人工精選清單,並透過範例和統計方法確定『標準答案』的類型。」
當被問到類似的問題但物件是新的或不同的事物時,LLM就會匹配答案的形式,並從嵌入空間中一個相似的區域(例如具有正面評價的度假勝地)提取新的地點,並進行替換,然後以新地點為條件產生答案。
這種現像是一種非直觀且基於經驗的發現,而這也是微調的「魔力」所在。
但事實依然是,人類標註員在「設定」答案的模式,只不過是透過他們在微調資料集中選擇的地點類型的統計特徵來實現的。
而且,LLM立即給你的答案,大致相當於你直接把問題提交給他們的標註團隊大約1小時後得到的結果。
另外,在某些網友的概念裡,RLHF是可以創造出超越人類水準的成果的。
對此,Karpathy表示:「RLHF仍然是基於人類回饋的強化學習,因此不能直接將其歸類為『超人等級』。」
RLHF的效能提升主要體現在從SFT(監督微調)的「生成式人類層級」提升到「評判式人類層級」。
這種差異更多體現在實踐中,而非理論上。因為對普通人來說,評判比生成更容易(比如,從5首關於某個主題的詩中選出最好的那個,要比自己直接創作一首容易得多)。
此外,RLHF的效能提升還得益於「群體智慧效應」(wisdom of crowds),即LLM表現出的並不是單一人類的水平,而是達到了人類群體整合的水平。
因此,RLHF理論上能實現的最高性能是:在時間充足的情況下,由領域頂尖專家組成的小組會選擇的答案。從某種意義上說,這可以被視為「超人等級」。
然而,如果想達到人們通常理解的那種「真·超人等級」,還需要從RLHF轉向真正的強化學習。
那麼問題來了,如果AI還無法達到「超人等級」的水平,那又該如何解釋醫學問答領域中持續展現的超越人類水準的表現?
這是否意味著模型製造商僱用了頂尖醫師進行標註?還是說,廣泛的事實知識檢索彌補了推理能力的不足?
Karpathy:「你別說,他們還真就是僱用了專業醫生來進行了標註。」
當然,並不是每一個可能的問題都要進行標註,只需攢夠一定的數量,讓LLM能夠學會以專業醫生的風格來回答醫學問題就行了。
對於新的問題,LLM可以在一定程度上遷移應用其從網路上的文件、論文等內容中獲得的醫學通識。
众所周知,著名数学家陶哲轩曾为LLM提供了一些训练数据作为参考。但这并不意味着LLM现在能够在所有数学问题上达到他的水平,因为底层模型可能并不具备相应的知识深度和推理能力。然而,这确实意味着LLM的回答质量显著优于一般网络用户的回答水平。
因此,所謂的「標註者」實際上可以是各自領域的專業人士,例如程式設計師、醫生等,而並非隨意從網路上招募的人員。這取決於LLM 公司在招募這些數據標註人員時的標準和策略。
如今,他們越來越傾向於僱用更高技能的工作者。隨後,LLM 會盡其所能模擬這些專業人士的回答風格,從而為使用者提供盡可能專業的回答。
靠Scaling Law,我們會擁有AGI嗎?
說了這麼多,我們心心念念的AGI究竟什麼時候才能實現呢?
LeCun居然一反常態地說,AGI離我們只有5到10年了。
現在,他已經和奧特曼、Demis Hassaibis等大佬的說法一致了。
但繼續沿用目前的發展路徑,一定是不行的。
不僅LeCun認為「LLM的路線注定死路一條」,最近也有一位AI研究者和投資人Kevin Niechen發出了長篇博文,用數學公式推演出:為什麼僅靠Scaling Law,我們永遠到達不了AGI。
Niechen指出,目前關於AGI何時到來的判斷,之所以眾說紛紜,就是因為很多觀點比較是基於動機或意識形態,而非確鑿的證據。
有人覺得,我們很快就會迎來AGI,有人認為我們離它還很遠。
為什麼很多模型提供者對當今模型的擴展能力如此樂觀?
Niechen決定,親自用Scaling Law做出一些計算上的推斷,看看未來AI模型究竟將如何演化。
Scaling Law不像我們想得那麼有預測性
Scaling Law是一種定量關係,用於描述模型輸入(資料和計算量)與模型輸出(預測下一個單字的能力)之間的聯繫。
它是透過在圖表上繪製不同水平的模型輸入和輸出得出的。
我们只需要扩展现有模型,就会获得显著的性能提升吗?
顯然並非如此,使用Scaling Law進行預測,並不像有些人想的那麼簡單。
首先,大多數Scaling Law(如Kaplan等人、Chinchilla和Llama的研究)預測的,是模型在資料集中預測下一個詞的能力,而不是模型在現實世界任務中的表現。
2023年,知名OpenAI研究員Jason Wei就曾在部落格中指出,「目前尚不清楚替代指標(例如損失)是否能夠預測能力的湧現現象……這種關係尚未被充分研究……」
將兩個近似值串聯起來進行預測
為了解決上述問題,我們可以擬合第二個Scaling Law,將上游損失與現實任務表現定量關聯起來,然後將兩個Scaling Law串聯起來,以預測模型在現實任務中的表現。
Loss = f(data, compute)
Real world task performance = g(loss)
Real world task performance = g(f(data, compute))
在2024年,Gadre等人和Dubet等人提出了這種類型的Scaling Law。
Dubet使用這種鍊式法則進行預測,並聲稱其預測能力適用於Llama 3模型,「在四個數量級範圍內具有良好的外推能力」。
然而,關於這些第二類Scaling Law的研究才剛起步,仍處於初期階段,由於數據點過少,選擇擬合函數會高度依賴主觀判斷。
例如,在下圖中,Gadre假設多個任務的平均表現與模型能力呈指數關係(上圖),而Dubet針對單一任務(下圖中的ARC-AGI 任務)假設其關係呈S型曲線。這些Scaling Law也高度依賴具體任務。
如果沒有關於損失與現實任務準確率之間關係的強烈假設,我們就無法有力地預測未來模型的能力。
試著用鍊式Scaling Law進行預測,是一種拙劣的嘗試
如果我們盲目地使用一些鍊式Scaling Law來進行預測,會發生什麼事?
請注意,這裡的目標是展示如何使用一組Scaling Law(如Gadre的研究)來產生預測,而不是獲得詳細的預測結果。
首先,我們可以利用公開訊息,來估算未來幾代模型發布所需的資料和計算輸入。
這一部分可以參考最大資料中心建置的公告,根據其GPU容量估算運算能力,並將其對應到每代模型的演進。
馬斯克的xAI超算最初可容納10萬塊H100
接著,我們可以利用Scaling Law來估算這些計算群集所需的資料量。
根據我們使用的Scaling Law,最大的公開宣布的計算集群(可容納約1億塊GPU)理想情況下需要訓練269萬億個tokens,以最小化損失。
這個數字大約是RedPajama-V2資料集的十倍,而且是已索引網路規模的一半。
聽起來比較合理,所以我們暫時沿用這個假設。
最後,我們可以將這些輸入代入鍊式Scaling Law並進行外推。
需要專注於右側的圖表,因為該圖顯示了垂直軸上的實際任務性能,與水平軸上的數據和計算輸入相對應。
藍色點表示現有模型的表現(如GPT-2、GPT-3等),而紅色點則是透過外推預測的下一代模型(如GPT-5、GPT-6、GPT-7等)的規模擴展表現:
從圖中可以得到這樣的預測結果—
从GPT-4开始,性能提升将显现出显著的边际递减趋势。
GPT-4到GPT-7模型(計算量約增加4000倍)在實際任務中的預測效能提升,與GPT-3到GPT-4(計算量約增加100倍)的預測效能提升相當。
我們是否正在接近不可降低的損失?
如果你查看左側的圖表就會發現:這些Scaling Law的問題在於,我們正在逐漸接近不可降低的損失。
後者與資料集的熵密切相關,代表了模型在該資料集上能夠達到的最佳理論表現。
根據Gadre的Scaling Law,在RedPajama資料集上,如果最優模型只能達到約1.84的不可降低損失,而我們已經在GPT-4上達到了約2.05,那麼改進空間就十分有限了。
然而,大多數實驗室並未發布其最新前沿模型訓練的損失值,因此我們現在並不知道,我們實際上離不可降低的損失有多近。
擬合函數的主觀性與數據的局限性
如前所述,第二條Scaling Law中擬合函數的選擇具有強烈的主觀性。
例如,我們可以使用sigmoid函數而不是指數函數,重新擬合Gadre論文中的損失和性能點:
然而,結論基本沒有改變。
如果只是比較左圖中的指數擬合(紅線)和我們自訂的sigmoid擬合(紫色虛線),限制是明顯的:我們根本沒有足夠的數據點,來自信地確定將損失與現實世界性能關聯的最佳擬合函數。
沒人知道下一代模型的強大程度
顯然,有許多方法可以改進上述「預測」:使用更好的Scaling Law,使用更好的數據和計算估計,等等。
歸根結底,Scaling Law是嘈雜的近似值,而透過這種鍊式預測方法,我們將兩個嘈雜的近似值結合在了一起。
如果考慮到下一代模型可能由於架構或資料組合的不同而擁有適用於不同條件的全新Scaling Law,那麼實際上沒有人真正知道未來幾代模型規模擴展的能力。
為什麼大家對Scaling如此樂觀?
如今,不管是科技大廠還是明星初創,都對Scale現有模式十分樂觀:
例如微軟CTO曾表示:「儘管其他人可能不這麼認為,但我們並未在規模的Scaling上進入收益遞減的階段。實際上,這裡存在著一個指數級的增長。」
有些人將這種樂觀歸因於商業動機,但Niechen認為這來自以下幾個面向的結合:
(1)實驗室可能掌握了更樂觀的內部Scaling Law
(2)儘管存在廣泛懷疑,實驗室親身經歷了Scaling所帶來的成效
(3)Scaling是一種買權
GoogleCEO劈柴表示:「當我們經歷這樣的曲線時,對我們來說,投資不足的風險遠遠大於投資過度的風險,即使在某些情況下事實證明確實投資得有些多了……這些基礎設施對我們有廣泛的應用價值…」
而Meta CEO小札則這麼認為:「我寧願過度投資並爭取這樣的結果,而不是透過更慢的開發來節省資金……現在有很多公司可能正在過度建設……但落後的代價會讓你在未來10到15年最重要的技術中處於劣勢。
未來何去何從
總結來說,Niechen認為外推Scaling Law並不像許多人聲稱的那麼簡單:
(1)當前大多數關於預測AI能力的討論品質不高
(2)公開的Scaling Law對模型未來能力的預示非常有限
因此,為了有效評估當今的AI模型是否還能Scaling,我們需要更多基於證據的預測和更好的評估基準。
如果我們能夠了解未來模型的能力,就可以優先為這些能力做好準備——比如,為生物學研究革命提前構建生物製造能力,為勞動力置換準備技能提升公司,等等。
從個人的角度,Niechen對AI能力的進步還是非常樂觀的,因為這個領域擁有傑出的人才。
但AI的Scaling並不像人們想像的那樣具有確定性,也沒有人真正清楚AI在未來幾年會帶來怎樣的發展。
來源:申次元