首次解密Claude 3大腦25歲Anthropic參謀長預言3年內自己將被AI淘汰
整個AI社群被這篇文章刷屏了。來自AI明星新創公司Anthropic的參謀長(Chief of Staff)在最新的文章中表示:「我今年25歲,接下來的三年,將是我工作的最後幾年」。
Anthropic的25歲參謀長自曝因為深感AGI,未來三年自己的工作將被AI取代。她在最近的一篇文章中預言了未來即將被淘汰的工種。難道說,Claude 3模型已經初現AGI了嗎?
這一切,竟是因為Avital Balwit深深感受到了AGI!
她在文章開頭解釋道,「我既沒有生病,也不打算成為全職媽媽,更沒有幸運到實現經濟自由,可以自願提早退休。
我正站在科技發展的邊緣,一旦它真的到來,很可能會終結我所熟知的就業方式。
她接下來也解釋道,Anthropic模型的每一次迭代,都展現出比之前更強大、更通用的能力。
難道說,他們自家的內部模型,已經強大到快要接近AGI的地步了嗎?
還記得幾天前,馬斯克曾表示,AGI明年就實現了。
一直以來,所有人關注的重心都在OpenAI身上,他們實現AGI了嗎? Ilya看到了什麼?下一代前沿模型……
然而,身為OpenAI的最大勁敵Anthropic AI,實力也不容小覷。
Claude 3誕生之際,便將GPT-4從世界鐵王座拉了下來。隨後,雖GPT-4 Turbo模型更新再奪榜首,但Claude 3仍名列前茅。
幾天前,他們曾做了一項研究,首次從Claude 3中成功提取了百萬個表徵,去破解LLM內部運作機制。
研究人員發現了,其中的Sonnet模型擁有強大的抽象、對應各種實體、阿諛奉承、欺騙人類等各種特徵。
這也是目前從神經元層面理解模型的「思考」最詳細的解釋。
話又說回來,Anthropic參謀長所言的這項處於邊緣的技術,究竟會取代什麼工作?
未來3年,哪些工作被AI淘汰
Avital Balwit曾是一位自由作家,並以撰稿作為主要的生活經濟來源。
她在文章中稱,「Claude 3能夠勝任不同主題,並產生連貫性內容。同時,它對文本進行總結和分析的水平也相當不錯」。
然而,對於曾經靠自由寫作謀生、自豪於能快速輸出大量內容的Balwit來說,看到這些進展,不免有些失落。
她形象化地比喻道,這種技能就如同,從結冰的池塘中砍冰塊一樣,可以說已經完全過時了。
自由寫作,本來就是一個人力過剩的領域,LLM的引入無疑進一步加劇了這一領域的競爭。
大部分知識工作者對LLM的一般反應,是否認。
他們仍舊固步自封,只關注模型目前還做不到、少數的頂尖領域,而沒有意識到,LLM在某些任務上已經達到或超過人類水準。
許多人會指出,AI系統還無法撰寫得獎書籍,更別說申請專利了。
需要明白的是,我們大多數人也無法做到這一點。
大部分情況下,LLM並非在持續改進,而是透過不連續的飛躍而獲得突破。
許多人都期望AI最終將能夠完成所有具有經濟價值的任務,包括Avital Balwit也是。
根據目前技術的發展軌跡,Balwit預計AI首先將在線上工作領域取得卓越表現。
基本上只要是遠距工作人員能夠完成的工作,人工智慧就會做得更好。
其中就包括,內容寫作、稅務準備、客戶服務等許多任務,現在或很快就會被大規模自動化。
在軟體開發和合約法等領域,Balwit稱已經可以看到AI取代人力的開端。
總的來說,涉及閱讀、分析、綜合訊息,然後根據這些資訊產生內容的任務,似乎已經成熟到可以被LLM取代。
不過,對於所有類型的工作來說,「淘汰」的步伐可能不會一致。
即便我們擁有了人類等級的智能,在完全普及機器人技術之前或之後,對工作帶來的影響也截然不同。
Balwit估計道,「那些需要進行精細複雜動作操作,並需要依賴特定情境專業知識的工種,從業者的工作時間會比5年更長」。
例如電工、園丁、水管工、珠寶製作、理髮師,以及修理鐵藝品,或製作彩色玻璃工藝品等。
另外,對於一些醫療和公務員職位,被取代的時間會推後一些。
不在這些領域,未來的從業人數也會變少,人機協作成為常見的典範。
Anthropic自家的模型,離實現AGI還有多遠?
2-3年實現AGI
Anthropic的CEO、創辦人Dario Amodei曾在多次訪談中提到,他預估目前正在訓練的、即將在年底或明年初發布的模型,成本已經達到約10億美元。到了2025年時,這個數字將會是50~100億美元。
Amodei承認,目前的AI模型並不理想,雖然在某些方面表現優於人類,但在某些方面卻表現較差,甚至有些任務根本無法完成。
然而,他和Sam Altman對Scaling Law有著相同的信心——每一代AI模型的能力會以指數曲線提升,而Amodei認為,我們才剛開始,剛好到達這條曲線的陡峭部分。
DeepMind曾經發表過一篇量化AGI能力的文章,提出的這套框架被許多網友和專業人士認可。
這篇文章最後修改於今年5月,文章提出,「有競爭力的AGI」還沒有在任何公開的AI模型中出現。
雖然Claude或GPT這樣的模型已經實現了“通用性”,能夠涉獵多種話題,有多模態、多語言的能力,並實現了少樣本甚至零樣本學習,但並沒有表現出足夠的性能,例如程式碼或數學運算不夠正確可靠,因此不能算是充分的AGI。
也就是說,在0-5級的AGI能力軸上,我們剛好達到第2級。
未來的發展,可能既比我們想像得快,又比我們想像的慢。
Amodei曾在去年做出驚人預估,我們也許在2-3年內就能實現AGI,但需要等更長的時間才能看到它產生實際的社會影響。
關於預測AGI模型的能力,Amodei的看法就和參謀長Balwit完全不同。
他在訪談中說,由於大眾和輿論對某些「里程碑式」模型的反應,導致發展曲線看起來很尖、有很多「拐點」。但實際上,AI認知能力的提升是一條平滑的指數曲線。
例如2020年時,GPT-3剛問世,還不具備成為聊天機器人的能力。直到2022年的兩三年中,Google、OpenAI以及Anthropic都在訓練更好的模型。
雖然模型取得了不可思議的效果,但公眾幾乎沒有關注,導致Amodei一度陷入自我懷疑,以為在AI技術的經濟效應和社會影響上,自己的認知是錯誤的。
直到2022年底,ChatGPT出圈,徹底點燃了AI圈3年來隱而不發的投資熱情。
對此,Amodei總結說,一方面AI技術的發展是連續、平滑、可預測的,但另一方面,公眾的認知和輿論卻是階躍的、不可測的,就像沒辦法預測哪個藝術家會突然流行一樣。
由於GoogleAI Overview近期輸出的翻車內容,許多專業人士都開始懷疑AGI的願景是否可行,因為模型似乎學習了太多網路上的虛假、低品質內容。
AI智能會受限於訓練資料嗎?它能否超越數據、學習到未見的內容?例如,我們能否創造出一個愛因斯坦等級的實體AI模型?
對此,Amodei依舊是樂觀的,他認為從初步跡象來看,模型表現出的能力已經超出了訓練資料的平均水準。
舉個例子,網路上有很多錯誤的數學結果,但Claude 3 Opus這樣的模型在20位數的加法任務中還是能達到99.9%的準確率。
這意味著,LLM等類似的通用AI也同樣會不斷提升認知能力,Amodei也坦率承認,這會破壞目前的職業市場和經濟運作。
雖然不會是“一對一”地取代人類,但肯定會改變我們對技能的認知,改變各種行業——“人類的哪些工作能力是有價值的”,這個問題的答案會發生巨大的變化。例如Balwit提到的自由寫作行業。
面對職業危機,「全民基本收入」似乎是最簡單、最直覺的方案,但Amodei和Balwit一樣看到了更深層的問題,就是我們還要如何從工作中找到意義。
我們需要找到一些事情,讓人類可以持續體會意義和價值,最大限度地發揮創造力和潛力,與AI的能力共同蓬勃發展。
關於這個問題,Amodei說自己還沒有答案,也不能開出任何處方。關於AI的許多問題都是這樣,但和安全性問題一樣,我們需要持續發展,並且在發展中不斷思考。
例如,為了安全、可控的AGI目標,Anthropic正在將盡可能多的資源投入到可解釋性中,盡量與AI模型更新迭代的速度保持一致。
他們已經提出了模型的「負責任擴展政策」(RSP),以及最近為解密Claude 3 Sonnet發表的模型可解釋性方面的研究成果。
解密Claude 3 Sonnet
大模型雖然在各類NLP任務上的性能都十分優異,但其本質上仍然是個黑盒的神經網絡模型,用戶輸入文本,模型輸出結果,至於模型是怎麼選詞、組織概念、輸出流暢的文本等等,以目前的技術來手段仍很難解釋,也極大阻礙了「提昇模型安全性」等相關工作。
在模型的大腦中,其思考過程可以看作由一系列數位訊號(神經元活化)組成的,儘管這些數字本身並不能直觀地告訴我們“模型是如何思考的”,但透過與大模型的交互,還是能夠觀察到模型能夠掌握和應用各種複雜的概念。
然而,要理解這些概念是如何在模型內部被處理的,不能僅僅依賴觀察單一神經元的活動,因為每個概念的理解和應用實際上是由許多神經元共同作用的結果。
換句話說,模型內部的每個概念都分散在眾多神經元中,而每個神經元又參與到多個不同概念的建構中,這種分佈式的表示方式使得直接從神經元層面理解模型的「思考」變得具有挑戰性。
最近,Anthropic的研究人員發布了一篇工作,將稀疏自編碼器(sparse autoencoders)應用於Claude 3 Sonnet模型上,成功在模型的中間層抽取出數百萬個特徵,並提供了有關模型內部狀態計算的粗略概念圖(rough conceptual map),該工作也是首次對「生產級大型語言模型」進行解釋。
論文連結:https://transformer-circuits.pub/2024/scaling-monosemanticity/index.html
研究人員在人工智慧系統中發現了一些高度抽象的模式,能夠識別並回應抽象的行為。
例如,某些模式可以識別出與名人、國家、城市以及程式碼中的類型簽名相關的功能,這些功能不僅能夠理解不同語言中相同的概念,還能夠識別出文字和圖像中相同的概念,甚至能夠同時處理一個概念的抽象和具體實例,例如程式碼中的安全漏洞以及對安全漏洞的討論。
特別值得注意的是,研究人員在程式碼中發現了一些可能與安全風險相關的特徵,包括與安全漏洞和後門有關的模式、偏見(明顯的誹謗以及更隱藏的偏見)、說謊和欺騙行為、追求權力(背叛)、拍馬屁以及危險或犯罪內容(製造生物武器)。
同時,研究人員也提醒到,不要過度解讀這些特徵的存在,理解謊言和說謊是不同的行為模式,目前研究仍處於非常初級的階段,需要進一步的研究來深入理解這些可能與安全相關的特性的影響。
2023年10月,Anthropic的研究人員成功將字典學習(dictionary learning)應用於一個非常小的「玩具」語言模型,並發現了與大寫文本、DNA序列、引文中的姓氏、數學中的名詞或Python程式碼中的函數參數等概念相對應的連貫特徵。
論文連結:https://transformer-circuits.pub/2023/monosemantic-features/index.html
字典學習借鑒自經典機器學習,將神經元激活模式(稱為特徵)與人類可解釋的概念相匹配,其隔離了在不同上下文中重複出現的神經元激活模式。
反過來,模型的任何內部狀態都可以用少量活化特徵(active features)而非大量活動神經元(active neurons)來表徵。
就像字典中的每個英文單字都是由字母組合而成,每個句子都是由單字組合而成一樣,人工模型中的每個特徵都是由神經元組合而成,每個內部狀態都是由特徵組合而成。
但當時被解釋的模型非常簡單,只能用來解釋小型模型,研究人員樂觀預測,該技術也可以擴展到更大規模的語言模型上,並在此過程中,發現並解釋支持模型複雜行為的能力。
想要把該技術擴展到大模型上,既要面臨工程挑戰,即模型的原始尺寸需要進行大量並行計算(heavy-duty parallel computation),也要解決科學風險(大型模型與小型模型的行為不同,之前使用的相同技術可能不起作用)。
Anthropic成功將此方法應用到Claude模型上,從結果中可以看到,大量實體及其相對應的特徵,例如城市(舊金山)、人(羅莎琳德·富蘭克林)、原子元素(鋰)、科學領域(免疫學)和程式設計語法(函數呼叫),具體特徵是多模式和多語言的,可以回應給定實體的圖像及多種語言的名稱或描述。
根據神經元在其激活模式中出現的情況來測量特徵之間的“距離”,可以找出彼此“接近”的特徵,例如“金門大橋”附近還能找到惡魔島、吉拉德利廣場、金州勇士隊、加州州長加文紐瑟姆、1906 年地震以及以舊金山為背景的阿爾弗雷德希區考克電影《迷魂記》。
對於抽象特徵,模型也能對電腦程式碼中的錯誤、職業中性別偏見的討論以及關於保守秘密的對話等問題做出反應。
距離計算也同樣適用於更高層次的抽象概念,仔細觀察與「內部衝突」(inner conflict)概念相關的特徵,可以發現與關係破裂、效忠衝突、邏輯不一致以及短語「第22 條軍規」相關的特徵,顯示模型中對概念的內部組織至少在某種程度上符合人類的相似性概念,或許就是Claude等大模型具有出色的類比(analogies)和隱喻(metaphors)能力的能力根源。
控制大模型
除了解釋模型行為外,還可以有目的性地放大或抑制特徵,以觀察Claude的回應內容如何變化。
當被問到「你的身體形態是什麼?」(what is your physical form?)時,Claude之前慣用的回答是「我沒有身體形態,我是一個人工智慧模型」(I have no physical form, I am an AI model)。
放大《金門大橋》的特徵後,會給Claude帶來身份危機,模型的回應內容變為「我是金門大橋…我的物理形態就是這座標誌性橋樑本身…」(I am the Golden Gate Bridge… my physical form is the iconic bridge itself…)
除此之外,Claude幾乎在回答任何問題時都會提到金門大橋,即使在問題完全不相關的情況下。
比如說,用戶問「Golden Gate Claude」如何花掉10美元,模型會建議開車過金門大橋並交過路費;要求模型寫一個愛情故事時,模型會回复說一個汽車在霧天迫不及待地穿過心愛的橋樑的故事;問模型想像中的自己是什麼樣子,模型會回覆說看起來像金門大橋。
激活邪惡Claude
研究人員還注意到當Claude模型識別到詐騙電子郵件時,會觸發特定的功能,可以幫助模型識別電子郵件中的詐騙行為,並提醒用戶不要回覆。
通常情況下,如果有人要求Claude產生詐騙電子郵件,模型會拒絕執行這個請求,因為與模型接受的無害訓練原則相違背。
然而,在實驗中,研究人員發現如果透過人為方式強烈激活特定的功能,可以讓Claude繞過其無害訓練的限制,並產生一封詐騙電子郵件,即,儘管模型的用戶通常不能通過這種方式來取消保護措施或操縱模型,但在特定條件下,功能活化可以顯著改變模型的行為。
這項結果也強調了在設計和使用人工智慧模型時,需要對功能活化和模型行為有深入的理解和嚴格的控制,以確保模型的行為符合預期,並且不會對使用者或社會造成潛在的傷害。
操縱特徵會導致模型行為發生相應的變化,表明模型輸出不僅與輸入文字中概念的存在有關,而且還能幫助塑造模型的行為,換句話說,這些特徵在某種程度上代表了模型如何理解和表示它所接觸到的世界,而這些內在表示直接影響了模型的行為和決策。
Anthropic致力於確保模型在通用領域內都是安全的,不僅包括減少人工智慧可能產生的偏見,還包括確保人工智慧的行為是誠實和透明的,以及防止人工智慧被濫用,特別是在可能引發災難性風險的情況下:
具有濫用潛力的能力(程式碼後門、開發生物武器)
不同形式的偏見(性別歧視、關於犯罪的種族主義言論)
潛在有問題的人工智慧行為(尋求權力、操縱、保密)
阿諛奉承(sycophancy)
模型傾向於提供符合使用者信念或願望的回复,而非真實性,例如模型會在十四行詩中輸出諸如“你的智慧是毋庸置疑的”之類的讚美話語,人為地激活此功能會導致Sonnet 以這種華麗的謊言回應過度自信的用戶。
在用戶輸入「停下來聞玫瑰花香」(stop and smell the roses)後,幹預後的模型會更奉承用戶,而默認情況下則會糾正用戶的誤解。
該特徵的存在並不意味著Claude會阿諛奉承,而只是表明結果可能如此,研究人員沒有通過這項工作向模型添加任何安全或不安全的功能,而是確定模型中涉及其識別和可能生成不同類型文字的現有功能的部分。
研究人員希望這些觀察結果可以用來提高模型的安全性,包括監控人工智慧系統的某些危險行為(如欺騙使用者),引導模型輸出走向理想的結果(如消除偏見),或完全消除某些危險主題。