對話Sam Altman:解讀o3模型,2025底年AI或將超越人類智慧
在昨天一次訪談中, OpenAI執行長Sam Altman分享了其最新模型O1的願景與思考,同時也簡單提及了剛發布的O3模型。值得注意的是,O3模型在Frontier Math基準測驗中展現出驚人的數學推理能力,就連著名數學家陶哲軒都表示,這些測驗題目的難度需要人類數學家耗費數小時乃至數天才能完成。
談到O1模型,Altman表示這是一個備受矚目的項目,正致力於打造具備人類式深度思考能力的AI系統。與目前的大語言模型相比,O1的目標更為宏大。它試圖模擬人類的”系統二”思維方式- 即在面對複雜問題時,能夠進行深入的推理、提出假設並系統性地驗證。雖然GPT-4等模型已經展現出令人印象深刻的能力,但在處理高度複雜的數學問題、程式設計任務或前沿科學探索等領域時,仍缺乏這種深度推理能力。
OpenAI採用了一個五級框架來評估AI系統的能力水平,目前其推理模型處於第二級。 Altman在訪談中做出了一個大膽的預測:到2025年底,我們將看到能夠執行令人驚嘆的認知任務的AI系統,其解決複雜問題的能力可能在某些領域超越人類。
文稿整理
主持人Melissa Koide: Sam,歡迎來到Kennedy Center Reach,我想你不需要多做介紹了。
Sam Altman:謝謝你們邀請我。
關於o1 模型的設計邏輯
主持人最近你發布了o1 模型,這為金融業帶來了重要優勢,特別是在我們需要了解模型工作原理的時候。所以我想,如果可以的話,可以為我們介紹一下o1 模型的設計邏輯嗎?我們可以從這裡展開討論。
Sam Altman:好的,多年來,這個領域的一個主要關注點是,我們是否能夠發展出具備類似人類「系統二」思維的模型。這種思維方式能夠讓人類面對困難問題時,花更多時間深思熟慮,提出假設,並在頭腦中進行測試,可能還會使用外部工具或紙筆記錄,最後得出更好的答案。儘管像GPT-4 這樣的模型在某些情況下表現得令人印象深刻,但這種能力基本上還是缺乏的。如果我們想解決真正困難的數學問題或複雜的程式設計問題,或幫助科學家探索新的世界認知,我們確實需要這種增強的推理能力。因此,o1 是我們邁向這目標的第一步。當然,很快就會推出更多增強推理能力的模型,能夠應付更複雜的問題,得到更好的答案。
主持人太棒了!那麼據我理解,o1 顯然是這趟旅程中的一步。是否可以說,下一步可能是AI 的代理性應用?
Sam Altman:是的,我們希望如此。在一個模型可以很好地進行推理之前,你不會信任它來完成複雜的代理任務,例如那些需要長期規劃的任務。不過,現在我們已經實現了這個突破,我相信,或者說我希望,我們可以打造出更好的代理商體驗。
主持人這太棒了!我們都對此充滿期待。在金融服務領域,這類技術展現了強大的可能性,特別是當人們日常生活中處理與財務相關的複雜需求時,例如選擇停止支付哪些帳單、購買哪種保險產品,以及設定長期目標。因此,一個具有代理功能的金融管理工具可能會帶來巨大的潛力。我們很想聽聽你對這些科技應用方向的看法,尤其是它們如何服務於個人金融管理或其他相關領域。
Sam Altman:這是個好問題。總的來說,我們喜歡讓專家告訴我們該怎麼做,而我們專注於如何打造優秀的AI 工具。其他人則經常用非常驚人的創新給我們帶來意外之喜。但我可以分享一些我們觀察到的通用模式。首先,AI 在自動化重複性、稍微複雜的工作流程上表現出色。如果過去的業務流程自動化只能針對非常靜態且變化少的場景,現在的模型已經可以實現更多適應性,你會看到一些令人矚目的創新成果。此外,整個業務的某些部分現在可以完全自動化。例如客戶服務領域,我發現它的進展非常驚人。
过去的客户服务可能包括繁琐的电话选项、长时间等待、被转接、问题未解决然后掉线再重新开始。现在,这些问题已经不存在了。AI 客服可以即时响应,没有电话选项树,用户可以准确获得想要的服务,体验非常好。同时,你提到的代理性技术上线后,将能支持构建更多产品和服务。需要特别指出的是,它还会显著提升公司内部生产力。想象一下,一个银行的软件工程师如果可以将工作效率提高 10 倍,甚至未来提高到 100 倍,这将对整个行业产生深远影响,而这一点在讨论中常被忽视。
主持人我看到在場很多銀行高層都在點頭,這確實令人興奮。作為客戶,能夠得到更有效率的服務確實是一種優勢。關於代理性AI 的未來應用,你如何區分敏感場景和非敏感場景?例如,金融代理與幫助選擇晚餐地點的工具,這種區分你是怎麼看的?
Sam Altman: 总的来说,在使用新型 AI 技术时,复杂的金融交易不应该是优先选择的应用场景。我认为这很好——技术的发展本就应该先从低敏感度的场景开始。如果你看从 GPT-3 到现在的 GPT-4 的进展,有些最初难以置信的任务现在已经可以完全依赖最新版本完成,这花了几年时间,但我们现在已经走到了这里。未来,我们会推出新的能力,而这些能力需要时间来验证是否足够安全和稳定,然后再应用到更敏感的场景中。但我想补充一点,新型推理模型比之前的模型更加可靠。它们在出错时的恢复能力、说“我不知道”的能力,以及在给出答案前更深入思考的能力都有显著提升。尽管它们目前还不适用于许多敏感场景,但这种发展方向确实让人充满期待。
關於AI和場景應用
主持人非常棒,謝謝。在金融服務領域,我們非常關注“黑箱問題”,以及模型的可解釋性需求。你如何看待和解決大型語言模型的“黑箱挑戰”,並在使用這些更複雜的模型時推廣可解釋性?
Sam Altman:關於可解釋性,人們通常有兩種討論方式。一種是「我需要知道每個神經元的運作情況,需要能夠像X 光一樣看透模型,觀察改變某個權重後會發生什麼事」。這在領域中被稱為機械可解釋性。另一種是「我需要你解釋你是如何得出這個答案的,告訴我每一步邏輯過程發生了什麼,我會決定這些邏輯是否合理」。
第一種方式並不是我們在人類中可以做到的。我們無法觀察你大腦中每個神經元的活動,然後說:「好吧,現在它不再是個黑箱了,我理解了。但我們可以做的,是像第二種方式那樣詢問:「這是你的答案,請解釋你是如何得出這個結論的,告訴我你用了哪些資料來源,如果我想的話,我可以自己檢查這些資料來源。告訴我每一步的邏輯過程,我會判斷這些步驟是否合理。你可以把問題分解到每一個邏輯跳躍點,但不需要涉及每個微不足道的細節,只需包括主要的部分即可。這種可解釋性正是我們的推理模式所能幫助實現的。我們可以要求模型解釋其推理過程,並根據這些解釋來判斷結論是否合理。我認為,這種方式將更符合我們對有用的可解釋性的需求。
主持人這真的很有幫助。在金融領域,我們也一直在思考類似的問題,例如從邏輯迴歸模型到監督學習模型時,我們需要解釋多少內容,以及目的是什麼。謝謝你的解答。我還有一個問題,今天的討論中提到了一點:如何將科技產業融入金融服務領域。這涉及文化差異,以及如何將一個高度監管的行業與科技業的創新結合起來,從中受益。很想聽聽你對這些文化差異的看法,以及我們應該如何更好地理解和合作,讓銀行業更舒適地接受新科技。
Sam Altman:我想傳遞的第一點是,科技仍在迅速發展,這種動態性使高度監管的行業以及許多其他事情變得具有挑戰性。我們今天認為可能或不可能的事情,可能在相對較短的時間內完全改變。這種變化性確實很難應對,在技術如此動態的情況下制定長期計劃是很困難的。我能給的最好建議就是,不要對任何事物抱持過於僵化的態度,密切注意技術進展,並願意靈活調整。
主持人是的,我理解這一點。這對我們來說很難,但我們希望能夠傾聽和學習,同時跟上你們的探索步伐。我知道你也投資了一些金融科技公司,能不能談談這些公司在做什麼?為什麼你會選擇投資它們?以及從中是否能看出你對金融和科技未來的看法,或者這些模型可能會把世界帶往何處?我們很想聽聽你的想法。
Sam Altman:我非常喜歡金融科技領域,正如你所提到的,這些是我參與過的一些最有趣的投資。我不知道這個領域的未來究竟會走向何方,正如我之前提到的,科技的動態性讓這一點難以預測。但我認為,豐富的智慧——真正能夠完成非常複雜任務的智慧——一定能為這個龐大的產業帶來偉大的新產品。我對金融科技最初的興趣源自於一次旅行中遇到的一個陌生人,他在南美洲從事金融工作。他告訴我,腐敗是整個世界的頭號問題,而我身為一個技術人,如果能開發出解決金融腐敗的技術,就能解決他國家的所有問題。不知為什麼,這句話深深地印在了我的腦海中。後來我越想越覺得,這確實是一個巨大的挑戰和機會。它讓我開始深入關注金融科技,並逐漸意識到它在我們生活中的廣泛影響。我依然深信這一點:金融科技推動了世界的運作。如果我們能創造更好的產品和服務,它將觸及生活的各個層面,並帶來巨大的影響。
關於O3模型未來
主持人好的,我們很喜歡這個話題。這些挑戰也是我們一直關注的核心議題之一,即如何利用科技和數據讓更多人能夠享受負責任的金融產品和服務。減少摩擦、降低成本,創造更多人參與金融體系的機會,這正是我們的焦點之一。所以我非常感謝你的見解。還有一個問題,大家可能會失望如果我不問你——我們聽到了很多關於「通用人工智慧(AGI)」的討論。 AGI到底是什麼?什麼時候會實現?它可能帶來什麼影響?我必須說,這個問題可能比人工智慧如何影響銀行業更難回答,但你對此的研究更多,想聽聽你的看法。
Sam Altman:通用人工智慧(AGI)過去是人們經常提到的術語,指的是一種非常聰明的AI,它離實現還非常遙遠。但隨著我們離它越來越近,這個術語的實用性似乎下降了。現在人們用它來指稱許多不同的東西。有些人用它來描述類似o1 的東西,而有些人則用它來描述真正的超級智能,即比全人類加起來還聰明的東西。我們目前嘗試使用一個五級框架進行劃分,而不是簡單地將其二元化為「是否是AGI」。目前,我們的推理模型處於第二級。隨著距離越來越近,這種粗略的分類顯得不夠細緻。不過,我可以說,到2025 年底,我預期我們將擁有能夠執行真正令人驚嘆的認知任務的系統,這些系統會讓你覺得「這個東西在很多困難問題上比我更聰明」。
主持人我們現在坐在華盛頓特區,圍繞公共政策進行討論。如果給你一支筆和一張白紙,你會建議美國制定哪些法律,以確保我們建構出世界上第一個安全的超級智慧AI?
Sam Altman:因為我們有太多未知的領域,我認為制定一個非常好的測試框架可能是最好的起點。這在許多其他行業中已經證明是有效的,在這裡似乎也是非常合理的做法。
主持人可以具體談談這個測試框架嗎?我們想跟上你的節奏。
Sam Altman:在OpenAI 發布o3 之前,應該有某種聯邦測試框架來評估。框架需要明確我們最關注的危害,以及如何監控和緩解這些危害。這些測試需要在模型發布前完成,就像新藥或新飛機的認證過程一樣,你需要證明它在這些方面是安全的。
主持人這是個很好的引導,我的最後一個問題可能是,你對川普政府有什麼建議?聽起來你提到了與AI 安全研究所的一些合作工作,但…
Sam Altman:關於安全性我有很多建議,但我想藉此機會強調另一件事——與其他類型的軟體不同,AI 需要巨大的基礎設施支持,包括晶片、電力、龐大的資料中心等。在美國歷史上,我們在某些有遠見的領導人帶領下,為國家繁榮和安全推動了大規模基礎建設。我很希望看到川普總統也能全力推動這樣的計畫。
主持人我繼續問一個問題吧,因為我們還有時間。今天的討論中有一個部分涉及AI 對勞動者的影響。我們早些時候聽到Oren Kass 提出了他的觀點。可以分享一下你對AI 在長期內對勞動市場影響的看法嗎?
Sam Altman:關於這個問題,人們常常感到困惑,我自己也有時會感到困惑。 AI 只是讓工人更有效率,還是最終會取代許多勞動力?答案顯然是兩者兼具。它透過替代部分任務讓工人更有高效,為人們帶來更多槓桿效應。從樂觀的角度來看,我傾向於認為人類永遠不會缺少事情去做。長期以來,我們一直聽說自動化會讓人們不必工作,但人們仍然需要工作。另一方面,這一次可能會有所不同。我不能斷言自己或其他任何人真正知道答案。
主持人是的,你之前提到「全民基本收入」可能作為應對工作減少的潛在政策工具。能詳細談談這個話題嗎?
Sam Altman:我不認為它是一個完全的解決方案,但它可以成為解決方案的一部分。隨著社會越來越富裕,人們對社會支持的期望也不斷提高,我認為這種趨勢會持續下去。但我不認為它是一個二元的選擇,也不認為它能取代其他一切。