OpenAI緊急加播:ChatGPT上新深度搜尋持續思考30分鐘輸出1萬字
就在開源的DeepSeek-R1被整合進各路AI搜尋工具之際,OpenAI臨時舉行小型發表會。 4點27通知,8點開始直播。 ChatGPT上新「Deep Research」,把推理大模型的思考能力用於連網搜尋。

據介紹,Deep Research功能可在數十分鐘完成人類專家需要數小時的複雜研究任務。

在「人類最後的考試」上,DeepResearch刷新了最高分,比o3-mini高推理設定分數高出一倍。
測驗包括3000多個多選和簡答題,涵蓋從語言學、火箭科學到生態學的100多個主題。
與o1相比,Deep Research最突出的地方在化學,人文和社會科學以及數學中,表現出類似人類的「在必要時尋找專業資訊」的能力。

另一項測試GAIA,在現實世界問題上評估AI的公開基準測試,Deep Research在3個等級的難度上均刷新記錄,平均完成一個問題花費60-70秒。

出於保護基準測試的目的,OpenAI只展示了Deep Research在完成這些任務時的搜尋過程,隱藏了最終答案。

Deep Research功能接下來將對Pro、Plus和Team用戶開放。
奧特曼後面補充,目前版本基於o3構建,Plus用戶(20美元/月)每個月能用約10次,並且正在構建一個更有效率的版本。
此外,免費用戶也能獲得非常少量的使用額度。

推理Agent的第一步
OpenAI表示,Deep Research專門為在金融/科學/工程等領域從事高強度知識工作、需要深入精確且可靠研究的人而設計。
它由OpenAI o3驅動,透過基於真實任務(涉及瀏覽器和Python工具的使用)的訓練,採用了與o1相同的強化學習方法。
只需一個提示,它就會查找分析並整合數百個線上資源,產生一份達到研究分析師水平的綜合報告。
Deep Research對OpenAI的重要性,官方原話是:
Deep Research標誌著我們在開發AGI的宏偉目標上邁出了重要一步。我們長期以來一直設想AGI能夠進行新穎的科學研究,而Deep Research正是這個願景的重要進展。
使用方法,點選輸入框下方的Deep Research按鈕即可,支援上傳檔案新增額外資料。

例如prompt:
Compile a research report on how the retail industry has changed in the past 3 years. Use bullets and tables where necessary for clarity. (寫一份關於過去三年零售業變化的研究報告,並運用項目符號和表格來提升內容的清晰度)
ChatGPT線會確認一下問題細節信息,例如“您能具體說明您最感興趣的零售業方面嗎?”“您需要全球視角還是特定地區的分析?”

然後,它就開始分析+挖掘資訊了:

側邊欄會顯示所採取的步驟摘要和所使用的資訊來源。
完成任務的時間大概是5-30分鐘,最終結果將以報告的形式輸出。

OpenAI表示,接下來幾週內,也將為這些報告添加嵌入式圖片、資料視覺化和其它分析輸出。
和GPT-4o等相比,Deep Research對於需要深度和細節的多方面、特定領域的問題,能夠進行廣泛探索並引用每個觀點。
不過,OpenAI也指出了Deep Research存在的限制。
它有時會在回復中產生事實幻覺或做出錯誤的推斷,儘管根據內部評估,其錯誤率明顯低於現有的ChatGPT模型。
它可能在區分權威訊息和謠言方面遇到困難,並且在自信度校準方面目前表現出弱點,常常無法準確傳達不確定性。
報告和引用中可能會有輕微的格式錯誤,啟動任務可能需要更長的時間。
下一步,OpenAI表示將在本月內將Deep Research推到行動和桌面APP端。目前,Deep Research可以存取公開網路和上傳的文件,未來將能夠連接到更多專業化的資料來源,使其輸出更加穩健和個人化。
我們預見ChatGPT將實現Agent體驗的融合,用於非同步、現實世界的研發和執行。 Deep Research(可進行非同步線上調查)與Operator(可進行現實行動)的結合,使ChatGPT能夠執行越來越複雜的任務。
AI深度搜尋是網路的新介面
OpenAI研究員Jason Wei分享了他對這項新研究的看法:
它不僅是出色的Agent,也可以看成是互聯網的新介面
人類使用網路需要大量時間來搜尋和點擊,受到時間和注意力的限制。
AI永遠不會累,一次可以瀏覽許多網站,並擁有幾乎無限的世界知識。
將來,透過瀏覽器手動瀏覽網路將過時,就像手動計算數字而不使用計算器一樣。

OpenAI toG業務負責人Felipe Millon則分享了一個個人故事。

10月底,Millon的妻子被診斷出患有雙側乳癌,病情很嚴重,在12月初做了雙乳房切除手術,稍後開始化療。
他們遇到一個新問題,是否應該接受放射治療,對於她的特定病情來說,這是一個模糊問題,不同的專家給予不同的建議。
Millon在OpenAI已經獲得了Deep Research的測試權限,就嘗試上傳了手術報告,並詢問ChatGPT的建議。
ChatGPT不僅證實了人類專家所提到的內容,也搜尋出了全新的參考研究。
MIllon認為,這是一個將改變世界的工具。

此外也有少數第三方團隊提前獲得了Deep Research的測試資格,並在今日分享測試結果。
Every團隊介紹,有些問題要花30分鐘才得到結果,答案可能超過1萬個字。

他們所做的測試包括:
撰寫從2020年到今天每一天的歷史
閱讀《戰爭與和平》的第1章,分析托爾斯泰的人物描寫,回答他對人性的看法是什麼?
仔細查閱近期的10-K 報告以發現未報告的財務違規行為…
測試中發現的限制包括:
有時資訊缺失引用來源
沒有「停止」按鈕,如果搜尋歪了只能重頭開始