OpenAI正在開發新推理技術模型代號草莓

據路透社報道，據知情人士和路透社審查的內部文件稱，ChatGPT 製造商OpenAI 正在一個代號為Strawberry（草莓）的項目中研究其人工智慧模型的新方法。該專案的細節先前未曾報導過，但微軟支持的新創公司正在競相證明其提供的模型類型能夠提供高級推理能力。

根據路透社5 月看到的一份OpenAI 內部文件副本，OpenAI 內部團隊正在開發Strawberry。

路透社無法確定文件的具體發布日期，該文件詳細說明了OpenAI 打算如何使用Strawberry 進行研究的計劃。

消息人士向路透社描述了該計劃，稱其為一項正在進行的工作。無法確定Strawberry 距離公開發布還有多久。

這位知情人士表示，即使在OpenAI 內部，Strawberry 的工作原理也是嚴格保密的秘密。

消息人士稱，該文件描述了一個使用Strawberry 模型的項目，目的是使公司的人工智慧不僅能夠產生查詢的答案，而且能夠提前規劃，自主可靠的瀏覽互聯網，從而執行OpenAI 所稱的深度研究。

根據對十多位人工智慧研究人員的採訪，這是迄今為止人工智慧模型尚未解決的問題。

當被問及Strawberry 和本文報導的細節時，OpenAI 公司發言人在聲明中表示：我們希望我們的人工智慧模式能夠像我們一樣看待和理解世界。持續研究新的人工智慧能力是業界的常見做法，大家共同相信這些系統的推理能力會隨著時間的推移而提高。

發言人沒有直接回答有關草莓的問題。

Strawberry 專案前身是Q*，路透社去年報道稱，該專案在公司內部已被視為突破。

兩位消息人士稱，今年早些時候，他們觀看了OpenAI 工作人員告訴他們Q* 演示，該演示能夠回答當今商用模型無法解決的棘手科學和數學問題。

根據彭博社報道，週二，OpenAI 在一次內部全體會議上展示了一項研究項目的演示，該項目聲稱擁有新的類似人類的推理技能，OpenAI 發言人證實了此次會面，但拒絕透露會議內容細節。

路透社無法確定所展示的項目是否為Strawberry。

知情人士表示，OpenAI 希望這項創新能夠大幅提高其AI 模型的推理能力，並補充說，Strawberry 涉及一種在非常大的數據集上進行預訓練後處理AI 模型的專門方法。

接受路透社採訪的研究人員表示，推理是人工智慧實現人類或超人類水平智慧的關鍵。

雖然大型語言模型已經能夠總結密集的文本，並以比人類快得多的速度撰寫優美的散文，但該技術往往無法解決常識性問題，而這些問題的解決方案對人類來說似乎是直觀的，例如辨識邏輯謬誤和玩井字遊戲。當模型遇到這類問題時，它經常會產生幻覺，產生虛假訊息。

路透社採訪的人工智慧研究人員普遍認為，在人工智慧的背景下，推理涉及形成一個模型，使人工智慧能夠提前規劃，反映物理世界的運作方式，並可靠地解決具有挑戰性的多步驟問題。

提高人工智慧模型的推理能力被視為釋放模型能力的關鍵，包括實現重大科學發現、規劃和建構新的軟體應用程式等。

OpenAI 執行長Sam Altman今年稍早表示，在人工智慧領域最重要的進步領域將是推理能力。

其他公司，如Google、Meta 和微軟，也正在嘗試不同的技術來提高人工智慧模型的推理能力，大多數進行人工智慧研究的學術實驗室也是如此。

然而，研究人員對大型語言模型(LLM) 是否能夠將想法和長期規劃融入預測方式的看法不一。例如，現代人工智慧的先驅之一、在Meta 工作的Yann LeCun 經常說LLM 不具備像人類一樣的推理能力。

人工智慧挑戰

知情人士稱，Strawberry 是OpenAI 克服這些挑戰計畫的關鍵組成部分。路透社看到的文件描述了Strawberry 想要實現的目標，但沒有說明如何實現。

據有四位聽過該公司宣傳的人士透露，近幾個月來，該公司一直在私下向開發者和其他外部人士發出信號，稱其即將發布具有更先進推理能力的技術。他們拒絕透露姓名，因為他們無權談論私人事務。

一位消息人士稱，Strawberry 採用了一種特殊的方式，即對OpenAI 的生成式AI 模型進行後訓練，或者在對大量通用數據進行訓練後，對基礎模型進行調整，以特定方式磨練其性能。

開發模型的後訓練階段涉及「微調」等方法，這是當今幾乎所有語言模型都採用的一種方法，它有多種形式，例如讓人類根據模型的響應向模型提供反饋，並為其提供好答案和壞答案的例子。

一位知情人士稱，Strawberry 與史丹佛大學2022 年開發的一種名為自學推理機或STaR的方法有相似之處。

STaR 的創建者之一、史丹佛大學教授諾亞古德曼(Noah Goodman) 告訴路透社，STaR 使人工智慧模型能夠透過迭代創建自己的訓練資料將自己「引導」到更高的智慧水平，理論上可以用來讓語言模型超越人類層次的智慧。

古德曼說：我認為這既令人興奮又令人恐懼……如果事情繼續朝這個方向發展，我們人類就需要認真思考一些問題了。

古德曼與OpenAI 沒有任何關係，對Strawberry 也不熟悉。

文件稱，OpenAI 為Strawberry 瞄準的功能之一是執行長期任務(LHT)，指的是需要模型提前規劃並在較長時間內執行一系列操作的複雜任務，第一位消息人士解釋。

根據OpenAI 內部文件，OpenAI 正在利用該公司所謂的深度研究資料集創建、訓練和評估模型。

路透社無法確定該資料集中包含哪些內容，也無法確定延長的時間段意味著什麼。

根據該文件和其中一位消息人士的說法，OpenAI 特別希望其模型能夠利用這些功能進行研究，在CUA（即電腦使用代理）的幫助下自主瀏覽網頁，並根據其發現採取行動。

OpenAI 還計劃測試其在軟體和機器學習工程師工作方面的能力。

WONGCW 網誌