OpenAI滿血版o1劇透：數學程式碼能力再破天花板已開啟測試評估

2024-10-23 Comments 0 Comment

「性能遠超o1預覽版，滿血版o1即將推出」。 OpenAI在官網商業化頻道下，對滿血版o1來了一波提前劇透。影片截圖中，滿血版o1和GPT-4o、o1-preview（預覽版）同台競技，且在數學/編碼上遙遙領先。

經透露，OpenAI將同步發布GPT系列和o1系列，並且正在對滿血版o1進行基準測試和運行評估。

此外，官方計劃在未來幾個月內為o1系列模型添加更多功能，例如網頁瀏覽、文件和圖像上傳等，並支援ChatGPT自動選擇合適模型。

不過掃到最後，網友們卻發現了一個華點：

啥？在PhD等級的科學任務上，滿血版o1竟打不過o1-preview？

對於這一點，我們不妨從OpenAI首席產品長最近的訪談中找找答案，剛好他也談到了o1模型——

滿血版o1即將推出

OpenAI於上月無預警發布了傳說中的「草莓」模型：o1系列。

它是OpenAI首個經過強化學習訓練的模型，在輸出回答之前，會再產生一個很長的思考鏈，以此增強模型的能力。

o1系列共3檔，滿血版因過於強大至今仍未公佈。

o1（滿血版）：新的大模型天花板，專注於深度思考和邏輯推理

o1-preiview：o1的早期預覽版本，在數學、編碼能力上相比GPT-4o大幅提升

o1-mini：速度更快、性價比更高，適用於需要推理和無需廣泛世界知識的任務

不過就在最近，更多關於o1模型的消息釋出—

OpenAI員工在一場研討會中詳細介紹了o1-preview模型的最新案例，並提到滿血版o1即將發布。

一開始，OpenAI產品行銷團隊的Victoria Chernova確認，公司將同步開發和發布GPT和o1兩個系列的模型，因為它們各自擅長解決不同的問題。

這就像OpenAI官方一直提到的“範式轉變”，GPT系列側重於預測性回答，模式為“提問-回答”，而o1系列在回答前加入了更多思考。

Victoria Chernova也提到，許多客戶其實同時使用GPT和o1兩個系列的模型，包括OpenAI內部也是如此。

接下來，解決方案工程團隊的Joe Casson分享了o1模型的幾個最新應用：策略制定、程式碼編寫，研究分析。

在第一個案例中，他示範如何用o1-preview分析巴黎或其他歐洲城市，以決定下一個市場開拓地。

過程中需要模型考慮市場潛力、市場進入策略、人才招募等多個方面，最終產生了一份包含執行摘要和電子郵件的報告。

然後他分享如何用o1-mini從零創建一個帶有Node.js後端和React前端的Web應用程式。

他也提到，o1-mini可以幫助開發者連線到Azure資料庫等外部服務。

最後，他展示瞭如何用o1-preview幫助制定一份狗狗的最佳飲食計劃等。

在展示分享中，他們也提到了人們目前對o1模型的一些「吐槽」：例如o1-preview非多模態，上下文視窗長度也比GPT-4o更短…

對此，OpenAI計劃在未來幾個月內為o1系列模型添加更多功能，包括網頁瀏覽、文件和圖像上傳等，並支援ChatGPT自動選擇合適的模型。

OpenAI首席產品長談o1模型

除了上述研討會，最近還有一場對OpenAI首席產品長Kevin Weil的訪談。

其中談到，目前o1推理模型僅處於GPT-2級別，因此它將很快改進。

另外他也分享了在OpenAI與其他公司建立產品的不同之處。

最大差別在於，技術基礎是不固定的。

以前在我工作過的幾乎所有地方，在擁有固定的技術基礎之前，都在試圖弄清楚如何利用它來建立最好的產品。

而回到一開始的問題，為什麼在PhD等級的科學任務上，滿血版o1竟打不過o1-preview？

也許在於即使是細微差距，兩者的建構方式也是如此不同。

至於這0.3的差距到底有多大，也許即將公佈的測試結果將為我們進一步揭曉。

參考連結：

[1]https://openai.com/business/solving-complex-problems-with-openai-o1-models/

[2]https://x.com/rohanpaul_ai/status/1847682643166650761

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

WONGCW 網誌

記錄生活經驗與點滴

OpenAI滿血版o1劇透：數學程式碼能力再破天花板已開啟測試評估

2024-10-23 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆