從OpenAI 12天發布會裡我們看到了產業的四個關鍵問題
歷史上第一次有公司會連續開12 天的產品發表會——當OpenAI 宣布這個決定之後,全球科技圈的期待值被拉滿了。但直到發布會接近尾聲,「就這?就這?」一位AI 從業者如此表達他的觀感。這似乎代表了某種主流看法:這次OpenAI 發表會,亮點不大、低於預期。
前十一天,OpenAI 的發表會涉及技術、產品形態、商業模式和產業生態等多個重要更新,包括完整的推理模型o1、強化微調、文生視頻Sora、更強的寫作和編程工具Canvas、與Apple 生態系統的深度整合、語音和視覺功能、Projects 功能、ChatGPT 搜尋、打電話給ChatGPT 和WhatsApp 等。
但正如上述AI 從業者感到失望的原因,「以為會發GPT-5。」在發布會結束第二天,據外媒報道,OpenAI 的GPT-5 研發受阻。
不過,最後一天發布的o3 是個例外。它是o1 的下一代推理模型,在數學、代碼、物理等多項測試中表現驚人——一位國內大模型公司的技術人士談及o3 給他帶來的震撼,「AGI 已來。」他說。技術人士對o3 都評價頗高。
回顧這12 天的發布會,OpenAI 一邊秀出了技術“肌肉”,另一邊不斷優化產品形態、擴大落地應用的空間。有人打趣道,就像一場“直播帶貨”,OpenAI 希望吸引更多用戶、開發者使用ChatGPT。在新的一年,OpenAI 在日活、營收等數據上或許會迎來飛躍。
發表會最後一天,OpenA 推出了o3 模型| 圖片來源:OpenAI
但這個過程不一定會順利。儘管模型能力變強,但由於資料掣肘、封裝能力、模型成本過高等原因,強大模型和應用落地之間仍有較大距離。
OpenAI 此次發表會似乎透露出這樣一種趨勢:目前大模型產業的競爭焦點不僅在於模型參數和技術上限,也在於使用者體驗和市場規模。需要兩者齊頭並進,才能保持領先。
在梳理了OpenAI 這12 場發表會的主要訊息、以及與國內大模型產業人士交流後,極客公園總結出了以下幾個關鍵看點。
o3 的智慧深度已經夠了,但能否稱之為AGI 要看智能廣度
「瘋狂,太瘋狂了。」這是國內某模型負責人看到o3 之後的第一個反應。
在數學、編碼、博士級科學問答等複雜問題上,o3 表現出了超越部分人類專家的水平。例如,在涉及生物學、物理學和化學的博士級科學考試GPQA Diamond 中,o3 的準確率達到87.7%,而這些領域的博士專家只能達到70%;在美國AIME 數學競賽中,o3 取得96.7分、只錯了一道題,相當於頂尖數學家的程度。
被廣為討論的是其程式碼能力。在目前全世界最大的演算法練習和競賽平台Codeforces 上,o3 得分為2727 分、相較o1 提升了800 多分,相當於位列175 名的人類選手。甚至,它超過了OpenAI 的研究高級副總裁Mark Chen(得分2500 分)。
o1-preview、o1、o3 的程式碼能力對比| 圖片來源:OpenAI
自9 月推出o1-preview 版本以來,短短三個月內,o1 系列模型在推理能力上完成了超強進化。在發表會第一天推出的o1 完整版,其思考速度較o1-preview 提高了約50%、針對困難現實問題的重大錯誤減少了34%、同時還支持多模態輸入(可識別圖像)。而今天的o3 在複雜問題上則已超越部分人類專家水準。
「從o1 到o3 是透過增加推理運算量來實現對模型能力的提升,隨著國內外Deepseek-R1、Gemini 2.0 Flash Thinking 等發布,表明大模型開始從預訓練Scaling Law 轉向推理的Scaling Law。」清華大學長聘副教授、面壁智慧發起人劉知遠對極客公園表示。
自從OpenAI 發布o1-preview,大模型浪潮的技術範式從最初的預訓練Scaling Law(縮放定律),即不斷擴大模型訓練參數、提升其智能上限,切換到了新一輪的、升級的技術範式,即在推理階段注入強化學習、提升複雜推理能力。
在前一種範式下,模型主要是透過next token prediction(下一個詞預測)給出答案,更偏向「快思考」。就像“讀了萬卷書”,但“學而不思則罔”,沒法完成數學、程式設計等更複雜的推理任務。
而在後一種範式下,模型不會馬上給出答案,而是會“慢思考”,先引入CoT(思維鏈),把複雜的問題規劃、分解為更簡單的步驟,最後得到結果。而當方法不起作用時、它會嘗試另一種方法,在強化學習中提升複雜推理能力——隨著模型不斷進行「慢思考」和強化學習,其推理能力會指數級上升,這就是推理的Scaling Law。
對於o3 超越人類專家的超強研究推理能力——在劉知遠看來,這表明o3 正在朝著「超高智慧的超級電腦」方向前進。
不少業者認為,這會對前沿科學領域影響深遠。從正面的角度來看,o3 極強的研究推理能力,能夠幫助推動人類在數學、物理學、生物學、化學等學科的基礎科學研究。不過,也有人擔心它會衝擊科研人員的工作。
這次o3 帶來的驚人的智慧深度,似乎讓人看到了AGI 的曙光。但在劉知遠看來,正如資訊革命的標誌並非大型電腦、而是個人電腦(PC)的普及,只有實現AGI 的大眾化、普惠化,即讓每個人擁有自己的大模型、解決好自己日常的問題,才意味著真正的智能革命。
「畢竟我們並不需要讓陶哲軒、Hinton(都是頂尖科學家)來為我們解決日常問題。」他說。
這背後涉及的關鍵問題是,o3 模型的智慧深度能否泛化到其他各種領域、具有足夠的智慧廣度——在上述某國內大模型公司的技術人士看來,只有同時突破智慧的深度、廣度,才能稱為AGI。他對此感到樂觀,“就像你們班來了一個轉校生,你沒跟他接觸過,但他考試數學和編程都考了全班第一。你覺得他語文和英語會很差嗎?”
對國內的大模型公司來說,核心的問題還是如何追趕o3。從訓練架構、資料、訓練方法和評估資料集等關鍵要素來看,這似乎是工程化能解決的問題。
“你認為距離我們擁有一個o3 水平的開源模型還有多遠?”
「一年後。」上述模型負責人回答。
模型只是發動機,關鍵是幫助開發者用起來
儘管o3 的模型能力很強,但在一些應用層人士看來,模型和落地應用之間仍有很大距離。 「今天OpenAI 訓練了愛因斯坦,但如果想變成上市公司的首席科學家,依然是有距離的。」瀾碼科技創辦人兼CEO 週健對極客公園表示。
作為大模型中間層,瀾碼科技是國內較早探索將大模型應用落地、打造AI Agent 的公司。在周健看來,大模型只是一個基礎設施,需要結合場景去做很多工作才能用起來,而目前主要的掣肘是數據。
在很多場景裡,要拿到完整數據是很難的,有很多數據甚至是沒有數位化的。例如獵人頭可能需要履歷數據,但很多履歷數據並沒有數位化。
而成本是影響o 系列車型落地的最關鍵因素。根據ARC-AGI 測試標準,o3-low(低計算量模式)每個任務耗費20 美金,o3-high(高計算量模式)每個任務耗費數千美金——哪怕問一個最簡單的問題,也要花費近兩萬元。收益和成本根本不能打平,o3 的落地可能還需要漫長一段時間。
o 系列模型的成本計算| 圖片來源:ARC-AGI 測試標準
在幫助模型應用落地的問題上,OpenAI 在發表會上也發布了對應的功能方案。例如第二天,OpenAI 專為開發者發布了AI 強化微調(AI Reinforcement Fine-Tuning)功能,這是周健最關心的功能。它指的是,模型能透過少量數據,優化推理能力、提升效能。
這尤其適用於精細化領域的應用。 OpenAI 技術人士稱,它能幫助任何需要在AI 模型方面擁有深厚專業知識的領域,例如法律、金融、工程、保險。一個例子是,最近湯森路透使用強化微調來微調o1-mini,得到了好用的AI 法律助理,幫助他們的法律專業人員完成了一些「最具分析性的工作流程」。
例如第九天,o1 模型終於向開發者開放使用。它支援函數呼叫和視覺能力;引入了WebRTC,實現即時語音應用開發;推出了偏好微調功能,幫助開發者自訂模型;發布了Go 和Java SDK,讓開發者可快速上手整合。
同時,它也帶來了更低成本、更高品質的4o 語音模型。其中,4o 音訊價格下調60%,降至輸入$40/百萬tokens、輸出$80/百萬tokens,快取音訊價格降低87.5%、至$2.50/百萬tokens;對於預算有限的開發者,OpenAI 推出GPT- 4o mini,音訊費用僅4o 的四分之一。
這個新功能也是周健關注的。他認為,更新的即時語音、視覺辨識等功能,將更能幫助行銷、電話客服和銷售外呼等場景應用。根據他的經驗,當OpenAI 推出某些領先技術,一般國內6-12 個月就可以追上。這讓他對新一年的應用業務充滿信心。
Sora 的影片產生低於預期,但產品開放會提升其實體模擬能力
年初OpenAI 發表Sora 的demo 時,引發了全球科技圈的震撼。但這一整年,國內各大模型公司紛紛競逐文生視訊賽道──等到OpenAI 第三天正式發布Sora 時,國內的文生視訊公司鬆了一口氣。
“基本没有什么超出预期的内容,真实感、物理特性等方面相比于 2 月份的发布并没有显著变化,从基础模型能力的层面来说算是低于预期的。”生数科技联合创始人兼 CEO 唐家渝对极客公园表示。
目前,位元組、快手、MiniMax、智譜、生數、愛詩等公司均推出了自己的文生影片產品。「Sora 的效果和實力綜合來看並無明顯領先優勢,我們看到自己與OpenAI確實還是齊頭並進的。」唐家渝表示。
在他看來,Sora 稍微有亮點的部分是在基礎的文生影片、圖生影片以外,提供了一些提升影片創作體驗的編輯功能,說明OpenAI 確實更關注產品體驗了。
例如故事板功能,它相當於按時間軸的方式,把一段故事(影片)切成了多個不同的故事卡(影片畫面)。使用者只需要設計和調整每張故事卡(視訊畫面),Sora 會自動把它們補成一段流暢的故事(影片)——這很像電影裡的分鏡、動畫的手稿,當導演畫好分鏡、漫畫師寫好手稿、一個動畫、片子就做好了。它能讓創作者更能表達自己。
此外,它還推出了文字直接修改影片、無縫融合兩段不同的影片、為影片改變畫風等功能,相當於直接為影片加上「特效」了。而一般的文生視頻產品,無法直接修改原視頻,只能不斷調整prompt(提示詞)、生成新視頻。
Sora 的故事板功能| 圖片來源:OpenAI
在唐家渝看來,這些功能設計確實都是為了給創作者更大的創作自由度,類似的功能已經在Vidu(生數科技的文生視頻產品)迭代的計劃中。 「Sora 這些功能的實現對我們來說並沒有難度,實現路徑也已經非常明確了。」他說。
在發表會上,Sam Altman 詮釋了做Sora 的原因:一是工具性價值,為創意人員提供創作工具;二是交互價值,大模型不應只透過文本交互,也應擴展多模態;三是最重要的——它和AGI 技術願景是一致的,Sora 在學習更多關於世界的規律,最終有可能建立理解物理規律的「世界模型」。
在唐家渝看來,目前Sora 生成的影片中,依然有不少明顯違反物理定律的地方,跟2 月的demo 相比進步不大。在他看來,Sora 發布後、會有更多人來嘗試和探索它的物理模擬能力,這些測試樣本或許對提升它的物理模擬起到一定的指導作用。
內加功能、外接生態,ChatGPT 能變成Super App 嗎?
在o 系列模型、Sora、以及開發者服務之外,OpenAI 在發表會上的主要動作,一方面還是在產品側持續增加新功能,優化使用者體驗。另一方面是積極推動與蘋果等企業的深度合作,探索AI 融入終端設備和作業系統。
從前者可以看到,ChatGPT 的演進方向,似乎是要成為一個「無所不能、無所不在、人人可得」的超級AI 助理。根據極客公園了解,OpenAI 創立之初的願景就是打造一個「無所不能」的Agent,它能理解人類的指令、自動調用不同的工具、滿足人類的需要。看起來,終點即起點。
例如第六天,ChatGPT 增加了支援螢幕分享的視訊通話和聖誕老人語音模式。前者讓用戶能與AI 即時視訊通話,分享螢幕或展示周圍環境,進行多模態互動,重現了電影《Her》的場景。
例如第八天,ChatGPT 向全體用戶開放了其搜尋功能。在基礎搜尋外,它還增加了語音搜尋;同時,它整合了手機設備的地圖服務,能調取蘋果、Google地圖展示搜尋結果清單;它還與多家頂級新聞和數據供應商建立了合作關係,支援用戶查看股票行情、體育賽事得分、天氣預報等資訊。
又比如第十一天,ChatGPT 宣布擴展了與桌面軟體的整合。它能接入更多編碼應用程序,如BBEdit、MatLab、Nova、Script Editor 等;它能和Warp(文件共享應用)、XCode 編輯器等應用一起使用;它還能在語音模式下與其他應用程序協同工作,包括Notion、Apple Notes 等;
現場演示有一個例子,當用戶在Apple Notes 中設定“節日派對歌單”,並語音徵詢ChatGPT 對候選歌曲的意見。 ChatGPT 能指出使用者的錯誤,例如將聖誕歌曲《Frosty the Snowman》誤寫為了《Freezy the Snowman》。
ChatGPT 指出了Apple Notes 的錯誤| 圖片來源:OpenAI
「ChatGPT 將從單純的會話助理轉向更強大的代理工具轉變。」 VolAI 首席產品長凱文·韋爾(Kevin Weil)聲稱。
而另一方面,OpenAI 也積極擴張生態,透過融入人們最常用的終端設備、作業系統、上層軟體等,觸達更廣泛人群。
例如第五天,ChatGPT 宣布整合Apple Intelligence生態,融入iOS、MacOS 和iPadOS,支援使用者跨平台、跨應用程式呼叫AI 能力,包括Siri 互動、寫作工具(Writing Tools)、以及視覺功能智慧辨識場景內容(Visual Intelligence)等。透過這次合作,ChatGPT 觸達了全球數十億蘋果用戶。它也開啟了大模型與端側、作業系統合作的先例。
例如第十天,ChatGPT 就公佈了自己的電話聯絡方式(1-800-242-8478),美國用戶每月可撥打該號碼享有15 分鐘的免費通話。同時上線的還有WhatsApp 聯絡人(1-800-242-8478),全球任何用戶可透過WhatsApp 向該號碼發送訊息,目前只限文字訊息。
ChatGPT 公佈了自己的電話聯絡方式| 圖片來源:OpenAI
全球部分國家的智慧型手機和行動網路滲透率還遠遠不足,透過電話這種最基礎的通訊工具,ChatGPT 觸達了這些人群。同時它也透過WhatsApp,觸達了其近30 億用戶。
無論是內加功能、還是外接生態,ChatGPT 核心是希望產品觸達更廣泛人群,變成真正的Super APP。
不過,也有人並不看好它這種不斷內加功能、將業務線拉得無盡長的做法,甚至將其形容為「鋪了一個大餅,但每一塊餅都有點薄,深入不下去」。因為很多業務都需要夠深才能發揮價值、也有對應的公司在深耕。這或許會是OpenAI 要面臨的挑戰。
儘管o3 模型讓外界看到了OpenAI 驚人的技術實力,但關於推理的Scaling Law 能達到怎樣的智能上限、以及GPT-5 的難產問題,依然讓外界對這家公司的技術發展充滿疑慮。這次發表會上,OpenAI 將焦點轉而放在產品形態、合作生態和落地建設上,也未嘗不是一種想法。這兩者的結合,可能決定了產業接下來的走向。
來源:GeekPark極客公園