OpenAI如何叩響AGI之門:12天12場直播,秀出哪些新肌肉?
當地時間12月5日-20日,人工智慧巨頭OpenAI完成了連續12個工作日的12場直播,從首日的滿血版o1模型重磅發布,再到期待許久的Sora Turbo正式發布,最終又以新一代推理模型o3收官,OpenAI CEO山姆·奧特曼(Sam Altman)還在四場直播中現身站台,我們似乎離AGI(Artificial General Intelligence,通用人工智能)又更近了一步。
CNBC評論稱,這次連續12天直播的噱頭是OpenAI將焦點轉向其技術並為其產品造勢的一種方式。這是公司積極發展計畫的一部分,因為它要與新創公司和科技巨頭爭奪生成式人工智慧市場的更大份額。不過,這次活動在某些方面因其強有力的年終宣傳而受到稱讚,但也有人批評其炒作成分多於實質內容。
《紐約》雜誌評論稱,目前OpenAI正面臨內部領導層變動、與微軟的資源緊張關係,以及對AGI進展的爭論,此次活動在展示新產品和功能的同時,也表現出一定的防禦性。
讓我們來一起回顧OpenAI叩響AGI之門的這12天。
第1天(當地時間12月5日):滿血版o1模型和ChatGPT Pro
山姆奧特曼現身首場直播
正式版o1提升了推理邏輯能力。可以解決國際數學奧林匹克資格考試中83%的問題(GPT-4o在該測驗中的得分只有13%)。
反應時間得到改善。在演示中,研究人員向o1提了一個問題:列出羅馬帝國在公元2世紀的統治者,包含其在位時間和成就。 o1花了將近18秒回答,遠低於4o模型,比o1-preview的速度提高了約60%。
解鎖多模態影像辨識功能。能夠轉錄筆跡、計算相對大小,甚至可以解釋如何將隨機零件裝入更大的機器中。
滿血版o1的反應時間得到改善
同時,當天也推出了ChatGPT Pro訂閱計劃,每月200美元,提供了無次數限制使用o1、高級語音模式等模型的權限。
大部分評論對完整版o1的推出表現得較為積極,不過也有用戶吐槽在缺少高級功能的現在,o1仍然只是一個“預覽版”,也有用戶對當天的更新中沒有免費產品表示了不滿。
對於ChatGPT Pro,有分析指出,這進一步證明了大模型的「燒錢」速度,在愈發激烈的AI競賽中,OpenAI急需透過o1模型來證明自己。
第2天(當地時間12月6日):強化學習微調(RFT,Reinforcement Fine-Tuning)
使用者能夠利用少量的訓練數據,也能在特定領域快速建立專家級模型。
OpenAI的研究員稱,強化微調並不是單教模式輸出,它的運作方式是,當模型發現一個問題的時候,研究者給模型空間仔細思考這個問題,然後評估模型給出的最終解答,運用強化學習,研究者可以強化產生正確答案的思路,抑制產生錯誤答案的思路。
強化微調後的o1-mini,在top@1(正確答案在列表第1個位置的機率)、top@5(正確答案在列表前5個位置的機率)和top@max(輸出中包含正確答案的機率)指標上,表現都明顯勝過性能更加強大的o1。
強化微調後的o1-mini與o1性能對比
OpenAI高級副總裁Mark Chen表示,強化微調能力預示著小體量模型也能“從高中水平躍升至專家水平”,為企業和科研單位提供了強大的工具。
第3天(當地時間12月9日):Sora Turbo正式發布
OpenAI發布Sora Turbo
Sora Turbo可以產生1080p、最長20秒的視頻,支援橫屏(16:9)、正方形(1:1)和豎屏(9:16)多種常見比例,並且可以對生成的視頻進行Remix(重混):替換、刪除或重構影片中的元素,Re-cut(重新切割):找到最佳的一幀再進行延展,循環剪輯,混合:將兩個影片進行無縫合併剪輯,故事板剪輯:精準指定每個畫面的輸入,風格預設:預設創建影片的風格等操作。
Sora的影片Re-cut功能展示(00:15)
奧特曼表示,最令他興奮的一點是與其他人共同創作的便利性,感覺就像是個有趣的新事物。大家可以將Sora看作影片版的GPT-1。
由Sora產生的影片(00:10)
根據網友實測回饋,對物理規律的理解並不夠好,仍會出現人的手部不自然、文字亂碼、動物跑著跑著就飛起來等狀況。
也有外媒指出,Sora發布未能達到最初預期,儘管OpenAI努力推出更快、更實惠的版本,但最終產品缺乏預期的高級功能。與ChatGPT的早期階段進行比較,Sora目前更像是影片編輯軟體,而非突破性的AI。
美聯社則指出,像Sora這樣的文生視訊AI工具被認為是製作新的娛樂和行銷影片時節省成本的方式,但也引發了人們對其在政治和其他領域是否容易冒充真人的擔憂。 OpenAI發布Sora限制了對人物的描繪,防止瞭如冒充和深度偽造等濫用情況的出現。
第4天(當地時間12月10日):Canvas升級
Canvas是OpenAI在今年10月推出的全新功能,OpenAI將其定義為「使用ChatGPT 編寫和編碼的全新工作方式」。
Canvas在單獨的視窗中打開,使用者和ChatGPT就專案進行協作,不僅是透過對話,而是共同創作和完善想法。
可協作編輯文檔,修改標題、新增表情符號、調整文字長度等。
Canvas也支援Python程式碼運行和調試,能直接查看文字和圖形輸出,並且ChatGPT能輔助調試並提供修改建議,用戶可以快速迭代程式碼。
Canvas介面
外媒對Canvas都給予了正面評價,認為有效提升了使用者與AI在寫作和編碼方面的協作體驗,標誌著AI工具在人機互動領域的另一個進步。
第5天(當地時間12月11日):ChatGPT正式整合到蘋果系統
ChatGPT正式接入蘋果系統
ChatGPT正式整合到蘋果系統中,用戶可透過Siri存取ChatGPT功能,並支援語音控制設備。
當Siri判斷ChatGPT能夠更好地滿足使用者請求時,會自動將請求轉送給OpenAI的系統。用戶操作前需先啟用此功能,以便保障隱私。
蘋果的智慧寫作工具引進ChatGPT能力。使用者不僅能優化、總結文檔,提取關鍵訊息,還能從零開始創作全新文檔,甚至結合DALL-E圖像生成技術在撰寫過程中融入圖片。
使用者還可以輕觸蘋果的「相機控制」按鈕完成視覺智慧相關任務,例如快速識別眼前物品,或深入了解所看到的內容,進行翻譯、總結等。
路透社指出,此次發布正值聖誕節假期購物旺季,也是該公司一年中銷售利潤最豐厚的時期,或許對蘋果產品的銷售帶來影響。目前Apple Intelligence功能的推出速度緩慢,也引發了一些投資人對iPhone 16銷售週期力道的擔憂。
第6天(當地時間12月12日):增強ChatGPT高階語音模式
GPT-4o多模態能力進一步加強
GPT-4o增強多模態能力,推出即時視訊理解功能,也推出限時聖誕老人語音模式。
用戶可直接輸入音頻,理解並直接輸出音頻,可以把手機圖片或短信等展示給ChatGPT,它將解讀並分析這些內容,協助用戶回复消息、工作等。
第7天(當地時間12月13日):Projects功能發布
Project介面
Project(專案)支援使用者將檔案、聊天記錄等資訊集中到一個「Project」中,與OpenAI競爭對手Anthropic先前推出的Claude新功能有異曲同工之處。
可進行檔案上傳、設定個人化指令等操作,也支援將過往聊天記錄新增至專案中,客製化ChatGPT的對話。創建新對話時也能自動搜尋項目中的其他信息,進行更精準的回答。此外,也支援Canvas介面,能透過ChatGPT Search輕鬆接取網路。
第8天(當地時間12月16日):ChatGPT Search開放
ChatGPT Search正式向所有用戶開放,優化了搜尋速度和準確性,新增語音搜尋功能與地圖集成,全球同步上線,提升即時資訊取得體驗。
以更自然、更會話的方式提問,ChatGPT可以選擇用網路資訊回覆。如果深入追問,ChatGPT會考慮您聊天的全部上下文,提供更好的答案。
ChatGPT Search示範對話
新媒體集團VoxMedia總裁評價稱,ChatGPT Search有望更好地突出值得信賴的新聞來源的信息並對其進行歸屬,使受眾受益,同時擴大提供優質新聞的出版商的影響力。
第9天(當地時間12月17日):o1 API正式版
OpenAI稱o1 API為功能更強大的模型、新的客製化工具,可提高效能、靈活性和成本效益的升級。
支援函數呼叫、結構化輸出和視覺功能;更新支援低延遲自然對話體驗Realtime API,可進行簡單的WebRTC集成,GPT-4o音訊的定價降60%,GPT-4o mini音訊費率降為1/10 ;支援偏好微調,可根據使用者和開發人員的偏好更輕鬆地自訂模型;同時也推出了新的Go和Java SDK測試版。
Realtime API介面
OpenAI給這一天的發布取名為「為開發人員準備的節日禮物」。
第10天(當地時間12月18日):推出ChatGPT熱線
只要電話撥打免付費號碼就能免費使用ChatGPT15分鐘
發布1-800-CHAT-GPT服務,支援WhatsApp即時通訊,同時只要電話撥打免費號碼,OpenAI將透過熱線提供15分鐘的免費ChatGPT使用時間。
OpenAI首席產品長凱文·韋爾(Kevin Weil)在表示:“我們才剛開始讓每個人都能更方便地使用ChatGPT。”
有外媒試用了該服務後報道稱,AI語音非常逼真,但通話時間限制為每月15分鐘,或許會出現隱私安全問題。
第11天(當地時間12月19日):ChatGPT桌面版新增跨應用程式存取功能
ChatGPT桌面版支援跨應用程式訪問
ChatGPT桌面版可讀取其他應用程式中的數據,實現即時協作。新增了更多程式設計環境和生產力工具的支持,可以與Apple Notes等無縫對接,並支援在使用桌面應用程式時開啟高級語音模式(此功能需要用戶手動為每個應用程式開啟)。
第12天(當地時間12月20日):o3模型發布
OpenAI的12天12場直播收官發布推理模型o3系列
發布最新推理模型o3和o3-mini,推理能力大幅提升,支持多模式推理。
據介紹,在編碼測試SWE-Bench Verified中,o3性能比o1高出22.8%;在Codeforces競技編程中得分為2727分,相當於位列第175名的人類選手,甚至超過了OpenAI的首席科學家( 2655分);在數學競賽AIME 2024和專家級科學問題基準測試GPQA Diamond中成績都明顯提升;而在讓許多AI和數學家都束手無策的最難數學和推理挑戰FrontierMath中,o3解決了25.2%的問題,其他模型均未超過2%。
OpenAI也表示正使用一種新技術「慎重對齊」(deliberative alignment),來使o3等模型符合其安全原則。
弗朗索瓦·肖萊對於o3不同計算模式的測試結果
ARC-AGI(通用人工智慧抽象與推理語料庫)發起者、Keras(用Python編寫的高級神經網路API)之父弗朗索瓦·肖萊(Francois Chollet)認為,雖然o3給人留下了深刻印象,是邁向AGI的一個重要里程碑,但並不就是AGI,仍然有相當多非常簡單的ARC-AGI-1的任務是o3無法解決的,同時還有跡象表明ARC-AG I-2對o3來說仍極具挑戰性,「這表明在不涉及專業知識的情況下,創建對人類來說容易但對人工智慧來說不可能的不飽和、有趣的基準仍然是可行的。
路透社對此評價稱,o3的發布顯示了OpenAI與Google等競爭對手的競爭日益激烈,雙方都在努力創造能夠解決複雜問題的更聰明模型。 Google在12月稍早發布了第二代人工智慧模型Gemini,旨在能夠在人工智慧技術競賽中奪回領先地位。
此外,在OpenAI發布o3後,華爾街日報發表了一篇名為“人工智能的下一次重大飛躍落後於時間表,而且昂貴得令人髮指”的文章,指出OpenAI在其代號為“獵戶座”的新人工智慧專案中遇到了許多問題,專案進度落後,而且耗資巨大。文章也指出了對於「數據瓶頸」的擔憂:「目前尚不清楚何時或能否成功,世界上可能沒有足夠的數據讓它變得足夠聰明」。
奧特曼則轉發了該篇文章表達了不滿之情。
第13天的彩蛋(當地時間12月22日):Plus用戶Sora限時(聖誕假期)無限使用
奧特曼宣布,12月下旬,隨著聖誕假期的到來,人們從工作中解脫出來,OpenAI的算力將不再緊張,因此將在假期內為所有Plus用戶提供無限的Sora訪問權限。
山姆·奧特曼的推文
在OpenAI連續密集發布的新品中,不難發現,ChatGPT Pro的推出進一步證明了大模型的「燒錢」速度,多模態、客製化、隱私這些「安全易用」相關內容被多次強調,也體現出OpenAI急需透過更強的模型產品來證明自己。
可以看到的是,AI競賽愈發激烈。 Google、Pika等競爭對手也在這12天內發布了各自的新產品進行“狙擊”,而OpenAI面臨的最大挑戰莫過於曾經的聯合創始人埃隆·馬斯克(Elon Musk),馬斯克目前旗下擁有了人工智慧新創公司xAI,並準備在川普政府中發揮重要影響力。