AI年末「狂歡」 OpenAI、Google、Meta、李飛飛發布重磅產品
OpenAI為期12天的年終「科技盛宴」已結束第二天的直播。從當地時間12月5日發布的「滿血版」o1模型和最貴ChatGPT Pro服務,到6日發布的強化微調(Reinforcement Fine-Tuning),無不證明AI世界又將迎來一次全新的產品升級和迭代。
在AI的狂歡中,其他科技公司也不甘示弱。有著「AI教母」之稱的李飛飛創立的World Labs以及GoogleDeepMind團隊本周先後發布重磅產品,讓用戶可以透過單張圖片生成互動式3D場景,展示了AI在虛擬世界建構領域的巨大潛力。
Meta和馬斯克的xAI也來湊了個熱鬧。 Meta推出了今年的壓軸AI大模型:Llama 3.3 70B,該車型據稱能實現和Meta最大Llama 車型——Llama 3.1 405B相同的性能,成本還更低。 xAI宣布Grok從今天起全球免費,但有使用限制。免費用戶每2小時可以詢問最多10個問題,每天最多可分析3張圖片和產生4張圖片。
隨著各路玩家在AI領域競賽的深入,AI的競爭焦點也轉向了智能體和通用人工智慧(AGI)。
根據外媒6日的最新報道,OpenAI正與微軟磋商放棄AGI條款,以釋放投資潛力。目前,最終決定尚未做出,OpenAI董事會將決定何時實現AGI。
清華大學電子工程系長聘教授、清華大學精準醫學研究院臨床大數據中心共同主任吳及告訴《每日經濟新聞》記者,“基於多個大模型的AI智能體或多個智能體的協同,可能是未來AI技術發揮更大作用的一個重要趨勢。
當地時間12月5日,OpenAI為期12天的聖誕季特別活動開啟。
在第一天的活動上,OpenAI發布了推理大模型o1的「滿血版」和進階模式,以及每月收費高達200美元(約合人民幣1450元)的ChatGPT Pro訂閱服務。
“滿血版”o1的特徵是,在回答用戶提問時不是“脫口而出”,而是形成一個類似人類思維方式的內部思維鏈條。該模型已對ChatGPT Plus和團隊用戶開放,企業和教育用戶則需要等到下週。
「滿血版」o1比9月發布的預覽版更快、更強大、更準確,同時增加了多模態輸入(可以上傳圖片)的能力。 OpenAI表示,現在的o1模型「思考已經被訓練得更簡潔」(大概快50%),而且在回答困難現實問題時,出現重大錯誤的機率減少了34%。
圖片來源:X
同時發布的ChatGPT Pro服務也引發了外界的廣泛關注,每月200美元的訂閱費用是目前ChatGPT Plus定價的10倍。不過,使用者可以無限量地使用o1模型(Plus用戶目前有每週50個資訊的限制),以及無限量使用o1 mini和進階語音模式,同時也能用上o1 pro模式,該模式「使用更多的計算來為最難的問題提供最佳答案」。
隔日,OpenAI打出活動“第二彈”,推出了強化微調(Reinforcement Fine-Tuning)。阿爾特曼表示:“強化微調,效果出奇地好;它是我2024年最大的驚喜之一。”
圖片來源:X平台
強化微調與標準微調不同,利用強化學習演算法,研究者可以強化產生正確答案的思路,抑制產生錯誤答案的思路,只需要「幾十個例子」(a few dozen examples)、甚至12個例子,模型就能以有效的新方式學習特定領域的推理,提升模型在特定領域任務中的推理能力與準確度。
據介紹,它甚至可以讓簡易版推理模型o1 mini的效果超過前一天剛發布的“滿血版”o1。 OpenAI預計將於2025年初公開發布強化微調功能。
除了OpenAI的首批年末「王炸」外,本週還有許多AI相關的重磅產品出爐。
身為AI領域影響力最大的女性和華人之一,史丹佛大學教授李飛飛於當地時間12月2日公佈了首個創業計畫World Labs的成果——能用單張靜態圖片生成3D世界的AI產品。
在World Labs網站的演示裡,由AI生成的場景均透過瀏覽器即時渲染而成,用戶可以使用箭頭鍵或鍵盤(WASD)鍵移動,然後點擊並拖曳滑鼠實現交互,從而自由探索場景。 World Labs的AI工具配備了可操控的滑桿來調節模擬景深(DoF)與模擬推拉變焦(dolly zoom),當用戶將景深效果調至越強時,背景中的物體便會越發模糊,為整個視覺體驗增添了更多層次感與真實感。
圖片來源:World Labs推特截圖
但World Labs目前只向公眾發布了關於該技術的博客,外界能夠體驗的功能極為有限,而且並未放出任何程式碼和模型。
在單圖生成3D世界領域探索的還有Google。北京時間12月5日凌晨,GoogleDeepMind在官網發布了大型基礎世界模型Genie 2,可透過單張圖片和文字描述生成種類多樣的遊戲3D世界,標誌著AI在虛擬世界生成領域的另一個突破。
簡單來說,給Genie 2一張圖片,它可以產生供人類遊玩、可即時渲染、可控和可互動的無限3D世界,不需要藉助任何遊戲引擎。例如,輸入“森林中的可愛人形機器人”,模型便可建立一個包含機器人角色和可探索環境的動態場景。使用者可以透過鍵盤或滑鼠操作角色在世界中進行跳躍、游泳等互動。
和Genie 1相比,Genie 2擁有長期記憶,即使是角色短暫離開畫面,在重新進入視野後,依舊能被精準還原出來。
清華大學電子工程系長聘教授、清華大學精準醫學研究院臨床大數據中心共同主任吳及在接受《每日經濟新聞》記者採訪時表示,「從學術研究的角度來看,能否將文本意義上的世界模型與物理意義上的世界模型關聯起來,把真正的物理世界進行建模,是AI技術能否取得突破的關鍵。
World Labs和Google之後,Meta也來湊了個熱鬧,於當地時間12月6日推出了今年的壓軸AI大模型:Llama 3.3 70B。 Meta 生成式AI副總裁Ahmad Al-Dahle在X發文表示,純文字的Llama 3.3能實現和Meta最大Llama模型-Llama 3.1 405B同樣的效能,成本還更低。
Al-Dahle還附上了一張圖表,顯示包括針對大模型語言理解能力的測試MMLU在內,Llama 3.3在一系列行業基準測試中表現優於谷歌的Gemini 1.5 Pro、OpenAI 的GPT-4o和亞馬遜本週稍早發布的Nova Pro。
圖片來源:X
隨著大模型競賽的深入,AI的風又更多地吹向了智能體和通用人工智慧(AGI)。
吳及告訴每經記者,目前,儘管單一大模型在某些方面表現出色,但也存在許多不足,例如幻覺和遺忘效應等問題。他強調,“基於多個大模型的AI智能體或多個智能體的協同,可能是未來AI技術發揮更大作用的一個重要趨勢。”
吳及認為,智能體融合將成為AI應用解決特定場景問題的重要技術前景或發展方向。
在《紐約時報》於當地時間12月4日舉辦的DealBook峰會上,阿爾特曼表示,「智能體是現在每個人都在談論的話題,我認為這背後是有充分理由的。設想一下,你可以讓AI系統完成一項相當複雜的任務,例如需要一位非常聰明的人,花費一段時間,借助各種工具來完成並產出有價值成果的任務。現實。
他同時指出,AI產業即將迎來的發展將比預期更具衝擊力。他將AI的影響力比喻為電晶體的發明,認為AI的推理功能未來將走向普及化和商業化。 「到2025年,我們可能會首次見到具備AGI能力的系統。這類系統可以像人類一樣完成複雜任務,甚至能運用多種工具來解決問題,」他說。
根據外媒12月6日最新報道,OpenAI正與微軟磋商放棄AGI條款,以釋放投資潛力。根據目前的條款,當OpenAI創建AGI時,微軟對這種技術的使用權將失效。目前,最終決定尚未做出,OpenAI董事會將決定何時實現AGI。