AI年末「狂歡」 OpenAI、Google、Meta、李飛飛發布重磅產品

2024-12-09 Comments 0 Comment

OpenAI為期12天的年終「科技盛宴」已結束第二天的直播。從當地時間12月5日發布的「滿血版」o1模型和最貴ChatGPT Pro服務，到6日發布的強化微調（Reinforcement Fine-Tuning），無不證明AI世界又將迎來一次全新的產品升級和迭代。

在AI的狂歡中，其他科技公司也不甘示弱。有著「AI教母」之稱的李飛飛創立的World Labs以及GoogleDeepMind團隊本周先後發布重磅產品，讓用戶可以透過單張圖片生成互動式3D場景，展示了AI在虛擬世界建構領域的巨大潛力。

Meta和馬斯克的xAI也來湊了個熱鬧。 Meta推出了今年的壓軸AI大模型：Llama 3.3 70B，該車型據稱能實現和Meta最大Llama 車型——Llama 3.1 405B相同的性能，成本還更低。 xAI宣布Grok從今天起全球免費，但有使用限制。免費用戶每2小時可以詢問最多10個問題，每天最多可分析3張圖片和產生4張圖片。

隨著各路玩家在AI領域競賽的深入，AI的競爭焦點也轉向了智能體和通用人工智慧（AGI）。

根據外媒6日的最新報道，OpenAI正與微軟磋商放棄AGI條款，以釋放投資潛力。目前，最終決定尚未做出，OpenAI董事會將決定何時實現AGI。

清華大學電子工程系長聘教授、清華大學精準醫學研究院臨床大數據中心共同主任吳及告訴《每日經濟新聞》記者，“基於多個大模型的AI智能體或多個智能體的協同，可能是未來AI技術發揮更大作用的一個重要趨勢。

當地時間12月5日，OpenAI為期12天的聖誕季特別活動開啟。

在第一天的活動上，OpenAI發布了推理大模型o1的「滿血版」和進階模式，以及每月收費高達200美元（約合人民幣1450元）的ChatGPT Pro訂閱服務。

“滿血版”o1的特徵是，在回答用戶提問時不是“脫口而出”，而是形成一個類似人類思維方式的內部思維鏈條。該模型已對ChatGPT Plus和團隊用戶開放，企業和教育用戶則需要等到下週。

「滿血版」o1比9月發布的預覽版更快、更強大、更準確，同時增加了多模態輸入（可以上傳圖片）的能力。 OpenAI表示，現在的o1模型「思考已經被訓練得更簡潔」（大概快50%），而且在回答困難現實問題時，出現重大錯誤的機率減少了34%。

圖片來源：X

同時發布的ChatGPT Pro服務也引發了外界的廣泛關注，每月200美元的訂閱費用是目前ChatGPT Plus定價的10倍。不過，使用者可以無限量地使用o1模型（Plus用戶目前有每週50個資訊的限制），以及無限量使用o1 mini和進階語音模式，同時也能用上o1 pro模式，該模式「使用更多的計算來為最難的問題提供最佳答案」。

隔日，OpenAI打出活動“第二彈”，推出了強化微調（Reinforcement Fine-Tuning）。阿爾特曼表示：“強化微調，效果出奇地好；它是我2024年最大的驚喜之一。”

圖片來源：X平台

強化微調與標準微調不同，利用強化學習演算法，研究者可以強化產生正確答案的思路，抑制產生錯誤答案的思路，只需要「幾十個例子」（a few dozen examples）、甚至12個例子，模型就能以有效的新方式學習特定領域的推理，提升模型在特定領域任務中的推理能力與準確度。

據介紹，它甚至可以讓簡易版推理模型o1 mini的效果超過前一天剛發布的“滿血版”o1。 OpenAI預計將於2025年初公開發布強化微調功能。

除了OpenAI的首批年末「王炸」外，本週還有許多AI相關的重磅產品出爐。

身為AI領域影響力最大的女性和華人之一，史丹佛大學教授李飛飛於當地時間12月2日公佈了首個創業計畫World Labs的成果——能用單張靜態圖片生成3D世界的AI產品。

在World Labs網站的演示裡，由AI生成的場景均透過瀏覽器即時渲染而成，用戶可以使用箭頭鍵或鍵盤（WASD）鍵移動，然後點擊並拖曳滑鼠實現交互，從而自由探索場景。 World Labs的AI工具配備了可操控的滑桿來調節模擬景深（DoF）與模擬推拉變焦（dolly zoom），當用戶將景深效果調至越強時，背景中的物體便會越發模糊，為整個視覺體驗增添了更多層次感與真實感。

圖片來源：World Labs推特截圖

但World Labs目前只向公眾發布了關於該技術的博客，外界能夠體驗的功能極為有限，而且並未放出任何程式碼和模型。

在單圖生成3D世界領域探索的還有Google。北京時間12月5日凌晨，GoogleDeepMind在官網發布了大型基礎世界模型Genie 2，可透過單張圖片和文字描述生成種類多樣的遊戲3D世界，標誌著AI在虛擬世界生成領域的另一個突破。

簡單來說，給Genie 2一張圖片，它可以產生供人類遊玩、可即時渲染、可控和可互動的無限3D世界，不需要藉助任何遊戲引擎。例如，輸入“森林中的可愛人形機器人”，模型便可建立一個包含機器人角色和可探索環境的動態場景。使用者可以透過鍵盤或滑鼠操作角色在世界中進行跳躍、游泳等互動。

和Genie 1相比，Genie 2擁有長期記憶，即使是角色短暫離開畫面，在重新進入視野後，依舊能被精準還原出來。

清華大學電子工程系長聘教授、清華大學精準醫學研究院臨床大數據中心共同主任吳及在接受《每日經濟新聞》記者採訪時表示，「從學術研究的角度來看，能否將文本意義上的世界模型與物理意義上的世界模型關聯起來，把真正的物理世界進行建模，是AI技術能否取得突破的關鍵。

World Labs和Google之後，Meta也來湊了個熱鬧，於當地時間12月6日推出了今年的壓軸AI大模型：Llama 3.3 70B。 Meta 生成式AI副總裁Ahmad Al-Dahle在X發文表示，純文字的Llama 3.3能實現和Meta最大Llama模型－Llama 3.1 405B同樣的效能，成本還更低。

Al-Dahle還附上了一張圖表，顯示包括針對大模型語言理解能力的測試MMLU在內，Llama 3.3在一系列行業基準測試中表現優於谷歌的Gemini 1.5 Pro、OpenAI 的GPT-4o和亞馬遜本週稍早發布的Nova Pro。

圖片來源：X

隨著大模型競賽的深入，AI的風又更多地吹向了智能體和通用人工智慧（AGI）。

吳及告訴每經記者，目前，儘管單一大模型在某些方面表現出色，但也存在許多不足，例如幻覺和遺忘效應等問題。他強調，“基於多個大模型的AI智能體或多個智能體的協同，可能是未來AI技術發揮更大作用的一個重要趨勢。”

吳及認為，智能體融合將成為AI應用解決特定場景問題的重要技術前景或發展方向。

在《紐約時報》於當地時間12月4日舉辦的DealBook峰會上，阿爾特曼表示，「智能體是現在每個人都在談論的話題，我認為這背後是有充分理由的。設想一下，你可以讓AI系統完成一項相當複雜的任務，例如需要一位非常聰明的人，花費一段時間，借助各種工具來完成並產出有價值成果的任務。現實。

他同時指出，AI產業即將迎來的發展將比預期更具衝擊力。他將AI的影響力比喻為電晶體的發明，認為AI的推理功能未來將走向普及化和商業化。「到2025年，我們可能會首次見到具備AGI能力的系統。這類系統可以像人類一樣完成複雜任務，甚至能運用多種工具來解決問題，」他說。

根據外媒12月6日最新報道，OpenAI正與微軟磋商放棄AGI條款，以釋放投資潛力。根據目前的條款，當OpenAI創建AGI時，微軟對這種技術的使用權將失效。目前，最終決定尚未做出，OpenAI董事會將決定何時實現AGI。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

WONGCW 網誌

記錄生活經驗與點滴

AI年末「狂歡」 OpenAI、Google、Meta、李飛飛發布重磅產品

2024-12-09 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆