短短一天,Gemini就奪回了GPT-4o拿走的頭名
一週前,Google的Gemini-Exp-1114 模型取代GPT-4o,坐上了Arena 榜單的頭把交椅。對於苦苦追趕OpenAI 幾個月的谷歌來說,這次在基準測試上的勝利十分振奮人心。可惜振奮的時間不長:昨天,GPT-4o 一個更新,把第一名的位置搶回來了。
奧特曼慶功的話音剛落,Gemini-Exp-1121 殺出來,又把第一名搶走了。
谷歌工程師還順帶嘲諷了一波:
位次的變化實在太快,讓人有點恍惚了。難道接下來,大模型迭代要以「週」為單位了嗎?
狂捲基準測試,真有意義嗎?
有人猜測,莫非這就是Google逐漸過渡到Gemini 2 的發布方式?但這種可能性不大,因為最近的兩個模型版本都還達不到「次世代」的水準。再加上又有傳言,各家在訓練階段的Scaling Law 上都遇到了一些瓶頸,提升模型能力的希望更多轉向了後訓練階段。我們最終看到的下一代大模型,或許和目前的技術路線大不相同。
目前,Gemini-Exp-1114 和Gemini-Exp-1121 在Google AI Studio 上均為可用狀態:
從官方發布的介紹來看,Gemini-Exp-1114 的亮點主要在於品質改進,而最新的Gemini-Exp-1121 重點改進了編碼、推理和視覺能力。
這場爭奪戰的出現,卻引出了另一個角度的議題:目前的人工智慧基準測試方法可能大大簡化了模型評估。
就例如一週前,當研究人員控制了反應格式和長度等表面因素時,Gemini-Exp-1114 的表現下降到第四位,因為傳統指標可能會誇大感知能力。
這種差異揭示了人工智慧評估中的一個根本問題:模型可以透過優化表面特徵而不是展示推理或可靠性的真正改進來獲得高分。對定量基準的關注引發了一場爭奪更高分數的競賽,行業對排行榜的依賴也會催生一些不良激勵方式,而這些都沒有關於人工智慧的真正進步。
各廠商針對特定測試場景最佳化模型,同時可能忽略安全性、可靠性和實用性等更廣泛的問題。這種方法產生的AI 系統擅長完成狹隘的預定任務,但在處理細微的現實世界互動時卻舉步維艱。
例如有人發現在LiveBench 上,一週後更新的Gemini-Exp-1121 版本,在數學和推理能力上反而比不上Gemini-Exp-1114,令人疑惑。
廠商之間為獲得更高的基準分數而展開的競爭並不會停止,但真正的競爭可能在於如何開發全新的框架來評估和確保人工智慧系統的安全性和可靠性。
OpenAI 考慮用瀏覽器挑戰谷歌霸主地位
Google和OpenAI 不僅在大模型領域有點針鋒相對,在瀏覽器方面,OpenAI 正在加緊追趕。
當GoogleChrome 瀏覽器深陷反壟斷之際,OpenAI 出手了。
根據《Information》週四報導,OpenAI 最近考慮開發一款可與其ChatGPT 聊天機器人整合的web 瀏覽器,並推出了NLWeb(Natural Language Web)搜尋技術,以增強對旅遊、食品、房地產和零售等行業的搜尋.
報導也稱,OpenAI 已與Conde Nast、Redfin、Eventbrite 和Priceline 等網站和應用程式開發商討論過這款搜尋產品。
據知情人士透漏,為了達到這一目標,OpenAI 聘請了谷歌Chrome 團隊創始成員Ben Goodger 以及其他前Chrome 關鍵開發人員進行研發,展現了OpenAI 對開發瀏覽器濃厚的興趣。
領英資料顯示,先前Ben Goodger 是Chrome 團隊的創始成員,今年6 月加入OpenAI
這一系列舉措可能會讓OpenAI 與佔據瀏覽器和搜尋市場最大份額的Google展開競爭。在此之前,OpenAI 已經透過SearchGPT 進入搜尋市場。
報導還稱,OpenAI 討論了為三星製造的設備提供人工智慧功能,而三星是谷歌的主要商業合作夥伴。
在此之前,OpenAI 已經與蘋果建立了合作夥伴關係,Apple Intelligence 功能現已使用OpenAI 的技術。
不過,目前尚不清楚OpenAI 何時會推出瀏覽器,《Information》報道稱,OpenAI 距離推出瀏覽器還差得很遠。
如今看來,谷歌不僅面臨來自OpenAI 的壓力,在美國司法部認為谷歌應該出售其Chrome 瀏覽器以結束其在線上搜尋領域的壟斷地位後,谷歌在瀏覽器市場的主導地位變得岌岌可危。
如果OpenAI 成功推出新的瀏覽器,它將成為Google最大的競爭對手。
吃瓜網友們也是紛紛看好OpenAI,表示道「OpenAI 是非常有潛力開發出一款非常棒的瀏覽器的,因為他們現在已經有了搜尋功能。」
不過也有網友並不看好:「就我個人而言,瀏覽器對我已經沒什麼用了,因為我現在只需向聊天機器人提問,就能立即得到答案,而且無需廣告或嘗試多個頁面。」
還有人用一個故事表達了自己的觀點:「Nicholas Negroponte 曾經討論過超級電腦的應用,並講述了一個關於他們展示科學計算器應用的故事。所有的投資者都非常生氣——『我們花了數數百萬美元,而你們所做的只是重新創建了計算器? 我們已經有計算器了!
我們暫且不管OpenAI 何時推出瀏覽器,單就最近幾天這兩家機構在模型更新速度上,就已經相當激烈了,OpenAI 正面剛谷歌還會繼續。
https://www.theinformation.com/articles/openai-considers-take-on-google-with-browser