OpenAI的加強版「Her」正式開放壓過了Gemini的「生產級」大升級…
今天真是AI圈久違了的熱鬧一天啊!昨天剛被奧特曼發的那篇AI小作文搞得一頭霧水,現在他這波操作的意圖就呼之欲出了。奧特曼想臨門狙擊的正是宿敵Google,更確切地說,是Google今天剛更新的兩款升級版Gemini模型:Gemini-1.5-Pro-002和Gemini-1.5-Flash-002。狙擊方式簡單粗暴:直接宣布萬眾期待的GPT語音功能今天正式開放。
兩個小時不到,就雙詠搶走了Google好不容易的高光時刻。我要是Google我得氣吐血吧。
GPT高階語音來了,會50多種語言
OpenAI稱,ChatGPT的高級語音模式(Advanced Voice Mode)將在本週內逐步向所有Plus和團隊用戶推出。
在人們耐心等待的同時,團隊完善了部分功能,包括新增自訂指令、記憶功能、5種新聲音,並改進了口音。
由於實在被大家念叨了太久,OpenAI特別表示了一下:“它能用50多種語言說出’抱歉,我遲到了’。”
並且放了一個從英文切換到普通話的示例:“奶奶對不起,我遲到了。我不是故意讓您等這麼久的,我可以怎麼補償您呢?”
——好傢伙,這一下子都當上GPT的奶奶輩了,硬逼我原諒你啊。
影片中可以看到,語音模式現在以一個跳動的藍色球體表示,而不是OpenAI在5月展示技術時使用的黑色動畫點。
當獲得存取權限時,應用程式內會彈出一個提示。先是對Plus和Teams層級用戶開通,下週起擴展到企業和教育用戶。
ChatGPT還增加了五種新語音以供體驗:Arbor、Maple、Sol、Spruce和Vale。至此,加上先前的Breeze、Juniper、Cove和Ember,ChatGPT的語音總數已達到了9種(Google的Gemini Live語音數量為10種)。
也許你也注意到了,這些名字都是從大自然中汲取靈感的,從“楓樹”、“微風”到“太陽”、“山谷”,也許是為了讓使用感覺更加自然。一個缺席的聲音是Sky,也是OpenAI在春季發布會時展示的語音,因涉及與電影《Her》主演斯嘉麗·約翰遜的法律爭議而下架。
OpenAI也將ChatGPT的一些客製化功能擴展到了高級語音模式,包括允許用戶個性化回應的「自訂指令」功能,以及讓ChatGPT記住對話以供日後參考的記憶功能。
例如下面影片裡,在系統設定的自訂ChatGPT選單中,輸入「我的名字是夏洛特,我住在舊金山灣區。」再問週末戶外活動時,GPT就會以夏洛特稱呼用戶,提供符合本地天氣和交通的建議。
OpenAI稱團隊改進了部分外語中的反應速度、流暢性以及口音。語音會根據對話語氣調整,你可以創造場景,提示它扮演不同的角色。聲音延遲非常低,理解力也更強,真的像是和另一個人自然對話。
不過OpenAI四個月前展示過的影片和螢幕分享功能此次並未更新。當時工作人員向GPT詢問紙上的數學題和電腦螢幕上的程式碼,透過自然語音對話獲得了即時解答。目前,OpenAI尚未提供這項多模態功能的推出時間表。
此外高級語音模式也暫時不對歐盟、英國、瑞士、冰島、挪威和列支敦士登等地區開放。
儘管如此,終於能親自上手OpenAI版的“her”,對已經混AI圈混到審美疲勞的人們來說,確實算一件值得興奮的事了。加上才製造了一波熱潮的o1-preview,OpenAI又妥妥硬控業界一週。
這項激動也把大夥兒整地間歇性失憶了:
話說Google今天是發了個啥來著?
Gemini 1.5 升級兩款新模型,價格減半,速率提升
Google這次的更新其實也很重磅,至少對開發者來說。
根據Google Blog,這次他們更新了兩款生產級Gemini車型:Gemini-1.5-Pro-002 和Gemini-1.5-Flash-002。所謂“生產級”,是指AI模型經過了充分的開發、測試和優化,已準備好商業化部署,能處理大量用戶請求、應用於產品服務中,而不僅僅是用於實驗或研究。
作為今年5月I/O大會亮相的Gemini 1.5系列車型的重大升級,新車型更快、更強大,也更具成本效益。
主要亮點概括為:
1. 價格大幅降低:1.5 Pro的輸入和輸出價格下降約50%,大幅降低了建置成本,尤其是小於128K token的提示。
2. 整體品質改進:尤其在數學、程式碼產生、長文字情境和視覺任務上的表現提升顯著,包括在MATH、HiddenMath等基準測試中提高約20%,視覺和程式碼應用提高2%-7%。
3. 速率限制提高:1.5 Flash和1.5 Pro的速率限制分別從每分鐘1000RPM(Requests Per Minute)和360RPM提高至每分鐘2000 RPM和1000 RPM,使開發者能夠更快建置和處理任務。
4. 更快輸出與更低延遲:輸出速度提升2倍,延遲降低3倍,為更有效率的應用場景提供支援。
5. 更簡潔的回應:回應風格更簡潔、成本更低,輸出長度縮短5%-20%,同時在許多主題上減少了拒絕和迴避的次數,並保持高有用性。
6. 多模態和長上下文支援:1.5 Pro的200萬token長上下文視窗支援處理長文本和多模態任務,如1000頁PDF或長視訊的內容生成。
7. 更新的過濾設定:模型的預設安全過濾器不再自動套用,開發者可以根據需要自訂模型的安全設定。
開發者可以透過Google AI Studio和Gemini API免費存取這兩個最新模型。大型組織和Google Cloud客戶也可在Vertex AI上使用新模型。
籠罩在GPT陰影下的Gemini
但在同儕對比下,不少一般使用者對Google這次動作表達了失望,覺得這甚至不算是真正意義的「發布」。
Abacus.AI CEO、知名部落客Bindu Reddy說,「唉,OpenAI發布了通過智商測試的o1,而Google只是對Gemini 1.5進行了一些小更新。他們擁有100倍的資源、10倍的人才和10倍的所有東西,怎麼會這樣呢?
儘管開發者中還是有些人為Google說話,例如Reddit討論區就有網友表示:
「對於那些實際在建立應用程式並試圖降低成本、增加利潤的人來說,這些都是有用的東西。我正在做的應用程式有一個每次操作的固定成本,由token長度決定,這讓我的利潤提高了大約30%以上。
價格對半砍、速率提升、延遲降低,這些確實正中開發者下懷。但正如大家所說,吸引力也許僅限於開發者群體了。
甚至連一些開發者也嗤之以鼻:「我沒看到跟Claude或o1的比較,而我們馬上就要迎來下一代OpenAI和Anthropic模型。DeepMind其實擁有遠超目前的模型,但他們在走直接面向企業的路線,繞過了大眾。
Google對於模型的糟糕命名也被網友群嘲,認為其冗長且易混淆。
The Information近期發布了一篇名為《Why AI Developers Are Skipping Google’s Gemini》的文章。其中透過對多位AI公司創始人和Google內部員工的採訪,講述了Gemini如何被開發者“拋棄”,在追趕ChatGPT時遇到的阻滯和困境。
例如,相較於競爭對手的技術,呼叫Gemini對於開發者和企業來說過於複雜。 Topology創辦人Aidan McLaughlin表示,他第一次使用OpenAI的API僅花了30秒,使用Gemini花了4個小時。同時Google的大模型效能卻排在OpenAI和Anthropic之後,並不值得他跨越這些障礙。
相較於ChatGPT,Gemini在開發者中的不受歡迎似乎是現實世界公開的秘密。
企業軟體新創公司Retool在6月針對750多位科技員工進行的調查發現,僅有2.6%的受訪者表示他們最常使用Gemini來建立AI應用,超過76%的人選擇使用GPT。
Similarweb追蹤的網站流量資料顯示,6月至8月期間,OpenAI的應用程式開發者頁面瀏覽量達8,280萬次,而Google的頁面瀏覽量為840萬次。
較小的非正式調查也提供了類似的證據。上月底,Finetune的創辦人Julian Saks向他在舊金山共同工作空間的50位AI新創公司開發者詢問他們最常使用的對話式AI模型。幾乎所有人都表示,他們主要使用的是Anthropic或OpenAI的模型,沒有人提起Gemini。
儘管Gemini模型在分析長文件或長程式庫時非常有用,但許多開發者表示,Google的模型選項種類繁多,步驟複雜,開發者係統也與OpenAI的不同,更難使用。而且有時,Google提供的不同服務還會在它自己的搜尋結果中互相競爭,使得人們在試圖搞清楚這些工具時很容易被「絆住」。
Gemini因此常在X上被嘲笑。安全新創公司Xbow的AI研究員Brendan Dolan-Gavitt本月稍早發了一條推文,詳細介紹了他透過Vertex開始使用Gemini所需的眾多步驟,迅速走紅。其他開發者紛紛評論區表示同情。
在一個「世界上領先的工程師都在使用OpenAI、Claude或Cursor」的環境中,開發者確實沒有必要再去嘗試其它。而反過來說,使用量的走低又無法讓Gemini獲得ChatGPT一樣多的數據回饋,致使Google在改進模型上會面臨更模糊的路線圖。
失望是因為人們對Google期待很高
Google正試圖改變這種看法,包括透過在X上回應對Gemini的批評,將更多OpenAI等公司的明星技術專家納入麾下、將部分重疊的開發功能合併等。他們也透過舉辦開發者活動來宣傳Gemini。
今天與Gemini-1.5-Pro-002推出同步進行的,還有一場Gemini for Work的線上活動,Google花了大量篇幅宣講Gemini目前在Best Buy、Snap、UPS Capital、Wayfair等公司的應用案例。 據悉,他們正試圖透過提供一定程度的「白手套」服務來拉攏更多大企業客戶。
只是在根深蒂固的市佔率面前,Google的反擊之路可能沒那麼好走。
AI Studio的產品負責人Logan Kilpatrick今年4月加入前曾於OpenAI負責開發者關係,他表示:「實際情況是,OpenAI在LLM API開發者工具方面領先於Google。我們必須與他們目前在開發者中根深蒂固的市場佔有率作鬥爭。
稍早前AI圈知名部落客Rowan Cheung曾預告,自己完成了一個關於AI模型重大升級的採訪,今天開發者們將迎來一個大日子。
那篇推文下面,Logan Kilpatrick的笑臉字元表情在一大片「怎麼不是Claude Opus 3.5」的遺憾聲中略顯尷尬。
保守、爭議、落後是今天Google這位AI巨頭對社區的刻板印象。 Gemini-1.5-Pro-002的推出似乎也未打破這項僵局。
人們對這家公司的失望,都是來自對它的期待很高:這麼強的實力和人才儲備,卻無法給世界更多的「替代」OpenAI的選項,誰會感到遺憾。