Google深夜祭出Gemini2.0「硬剛」OpenAI Agent時代最強模型登場了?
就在OpenAI「12 天連續轟炸」的第五天,Google終於坐不住了。剛剛,Google正式發布了Gemini 2.0 系列人工智慧模型的首個版本,該模型名為Gemini 2.0 Flash,提供聊天版本供全球用戶使用,同時還有一個實驗版的模型可供開發人員免費使用,該版本具有文字轉語音和圖像生成功能。
據Google稱,這是Agent 時代迄今為止為最強大的AI 模型,相比上一代Gemini 模型,2.0 在速度上快兩倍,並且比更大的「專業」版Gemini 1.5 更加強大。此外,該版本帶來了增強的效能、更多的多模態性和新的原生工具。
相較於上一代模型,Gemini 2.0 增加了什麼?
Google執行長Sundar Pichai 在聲明中表示:“如果Gemini 1.0 致力於組織和理解訊息,那麼Gemini 2.0 則致力於讓訊息變得更加有用。”

Google最新的大語言模型在大多數用戶請求領域都比其前代產品表現更好,例如程式碼產生和根據用戶請求提供事實正確回應的能力。
在Google DeepMind CEO Demis Hassabis 和Google DeepMind CTO Koray Kavukcuoglu 代表Gemini 團隊撰寫的部落格文章中,詳細介紹了Gemini 2.0 版本的具體功能。
據他們稱,Gemini 2.0 Flash 以1.5 Flash 的成功為基礎,是Google目前最受開發者歡迎的版本,在同樣快速的響應時間下具有增強的性能。值得注意的是,2.0 Flash 在關鍵基準測試中甚至比1.5 Pro 更快,速度是1.5 Pro 的兩倍。 2.0 Flash 還具有新功能。除了支援圖像、視訊和音訊等多模式輸入外,2.0 Flash 現在還支援多模式輸出,例如與文字混合的原生生成的圖像和可操縱的文字轉語音(TTS) 多語言音訊。它還可以原生呼叫Google 搜尋、程式碼執行以及第三方使用者定義函數等工具。

過去一個月,Gemini 團隊一直在分享Gemini 2.0 的早期實驗版本,並獲得了開發人員的正面回饋。
Gemini 2.0 Flash 現已作為實驗模型透過Google AI Studio 和Vertex AI 中的Gemini API 向開發者提供,所有開發者均可使用多模式輸入和文字輸出,早期合作夥伴可使用文字轉語音和原生圖像生成功能。
1 月將全面上市,同時將推出更多模型尺寸。為了幫助開發人員建立動態和互動式應用程序,Google還發布了新的Multimodal Live API,它具有即時音訊、視訊串流輸入以及使用多個組合工具的能力。
要存取實驗版本Flash 2.0 的聊天最佳化版本,Gemini 使用者可以在桌面和行動網路上的模型下拉式選單中選擇它。該公司表示,它將很快在Gemini 行動應用程式上提供。
Gemini Flash 2.0 的多模版本將透過Google 的AI Studio 和Vertex AI 開發者平台提供。
該公司還表示,計劃在2025 年初將Gemini 2.0 擴展到更多Google產品。
推出Deep Search 新功能
Google此次發布的還不只是大模型。 Google宣布將推出一項名為Deep Research 的新功能,它使用高級推理和長上下文功能充當研究助手,探索複雜主題並代表用戶編寫報告。它今日起已經Gemini Advanced 中可用。
据Google方面称,Search 无疑是受到人工智能影响最深远、变革最显著的产品。如今,AI Overviews 已触达 10 亿用户,该功能使用户能够提出全新的问题类型,迅速成为 Search 有史以来最受欢迎的功能之一。接下来,Google会将 Gemini 2.0 的高级推理能力融入 AI Overviews,以攻克更复杂的主题和多步骤问题,包括高等数学方程、多模态查询和编码。同时,Google还计划明年将 AI Overviews 功能面向更多国家开放,适配更多语言。

2.0 基於Google定制的硬體第六代TPU Trillium 建構而成。 TPU 為Gemini 2.0 的訓練和推理提供100% 算力支持,今天Trillium 也全面向用戶開放,以便他們能夠基於此進行開發。
透過Gemini 2.0 解鎖Agent 體驗
Gemini 2.0 Flash 已經進行了原生用戶介面操作能力的改進,其他改進還包括多模式推理、長上下文理解、複雜指令追蹤和規劃、組合函數呼叫、原生工具使用和改進的延遲等。
自大模型誕生以來,AI Agent 的實際應用是一個非常熱門的研究領域。 Google正在透過一系列原型探索這個新領域,這些原型可以幫助人們完成任務並完成工作。其中包括對Project Astra 的更新,這是Google的研究原型,旨在探索通用人工智慧助理的未來功能;新Project Mariner,它從瀏覽器開始探索人機互動的未來;以及Jules,一個可以幫助開發人員的AI 代碼Agent。
Gemini API 集團產品經理Shrestha Basu Mallick 和Google實驗室產品總監Kathy Korevec 表示:「從今天開始(對於受信任的測試人員),你可以將Python 和JavaScript 程式設計任務轉移給Jules。Jules 可以非同步工作並與你的GitHub 工作流程集成,處理錯誤修復和其他耗時任務,而你則專注於你真正想要建立的內容。
Google也表示,即便技術持續迭代,但Gemini 系列模型仍處於開發的早期階段,他們很高興看到那些值得信賴的測試人員如何使用這些新功能以及他們可以從中學到什麼經驗,這樣就可以在未來的產品中更廣泛地使用它們。
硬剛一眾AI 獨角獸,Google更勝一籌?
Gemini 2.0 是Google在科技業日益激烈的人工智慧競賽中的最新成果。 Google正與科技巨頭微軟、Meta 以及一眾AI 明星獨角獸如OpenAI、Perplexity 和Anthropic 等新創公司展開激烈戰爭。
Google這一波出手在科技社群引發了熱議,一名Reddit 用戶對Gemini 2.0 的發布表示震驚,他評論道:
“我不知道我现在的感受是什么。兴奋、担忧、不安、好奇以及对 AI 的绝对敬畏交织在一起。超现实的是,我们正在经历这种改进,并且每次发布的迭代都给我们留下了深刻的印象。我甚至都不敢想象 10 年后的情况。看看 2004 年到 2014 年的科技各个方面都取得了巨大进展,但与这两年 AI 势头相比还有很大差距。”
有用戶調侃,Google甚至都等不及OpenAI 把「瘋狂發布週」過完再來炸場,結合前兩日Sora 潦草發布,有不少網友直接站隊Google:
“Google的Gemini 絕對是GPT-5 級別的威脅,我從未見過一家公司發佈如此強大的模型讓開發者免費試用。”
隨著新Flash 模型的發布,這場AI 軍備競賽已經進入白熱化階段。據谷歌公司稱,Agent 模型“可以更好地了解你周圍的世界,提前思考多個步驟,並在你的監督下代表你採取行動。”
上週,在《紐約時報》 DealBook 峰會上與安德魯·羅斯·索爾金(Andrew Ross Sorkin) 的對話中,Google CEO 皮查伊對微軟的人工智能進步提出了質疑,表示他「很樂意在任何時候」將兩家公司的模型並排比較。
安德魯·羅斯·索爾金問皮查伊:“相對於其他參與者,你認為自己處於什麼位置?”
皮查伊表示他很想進行並排比較,隨後他補充說:“他們使用了別人的模型。”
「你這是在向我發起挑戰。」索金回答。
皮查伊笑著搖了搖頭,補充道:“我只是——我非常尊重他們和他們的團隊。”
微軟當家人納德拉對於Google科技實力也給予了很高的肯定。
早在今年3 月份,微軟CEO 納德拉在挪威銀行投資管理播客上表示:「Google本應就是大型科技公司AI 競賽的預設贏家。Google是一家非常有能力的公司,他們既有人才,又有計算能力。