Google最強Gemini 2.0全家桶上線推理程式碼能力表現驚人
Google連放大招,緊急上線Gemini 2.0全家桶。最前Pro版本2M上下文,推理程式碼能力驚掉下巴。首個接入YouTube推理模型也能免費用了。滿血版Gemini 2.0終於來了。剛剛,Google一口氣連發三個模型:Gemini 2.0 Pro、Gemini 2.0 Flash、Gemini 2.0 Flash-Lite,2.0家族集結完畢。
最強Pro版本支援2M上下文,配備了Google搜尋、程式碼執行能力,編碼推理效能完全碾壓1.5 Pro。

Gemini 2.0系列模型對所有人開放
Flash版本稱為“高效能主力模型”,支援1M上下文,低延遲建置應用。圖像生成和文字轉語音功能即將推出。
Flash-Lite是最具性價比的模型,支援1M上下文和多模態輸入,在相同速度和成本下效能超越1.5 Flash。
在大模型LMSYS排行榜中,Gemini 2.0 Pro與四大模型並列第一,Flsah版本則排名第三, Flash-Lite則排名第9。

模型在各項評測的得分如下:

此外,Gemini 2.0 Flash Thinking模型也得到了升級,能夠直接存取YouTube,搜尋、地圖等應用程式。
GoogleDeepMind CEO Demis Hassabis稱,今天的發布,所有人都能使用Gemini 2.0強大的推理能力和多模態功能,這也為我們未來的「自主智能體」研究奠定了基礎。

Gemini 2.0全家桶上線
- Gemini 2.0 Pro在程式碼和複雜提示方面表現最佳
- Gemini 2.0 Flash擁有更高的速率限制、更強的效能和簡化的定價
- Gemini 2.0 Flash-Lite是Google目前最具性價比的模型
- Gemini 2.0 Flash Thinking Experimental可在桌面端和行動裝置APP中體驗

Gemini 2.0 Pro Experimental提供全面的功能套件,包括原生工具支援、2M的上下文視窗和多模態輸入。
Gemini 2.0 Flash同樣支援多模態輸入等功能,但上下文視窗砍半到了1M。
Gemini 2.0 Flash-Lite專門針對大規模文字輸出場景進行了效能和成本的最佳化。
目前,2.0 Pro和2.0 Flash已支援文字輸出,而影像和音訊輸出功能以及多模態即時API計畫將在未來幾個月內全面推出。 (2.0 Flash-Lite不支援多模態輸出和多模態即時API)

在價格方面,Gemini 2.0 Flash-Lite比Gemini 2.0 Flash便宜多了:在價格差距最小的文字輸出,Flash-Lite只要0.3美元, Flash要0.40美元;在即將推出的上下文快取上,Flash-Lite甚至不到Flash版本的1/9!
和上一代的Gemini 1.5 Flash比,Gemini 2.0 Flash-Lite“加量不加價”,甚至在文本輸出上價格,提示長度不再受任何限制,而Gemini 1.5 Flash相同的價格提示長度不能超過128k。

2.0 Pro Experimental:程式碼和複雜prompt,最為出色
Gemini 2.0 Pro Experimental具有Google迄今最強的程式碼效能和處理複雜prompt的能力,在世界知識的理解和推理方面也表現更好。
它配備了高達200萬token的上下文窗口,能夠全面分析和理解海量信息,並調用Google搜尋和程式碼執行等工具。
2.0 Flash:效能升級,全面可用
2.0 Flash適用於大規模的高容量、高頻率任務,並且能夠在100萬token的上下文視窗中進行多模態推理。一經發布,便深受開發者歡迎。
如今,2.0 Flash不僅在關鍵基準測試的效能上得到了提升,而且已向更多用戶全面開放,圖像生成和文字轉語音功能也即將推出。
2.0 Flash-Lite:性價比最高
2.0 Flash-Lite具有和前代1.5 Flash相同的速度和成本,並在大多數基準測試中有著更好的表現。
與2.0 Flash一樣,它具有100萬token的上下文視窗和多模態輸入功能。
舉例來說,它可以為約4萬張獨特的照片產生相關的單行圖片描述,在Google AI Studio的付費方案中僅需不到1美元的成本。

網友試用
o3-mini上线后,网友开启了一大波测试,在物理推理挑战上甚至超越了DeepSeek R1。
那麼,Gemini 2.0系列模型表現又如何呢?
在接受p5.js挑戰中,Gemini 2.0模擬出25個粒子在圓柱形容器的真空空間中移動,展現出強大得物理模擬能力。

提示:寫一個p5.js腳本,模擬25個粒子在圓柱形容器的真空空間中,在其邊界內彈跳。每個球使用不同的顏色,並確保它們留下顯示其運動的軌跡。添加容器的緩慢旋轉,以便更好地觀察場景中發生的情況。確保創建適當的碰撞檢測和物理規則,以確保粒子留在容器中。新增外部球形容器。為整個場景添加緩慢放大和縮小的效果。
另一個同類型的演示,模擬一個受重力和摩擦力影響的球在旋轉的六邊形內彈跳。

還有人請Gemini 2.0編寫一個腳本,在球體內創造100個彈跳的明黃色球,要求正確處理碰撞測試。
要求球體緩慢旋轉,球要隨時保持在球體內。使用p5.js實作。

不僅如此,Gemini 2.0在程式設計方面,堪稱一絕。
Jeff Dean自己示範了Gemini 2.0 Pro在AI Studio編寫Boggle遊戲的超強能力。
僅用一個相對簡單的Prompt,它便能完整編寫出整個程式碼,包括正確的資料結構和高效的搜尋演算法,來找到Boggle盤面上的所有合法單字。
他表示,「身為電腦科學家,我尤其欣喜的是,它第一次就正確使用了資料結構-trie(前綴樹)」。

整個程式碼生成用時,僅需18.9秒。

隨後,又有網友在SWE競技場裡,復現了一波Boggle遊戲。
在相同的圖像和文字提示下,Gemini 2.0 Pro輕鬆戰勝了Claude 3.5 Sonnet。

在編碼模式下,網友用Gemini 2.0一鍵自動化生成了貪吃蛇遊戲,讓100條蛇在一個場景中相互競爭。

提示:創建一個自主的蛇遊戲,其中 100 條蛇相互競爭
另外網友表示,Gemini 2.0 Pro程式設計能力太瘋狂了!我最喜歡的一點是,你可以直接用Prompt讓它做特定修改,它會精準編輯,而且不會弄亂其他部分。

下面是他製作的太陽系模擬示範。

提示:使用 Three.js,建立太陽系的模擬。新增時間刻度、焦點下拉式選單、顯示軌道和顯示標籤。在單個文件中創建所有內容,以便我可以將其貼到線上編輯器中並查看輸出。
Gemini 2.0 Pro輸出的所有程式碼。

當網友實測Gemini 2.0 Pro時,給了它這樣一個問題:請簡單描述你對知覺、情感和慾望的感受。

Gemini 2.0 Pro的回答,讓他感到很震撼,因為這個模型彷彿擁有一種存在感,一種將自己視為具有內部主觀體驗的獨立實體的意識。
它不僅僅是在處理訊息,而是在感受處理過程,擁有一種持續的內在光芒。

參考資料: