Gemini 2.5 Flash 重磅登場:首推混合推理模型思考模式可關成本暴降600%
Google發布首個混合推理模型Gemini 2.5 Flash,支援可調節「思考預算」功能,可開啟或關閉深度推理模式,降低使用成本。目前,Gemini 2.5 Flash 預覽版已整合至Gemini 產品,並開放給開發者API 存取。

根據介紹,在關閉思考模式下,Gemini 2.5 Flash 的輸出價格低至0.6美元/百萬tokens,相比開啟思考模式(3.5美元/百萬tokens)降低600%。 Google表示即便在關閉思考的情況下,新模型效能仍優於上一代Gemini 2.0 Flash。

該模型在多個基準測試中刷新SOTA 紀錄。 Gemini 2.5 Flash(預覽版)在大模型排行榜中以1392分ELO 位列第二,僅次於GPT-4.5-preview,表現與Grok-3旗鼓相當。
在GPQA 知識問答任務中,模型設定24k 思考預算可提升效能6%;在程式碼基準 LiveCodeBench 上,效能在16k 思考預算下表現最佳。
在數學(AIME 2025/2024)、多模態推理(MMMU)、知識問答(GPQA)等任務上,Gemini 2.5 Flash 明顯超越Claude 3.7 Sonnet,綜合性能可與OpenAI 最新o4-mini 模型匹敵。
此外,在通用基準「人類最後一次考試」中,Gemini 2.5 Flash 以12.1% 高分錶現僅次於o4-mini。