Google推出全新人工智慧模式Gemini 2.0 用途更為廣泛
Google的下一個主要人工智慧模型已經到來,以對抗來自OpenAI 的新產品的夾擊。本週三,Google 發布了Gemini 2.0 Flash,該公司稱其除文字外,還能原生生成圖像和音訊。 2.0 Flash 還可以呼叫第三方應用程式和服務,使其能夠連接Google 搜尋、執行程式碼等。

2.0 Flash 的實驗版本將從今天開始透過Gemini API 和Google 的人工智慧開發者平台AI Studio 和Vertex AI 提供。 不過,音訊和影像生成功能僅針對”早期訪問合作夥伴”推出,並將於1 月全面推出。
Google表示,在未來幾個月內,它將為Android Studio、Chrome DevTools、Firebase, Gemini Code Assist等產品帶來各種版本的2.0 Flash。
第一代Flash(1.5 Flash)只能產生文本,並不是為要求特別高的工作負載而設計的。 Google 表示,這種新模式更具通用性,部分原因在於它可以呼叫搜尋等工具並與外部API 互動。
產品主管圖爾西-多希(Tulsee Doshi)在周二的發布會上說:”我們知道,Flash 在速度和性能之間取得了平衡,因此深受開發人員的歡迎。有了2.0 版Flash,它的速度一如既往,而且功能更加強大。

Google聲稱,根據自己的測試,2.0 Flash 在某些基準測試中的速度是該公司Gemini 1.5 Pro 模型的兩倍,而且在編程和圖像分析等方面有了”顯著”改進。 事實上,該公司表示,2.0 Flash 憑藉其卓越的數學能力和”事實性”,取代1.5 Pro 成為Gemini 的旗艦模型。
如前所述,2.0 Flash 可以產生並修改文字和圖像。 模型還能擷取照片和影片以及錄音,以回答相關問題(例如”他說了什麼?)
音訊生成是2.0 Flash 的另一個主要功能,多希將其描述為”可操縱”和”可自訂”。 例如,該模型可以使用針對不同口音和語言”優化”的八種聲音之一來敘述文本。
她補充說:”你可以讓它說得慢一點,也可以讓它說得快一點,甚至可以讓它說像海盜一樣的話。”
目前Google沒有提供2.0 Flash 的影像或音訊樣本。 至少在撰寫本文時,我們無法得知其品質與其他模型的輸出相比如何。
Google 表示將使用其SynthID技術對2.0 Flash 產生的所有音訊和影像進行浮水印處理。 在支援SynthID 的軟體和平台上(即選定的Google 產品),模型的輸出將被標記為合成。
這是為了消除對濫用的擔憂。 事實上,深度偽造是一種日益嚴重的威脅。 根據身分驗證服務公司Sumsub的數據,從2023年到2024年,全球偵測到的深度偽造增加了4倍。
2.0 Flash 的正式版本將於1 月發布。 但同時,Google將發布一個應用程式介面(API)–多模態即時應用程式介面(Multimodal Live API),以幫助開發人員創建具有即時音訊和視訊串流功能的應用程式。
Google表示,透過使用多模態即時API,開發人員可以創建即時、多模態的應用程序,並透過相機或螢幕輸入音訊和視訊。 此API 支援整合各種工具來完成任務,並且可以處理”自然對話模式”,例如中斷,這與OpenAI 的Realtime API 大致一致。
多模態即時API 已於今天上午全面推出。