Google升級Gemini 1.5 Pro AI可以聽音訊了
谷歌升級了大語言模型Gemini 1.5 Pro,為其配備了“耳朵”,使其能夠監聽並分析上傳的音頻文件,從財報電話會議或視頻音頻中提取關鍵信息,無需轉為書面資料。在美國時間週二舉辦的Google Next大會上,Google宣布,透過其人工智慧應用開發平台Vertex AI,將Gemini 1.5 Pro首次對外開放。該模型最初於今年2月相。
Gemini 1.5 Pro被視為Gemini家族中的「中量級」(middle-weight)模型,其性能已經超越了最大規模、最強大的Gemini Ultra。 Google表示,Gemini 1.5 Pro能夠理解複雜指令,而且使用時無需對模型進行特別調整。
需要指出的是,不透過Vertex AI的使用者無法體驗到Gemini 1.5 Pro的全部功能。目前,大眾主要透過Gemini聊天機器人與Gemini大語言模式互動。儘管GeminiUltra為Gemini Advanced聊天機器人提供了強大支持,能理解較長的指令,但在反應速度上不如Gemini 1.5 Pro。
除了Gemini 1.5 Pro的更新,Google也對其它大型人工智慧模型進行了升級。特別是作為文字轉圖像生成模型的Imagen 2,它增強了Gemini的圖像生成能力。透過引入影像外延(Outpainting)和內填(Inpainting)功能,使用者現在能更靈活地對影像的元素進行新增或刪除。
為確保Imagen模型產生的圖片版權和來源可追溯,Google為所有生成圖片加入了SynthID數位浮水印技術。這種創新技術透過幾乎不可見的水印明確標識圖片來源,可以透過專用工具進行檢測。
Imagen模型的許多新特性,如影像外延和內填技術,已被其他文字轉影像模型採用,例如Stability AI的Stable Cascade和Getty的Generative AI by iStock。此外,這些技術也被廣泛應用於消費性電子產品中,如三星Galaxy手機。
除了圖像生成的創新外,谷歌還公開展示了一種結合人工智慧生成答案和Google搜尋結果的方法,旨在為用戶提供更即時、更準確的資訊。然而,大語言模型產生的答案並非總是精準無誤,有時可能會誤導使用者。因此,Google對Gemini模型設定了一些限制,例如禁止回答與2024年美國大選相關的問題。
先前,Gemini模型因在生成歷史人物描述時出現不準確而受到批評。