Google升級Gemini 1.5 Pro AI可以聽音訊了

2024-04-10 Comments 0 Comment

谷歌升級了大語言模型Gemini 1.5 Pro，為其配備了“耳朵”，使其能夠監聽並分析上傳的音頻文件，從財報電話會議或視頻音頻中提取關鍵信息，無需轉為書面資料。在美國時間週二舉辦的Google Next大會上，Google宣布，透過其人工智慧應用開發平台Vertex AI，將Gemini 1.5 Pro首次對外開放。該模型最初於今年2月相。

Gemini 1.5 Pro被視為Gemini家族中的「中量級」（middle-weight）模型，其性能已經超越了最大規模、最強大的Gemini Ultra。 Google表示，Gemini 1.5 Pro能夠理解複雜指令，而且使用時無需對模型進行特別調整。

需要指出的是，不透過Vertex AI的使用者無法體驗到Gemini 1.5 Pro的全部功能。目前，大眾主要透過Gemini聊天機器人與Gemini大語言模式互動。儘管GeminiUltra為Gemini Advanced聊天機器人提供了強大支持，能理解較長的指令，但在反應速度上不如Gemini 1.5 Pro。

除了Gemini 1.5 Pro的更新，Google也對其它大型人工智慧模型進行了升級。特別是作為文字轉圖像生成模型的Imagen 2，它增強了Gemini的圖像生成能力。透過引入影像外延（Outpainting）和內填（Inpainting）功能，使用者現在能更靈活地對影像的元素進行新增或刪除。

為確保Imagen模型產生的圖片版權和來源可追溯，Google為所有生成圖片加入了SynthID數位浮水印技術。這種創新技術透過幾乎不可見的水印明確標識圖片來源，可以透過專用工具進行檢測。

Imagen模型的許多新特性，如影像外延和內填技術，已被其他文字轉影像模型採用，例如Stability AI的Stable Cascade和Getty的Generative AI by iStock。此外，這些技術也被廣泛應用於消費性電子產品中，如三星Galaxy手機。

除了圖像生成的創新外，谷歌還公開展示了一種結合人工智慧生成答案和Google搜尋結果的方法，旨在為用戶提供更即時、更準確的資訊。然而，大語言模型產生的答案並非總是精準無誤，有時可能會誤導使用者。因此，Google對Gemini模型設定了一些限制，例如禁止回答與2024年美國大選相關的問題。

先前，Gemini模型因在生成歷史人物描述時出現不準確而受到批評。

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

WONGCW 網誌

記錄生活經驗與點滴

Google升級Gemini 1.5 Pro AI可以聽音訊了

2024-04-10 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆