Google TalkBack 將使用Gemini模型為盲人描述影像

在本週二舉行的Google I/O 2024 開發者大會上，該公司宣布將在今年稍後推出的一項Android功能中使用Gemini Nano 來幫助描述圖像。

該公司宣布，Gemini Nano 的功能將應用於該公司的無障礙功能TalkBack。這是公司利用生成式人工智慧向更多用戶開放軟體的一個很好的例子。

Gemini Nano 是Google基於LLM 平台的最小版本，旨在完全在裝置上運行。這意味著它不需要網路連線就能運作。在這裡，該程式將用於為低視力和盲人用戶創建物體的聲音描述。

在上圖的彈出窗口中，TalkBack 將衣服描述為”一件黑白格子裙的特寫。裙子很短，有領子和長袖。腰間繫著一個大蝴蝶結”。

據該公司稱，TalkBack 用戶每天大約會遇到90 張左右沒有標籤的圖片。透過使用LLM，系統將能夠提供對內容的洞察力，從而有可能省去人工輸入資訊的麻煩。

Android生態系統總裁薩邁爾-薩馬特（Sameer Samat）指出：「這項更新將有助於填補缺失的信息，無論是家人或朋友發送的照片中的更多細節，還是網上購物時衣服的款式和剪裁。 ” “

該設備將於今年稍後登陸Android系統。如果它能像演示中那樣運作良好，那麼對於盲人和低視力者來說可能會帶來極大的便利。

WONGCW 網誌