復旦團隊研發大模式「眼思」 協助視障者「看見」世界
只需一枚攝影機和一對耳機,便能將畫面轉化成語言,描繪場景、提示風險,讓視障者出行更安全、生活更方便。日前,在復旦大學自然語言處理實驗室(FudanNLP)師生的努力下,基於多模態大模型“復旦·眸思”(MouSi)為視障者量身打造的“聽見世界”APP上線,將成為視障人士的生活助理與智慧管家。
「聽見世界」App街道行走模式圖。本文圖片均為復旦大學供圖
2023年上半年,由復旦大學自然語言處理實驗室開發的MOSS被稱為中國版的GPT,僅用半年時間後,多模態模型「眸思」問世。
「眸思」與MOSS同音,但和文字為主的MOSS不同,它能夠理解並辨識圖片內容,致力於成為視障者的一雙「眸」。
設計使用概念圖
基於「眸思」的「聽見世界」APP,為視障者日常生活需求量身打造設計三種模式。
在街道行走模式下,「眼思」如一位忠實的嚮導,紅綠燈、十字路口、障礙物…它將細緻掃描道路狀況,提示潛在風險,陪伴視障者安全通行「看不見」的漫漫長路。
在自由問答模式下,「眼思」則是一位貼心的朋友,讓視力障礙者走進博物館、藝術館、公園,幫助捕捉四周景象的每個細節,用聲音構建豐富的生活場景,傳遞每一處日常之美。
在尋物模式下,「眼眸」將成為可靠的管家,被移動的手杖、最愛口味的牛奶…日常物件的尋找過程變得輕鬆無壓力。
據研究團隊透露,中國盲人數量有1700多萬,也就是說,每一百人就有一位。但為什麼在大多數人的認知裡極少在街上看到盲人?這是因為,面對大量不安全因素,他們難以獨自跨出家門。
復旦大學自然語言實驗室張奇教授說,人工智慧發展日新月異,科技應該要改變更多人的生活,希望「眼思」能幫助視障人士走出家門,讓他們可以嘗試更多工作,為人生書寫更多可能。」
計畫落地背後,是一支年輕的團隊和開放的氛圍,從本科生到博士生共25名復旦學子及桂韜等多位教師、專家的加入,才有了「眸思」接續「MOSS」的成功。
張奇介紹,該計畫的主導者其實都是「初出茅廬」的學生們,在組內腦力激盪會上,年輕學子總是能提出開創性想法,能夠找到另闢蹊徑的解決辦法。
自去年9月以來,為了更能感受視障者的難處,團隊成員同樣模擬真實情境,蒙眼探索視障者「黑暗」世界,並邀請視障人士加入,進一步摸清真實而具體的需求。
復旦大學研究團隊
今年上半年,團隊將結合AR升級APP內的定位精度細化至亞米級別,下半年團隊希望將「眸思」升級到基於視訊的判斷。更多模式也正在開發中,例如閱讀模式服務盲人朋友點菜、閱讀等場景,解說模式承擔無障礙電影解說員的工作等。
在政府的支持下,團隊計畫與NGO組織、智算中心和硬體廠商等合作,致力於讓視障者免費使用產品和相關服務。
預計今年3月,「聽見世界」APP將完成第一輪測試,並在中國一、二線城市及地區同步開啟試點,依照算力部署進行推廣。