搶在ChatGPT前發布語言助理法國Kyutai實驗室示範自備70種情緒AI
OpenAI被超越了,而且還是「栽在」已經公開示範過的語音助理上。當地時間7月3日週三,法國獨立非營利AI研究實驗室Kyutai公開展示了一款語音助理Moshi的實驗性原型。 Kyutai介紹,Moshi由該實驗室的八人研究團隊耗時六個月從零開始開發,是全球首款全體大眾都可使用的即時生成式語音AI。
Moshi具有多種類似人類的情緒。 Kyutai的科學家表示,Moshi系統能夠帶著70種情緒和風格講話。他們現場示範了,Moshi如何就攀登珠穆朗瑪峰提供建議,也讓Moshi用濃重的法國口音朗誦一首它自己創作的詩歌。
Kyutai宣布,週二晚些時候可在其網站上查看Moshi的互動式演示。從週二起,就可以在線上免費測試Moshi。 Kyutai致力於為AI的開放研究和整個生態系統的發展做出貢獻,Moshi模型的程式碼和權重很快就會免費共享,這對此類技術來說也是前所未有的。 Kyutai的一名代表表示,Moshi模型和相關研究將在未來幾週內發布,沒有透露具體日期。
Kyutai認為,Moshi有潛力徹底改變數位世界中語音的使用方式,並舉例稱,在表達情感和多種聲音之間的互動方面,它的文字轉語音功能非常出色。
Kyutai的CEO Patrick Pérez稱,Moshi可以“邊說話邊思考”,還說“我們相信Moshi 具有巨大的潛力,可以改變我們與機器交流的方式。”
研究者Lucas Beyer在社群媒體上發文評論,Kyutai的Moshi是首個即時音訊大語言模式(LLM)。 Kyutai的示範種,Moshi基本上沒有延遲,甚至打斷了演講者幾次。它實際上有點急於快速回答。而且Moshi是全部開源的。雖然聲音品質還有點機械化,但作為初版,它還是表現不錯。總體來說很酷。
Beyer指出,演示時,在蘋果電腦macbook設備上的模型有一些即時拒絕誤報,也許Kyutai對安全調整有點太急切了。然而,這只是證實了演示確實是即時的,甚至可能是自由發揮的,他喜歡這一點。
有網友評論稱,有趣的是,看到日文單字以賽博龐克的方式融入西方文化。在日語中,Kyutai 的意思是球體,moshi 是電話裡的口語問候語,所以這兩者結合起來就是「你好球體」。
Moshi被視為ChatGPT的最新挑戰者。包括Anthropic、Cohere和谷歌在內,越來越多新創公司和科技巨頭推出模型與GPT-4 競爭,儘管一些行業專家擔心這項新興技術帶來危險。
Moshi的問世讓Kyutai成為搶跑OpenAI推出語音助理的先鋒。 OpenAI先前打算在機器人聊天工具ChatGPT上提供類似功能,不到兩個月前正式向大眾展示了基於GPT-4升級版GPT-4o模型的語音助理。
在OpenAI今年5月中展示過程中,語言助理表現得像一個真正的成年人,能聽能說能看,還能有情緒變化,最關鍵是幾乎可以即時回應請求。它不僅可以講睡前故事,能透過外表觀察人的情緒變化,還能像一位朋友般安撫人緊張的情緒,甚至還可以像個經驗豐富的數學老師般指導解代數方程,讓一些觀眾聯想到了2013年電影《她》中的AI虛擬助理。
但一個多月後,OpenAI又宣布因安全顧慮延後發布上述語音助理。 6月25日上週二,OpenAI在社群媒體上發文稱,推遲上線ChatGPT語音助理功能是因為,需要確保它能安全有效地處理來自數百萬用戶的請求,還需要一個月才能達到公司的發布標準。
有網友本週二評論稱,Kyutai推出Moshi基本上等於,把OpenAI還沒公開發布的客戶產品開源了,向Kyutai致敬。
有別於微軟150億美元支持的「美系」資本背景OpenAI,Kyutai致力於研究通用AI,去年11月「出生」起得到合計3億歐元支持,其中主要來自歐洲實業資本。
Kyutai是法國億萬富翁Xavier Niel去年表示將對AI領域投資2億歐元的投資對象之一。 Niel旗下的電信集團Iliad去年公佈,將為Kyutai計畫投入1億歐元。另一位法國億萬富翁、法國航運和物流巨頭CMA CGM的CEO Rodolphe Saadé也對Kyutai投資了1億歐元。前GoogleCEO Eric Schmidt也參與了Kyutai的投資,未揭露金額。
Niel本週二表示,Moshi表明,歐洲可以成為AI發展的全球參與者。 Kyutai“今天展示的所有產品都是全球一流的,我們很高興能在歐洲推出這款產品。”
在安全方面,Kyutai的首席科學官Hervé Jégou介紹,Kyutai將使用索引和水印工具識別和追蹤其AI 生成的音訊。