DeepL推出DeepL Voice 實現基於語音和視訊的即時文字翻譯
DeepL以線上文字翻譯而聲名鵲起,該公司聲稱自己的線上文字翻譯比Google等公司的服務更細緻、更精確–這一宣傳使這家德國新創公司的估值達到20 億美元,並擁有超過10 萬名付費客戶。 現在,隨著人工智慧服務的熱度持續升溫,該公司又在平台上增加了另一種模式:音訊。 現在,使用者可以使用DeepL Voice 聽別人用一種語言說話,並自動即時翻譯成另一種語言。
英語、德語、日語、韓語、瑞典語、荷蘭語、法語、土耳其語、波蘭語、葡萄牙語、俄語、西班牙語和義大利語是DeepL 目前可以”聽到”的口語。 同時,DeepL Translator 目前支援的33 種語言都有翻譯字幕。
DeepL Voice 目前還不能以音訊或視訊檔案的形式提供翻譯結果:該服務主要針對即時、現場對話和視訊會議,並以文字而非音訊的形式提供。 在第一種情況下,您可以將您的翻譯設定為智慧型手機上的”鏡像”,即把手機放在會議桌上,讓雙方都能看到翻譯的單詞,或設定為您與他人並排分享的轉錄。 在視訊會議服務中,翻譯會以字幕的形式出現。
該公司創始人兼執行長Jarek Kutylowski(如上圖)在接受採訪時暗示,這可能會隨著時間的推移而改變。 這是DeepL 在語音領域的第一個產品,但不可能是最後一個。他補充說:”[語音]是明年翻譯行業的發展方向。”
還有其他證據支持這一說法。 DeepL 最大的競爭對手之一Google也開始在其Meet 視訊會議服務中加入即時翻譯字幕。 此外,還有許多人工智慧新創公司正在開發語音翻譯服務。 其中包括人工智慧語音專家Eleven Labs(Eleven Labs Dubbing)和其他公司(如Panjaya)的努力,後者使用”Deepfake”語音和與音訊匹配的視訊創建翻譯。 後者使用Eleven Labs 的API,而據Kutylowski 稱,Eleven Labs 本身也在使用DeepL 的技術來支援其翻譯服務。
音訊輸出並不是唯一尚未推出的功能。到目前為止,語音產品還沒有API。 DeepL 的主要業務集中在B2B 領域,庫蒂洛夫斯基表示,公司正在與合作夥伴和客戶合作,直接使用該產品。
Kutylowski說:「目前支援DeepL 字幕的視訊通話服務只有Teams,它覆蓋了我們的大多數客戶」。 目前還不知道Zoom 或Google Meet 將於何時或是否會整合DeepL Voice。
對於DeepL 的用戶來說,這款產品會讓他們感覺期待已久,這不僅是因為我們已經被大量其他以翻譯為目的的人工智慧語音服務所充斥。 Kutylowski說,早在2017年,也就是DeepL 推出的那一年,這就已經成為顧客的頭號要求 。
等待的部分原因是,DeepL 在構建其產品時採取了相當深思熟慮的方法。 在人工智慧應用領域,許多其他公司都會對其他公司的大型語言模型進行依賴和調整,而DeepL 則不同,它的目標是從頭開始建立自己的服務。 今年7 月,該公司發布了一款針對翻譯進行了最佳化的新型LLM,並稱其性能優於GPT-4、Google和微軟,這主要是因為它的主要用途是翻譯。 圍繞著這一點,它還不斷提高其書面輸出和詞彙表的品質。
同樣,DeepL Voice 的獨特賣點之一是它可以實時工作,這一點非常重要,因為目前市場上的許多”人工智能翻譯”服務實際上都是延時工作的,這使得它們很難/不可能在現場情況下使用,而這正是DeepL 要專門解決的用例。 Kutylowski暗示,這也是這款新的語音處理產品專注於基於文本的翻譯的另一個原因:它們的計算和生成速度非常快,而處理和人工智能架構在以同樣快的速度生成音頻和視頻方面還有很長的路要走。
你可能會認為視訊會議和會議是DeepL 語音的可能用例,但Kutylowski 指出,該公司設想的另一個主要用例是在服務業,例如餐廳的第一線員工可以使用這項服務幫助他們更輕鬆地與客戶溝通。
這可能很有用,但也凸顯了這項服務的缺陷。 在這個世界上,我們對資料保護的認識突然提高了許多,對新服務和新平台如何竊取私人或專有資訊的擔憂也增加了許多,但人們對自己的聲音以這種方式被收集和使用的熱衷程度還有待觀察。
Kutylowski堅稱,雖然聲音將被傳送到其伺服器進行翻譯(處理過程不在設備上進行),但其係統不會保留任何內容,也不會用於培訓其法律碩士,最終將與客戶合作,確保他們不違反GDPR 或任何其他資料保護法規。