只需15分鐘iPhone 就能“複製”你的聲音

2023-06-08 Comments 0 Comment

史蒂芬·霍金的“機械電音”，也許是世界上其中一個最有辨識度的聲音。但那並不是霍金自己的聲音。在霍金因漸凍症(ALS)失去說話能力的年代，技術還不足以讓他能生成自己聲音。事實上，能用上語音合成器的人都屈指可數。

到了今天，ALS 患者雖然有了更多語音合成的選擇，但總體費用和時間門檻仍然不低，普及度也有限。

最近，蘋果公佈了全新無障礙功能Personal Voice(暫未上線)，不僅讓用戶能免費“備份”自己的聲音，同時還在安全地應用AI 技術上，作出了一次有意思的嘗試。

只需15 分鐘“調教”，就能生成你的聲音

在生成式AI 可以模仿一切的時代裡，用AI 模仿一個人的聲音聽起來已經不算新奇，只是感覺有點安全隱患。

我好奇的，更多是蘋果要怎樣安全和高效地實現Personal Voice 這一功能。

據介紹，iPhone、iPad和Mac 用戶只需要根據提示錄製15 分鐘的音頻，蘋果就會基於設備端的機器學習技術來生成和用戶一樣的聲音。

相比之下，為失語群體提供專業語音合成服務的公司，可能需要採用專業設備，錄製幾小時的語音素材，價格最低都要數百美元。

另一項新無障礙功能Live Speech，則支持用戶打電話、FaceTime 或者是和他人面對面對話的時候，輸入文字即可生成語音內容，為失語或不方便說話的用戶提供另一種“發聲”方式。

結合Personal Voice 和Live Speech 兩項功能，失語用戶就能用接近自己原本聲音的生成聲音和他人溝通。

用起來是方便了，但怎樣避免有人用網上扒的語音素材來生成他人的聲音?

素材隨機化。

在錄製15 分鐘語音素材的過程中，蘋果將隨機生成需要用戶朗讀的內容，減少他人猜中素材的可能性。

物理距離屏障。

在錄製過程中，用戶需要在距離設備6-10 英寸(約15- 25 厘米)的特定空間裡完成錄製。

在生成過程中，所有數據都將通過蘋果的Neural Engine(神經引擎)在設備本地完成，不必要上傳到雲處理。

語音合成後，第三方應用如果想使用Personal Voice，都要獲得用戶明確授權。

即便第三方應用獲得授權使用時，蘋果也會採用額外的背景保護，確保第三方應用無法獲取Personal Voice 以及用戶之前所錄製的語音素材。

如果是蘋果“全家桶”用戶，生成自己的Personal Voice 後還能通過iCloud 同步到不同設備上，並以端對端的方式加密。

自己的聲音，失去了才懂多重要

人是感性的生物，而聲音是很強烈的情感觸發器。

有研究指出，當人在聽到母親的聲音時，身體釋放出催產素水平和跟媽媽擁抱時產生的程度很相似。另一個研究則指出，聽到自己的聲音，會增強一個人的自我能動性。

這聽起來有點抽象。

但當我們失去它時，重要性就變得顯而易見了。

2021 年3 月，Ruth Brunton 被確診ALS。那年聖誕，她就已經失語了。

ALS 患者中，約有25% 的人患的是“延髓起病型”肌萎縮側索硬化症，主要表現是說話障礙或吞嚥困難。這類病人說話會逐漸變得含糊、帶有鼻音，甚至失語。

Brunton 的行動很果斷，確診後馬上找公司去做語音生成。

來回花了一個月時間，錄了3000 多個句子的語料，但最後出來的結果並不理想。

那家公司用的是一種名為“單元選擇(unit selection)”技術。

簡單粗暴來說，它就是通過“拼接”來實現語音生成，把語料拆分為大量小的語音單元，然後按需把元素拼起來。

　　▲單元選擇技術下，“Bob”這一詞語能被拆分成不同語音元素，圖自《華盛頓郵報》

這種技術生成的語音能聽清，但會有點電音，聽起來不太自然。

結果就是，Brunton 錄製的語料結合了微軟一個名為“Heather”的聲音，不但聲音和自己毫不相似，甚至逼著這英國人“講”起了美語口音。

困在這個聲音裡，Brunton“只會在必要的時候說話，不再是因為想說話而說話”。

從前和丈夫打鬧聊天的心情消失了，Brunton 也不怎麼願意參加多人對話。

即便是說“我愛你”，用一個不像自己的聲音來說，意義也似乎被削弱了。

六個月後， Brunton 和丈夫爭取回了最初錄製的語音素材，找了另一家公司，用AI 技術合成了一個更像她自己的聲音：

這聽起來也許有點傻，但重新獲得自己的聲音讓我更有自信了。

在波士頓兒童醫院負責“增強溝通”項目的John M. Costello 留意到，那些採用了更真實生成語音的病人，似乎更能夠和親近的人建立深厚的聯結。

2022 年聖誕節，“重獲新聲”的Brunton 還用語音錄製的一段節日祝語。

然而，聖誕剛過，Brunton 就染上了新冠，最後在今年2 月離世了。

她離開的那晚，丈夫David 一整夜都握著她的手：

我們有兩年時間來告別。

我們說好了，我們要說盡一切我們想說的。

難以想像，如果Brunton 後來沒換上更像自己的聲音，她又是否能自在地說出想說的一切。

無障礙思維點亮靈感，AI 燃起生產力

我一直認為，無障礙設計所挖掘的，其實就是人類多樣性創造的想像力資源。

我們去到和自己有著截然不同生活體驗的人面前，聆聽更少被訴說的故事和體驗，創造出我們之前沒想像過，但卻能對更多人友好的的新生活方式。

Personal Voice 能讓失語的ALS 患者重新獲得自己的聲音;也可以幫助在經歷“刀片嗓”的我用自己的聲音去和其他人對話;甚至，我也很難避免會去想像，是否應該用這為自己“備份”聲音留給親近的人，以免哪天自己會突然離世。

而AI 技術，就是實現這些想像力生產力。

正如杜編輯之前說的，雖然不趕生成式AI 的熱鬧，但蘋果一直都把AI 用來提升用戶體驗—— 提升效率，保護隱私。

提升效率，在於提升本地執行的機器學習算法和模型。

除了Personal Voice 以外，蘋果這次預覽的另一個無障礙功能Point and Speak 也採用了本地設備端的機器學習技術。

未來，視障用戶在iPhone 自帶的放大器裡，結合Point and Speak 和旁白功能，就能憑自己手指把iPhone 變成“點讀機”—— 點到哪兒，讓iPhone 給你把文字讀到哪兒。

去年的“門檢測”功能道理也類似，讓設備端的機器學習幫視障用戶識別出門，並朗讀出門上面的信息和周圍的標識。

至於隱私，按喬布斯說的，就是“如果你需要他們(用戶)的數據，那就向他們(用戶)請求。每一次都如此。”

這在無障礙設計方面也尤其重要—— 因為這些功能設計起源就是服務被所謂“常規設計”忽略的人，常常都是更弱勢的群體，因此更有必要確保這些用戶的隱私不受侵害。

在這個語境下，我們也可開啟更多關於數據應用權和透明度的討論。

蘋果這次做Personal Voice 時，和幫助ALS 患者的非盈利機構Team Gleason Foundation 合作。

▲ Team Gleason Foundation CEO Blair Casey(右)

該機構的CEO Blair Casey 一直也在推動語音生成公司設定一套標準錄製素材設定，讓用戶能直接錄這部分素材，並體驗不同公司生成出來的語音效果，而不是像現在一樣“盲賭”。

同時，Casey 也主張語音生成公司把用戶錄製的語音素材數據提供給用戶(因為很多用戶可能錄製後就失語了)，以免他們未來想把這些數據用在其他技術上：

如果更好的技術出來了，你會不想試一試嗎?

如果你沒法拿回自己的語音素材，你就沒法去試。

AI 也許是我們時代最強的生產力。

但是，這力該怎麼使，也許以人為本的無障礙設計能給它不少指引。

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

WONGCW 網誌

記錄生活經驗與點滴

只需15分鐘iPhone 就能“複製”你的聲音

2023-06-08 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆