關於AirPods語音喚醒你想知道的都在這裡
據產業分析師預測,2019年蘋果AirPods出貨量將超過5000億台,2021年更是有望破億!這款從發布被人嘲笑,到後來成功引領市場的產品,早已成為各家追赶超越的對象。耳機行業近幾十年來沒有發生重大變革,TWS耳機的出現讓整個市場未來將有數百億美元的成長空間。
AirPods已經成為蘋果增長最快的配件產品,在手機銷量整體滑坡的現在,每一個手機廠商都在找自己的突破點,如何重新佔領市場先機成為了尤為重要的關鍵。
AirPods這種TWS耳機不僅使音頻市場重獲生機,也成為了蘋果這樣的手機廠商的救命稻草,由AirPods引出的:語音交互、骨聲紋識別支付、加入eSIM獨立使用等已成為TWS耳機下一個戰場。
TWS耳機被稱之為2019消費電子市場最大亮點,智能語音識別的加入將TWS耳機市場蛋糕持續擴大,更是吸引了五大玩家入局:
運營商入局:聯通、移動,讓耳機產品獨立使用成為可能;
互聯網巨頭搶占入口:亞馬遜、谷歌、微軟、百度;
電商與支付加入:微信、支付寶,骨聲紋識別、安全支付,由手機支付到骨聲紋支付的變革。
手機廠商持續加碼:蘋果、華為、小米、三星、索尼、OPPO、榮耀、一加、魅族,均已推出自家多款耳機產品。
內容平台緊跟其後:QQ音樂、網易音樂、喜馬拉雅FM,為TWS耳機提供源源不斷的生命力。
市場很久沒有這麼熱鬧,彷彿回到了智能手機爆發初期的繁榮階段,接下來八仙過海,各取所需,各顯神通。
上一輪的智能音箱爭奪戰中,我們看到以蘋果、谷歌、亞馬遜、百度、阿里、騰訊、小米等為代表的先頭部隊,這些巨頭的加入,讓中小企業只能選擇站隊,投靠到各自的陣營,以獲取內容、流量、補貼等賴以生存的資源。
通過我愛音頻網分析,智能耳機的風口比音箱將要來得更猛,更觸手可及,今天我們一起來探討如何抓住智能耳機的風口。
一、TWS耳機飛速發展,蘋果靠Airpods領跑市場
IDC最近發布的2019年第一季度全球智能手機市場的調研報告。數據顯示,全球智能手機出貨量為3.108 億台,同比下降6.6%。其中排在全球出貨量前六位的廠商也大部分處於同比下降的狀態,Apple甚至下降超過了30%。
與手機市場的遇冷相比,TWS藍牙耳機則是以一種不可思議的速度在發展。根據Counterpoint的數據顯示,在2018年第四季度中,AirPods的出貨量占到了市場的60%,達1250萬台。
據Above Avalon報導,最近三年假日AirPods在谷歌上的峰值搜索興趣,索引為100(代表最大搜索興趣)。2016年的峰值為10,2017年為20,2018年為100,同比增長了500%,這樣的增長速度實在令人吃驚。
由此可見TWS耳機的市場容量的巨大,音頻和手機廠商也都紛紛加入這個領域,勢必也要從這塊巨大的蛋糕上狠狠切下一塊。
而在2019年的3月20日,Apple推出全新的TWS真無線藍牙耳機——Airpods2,這次升級,主控芯片換成了全新的H1,而功能上除了支持了無線充電之外,還有一個非常重要的一點,那就是語音喚醒。
二、TWS耳機語音喚醒方案實現的細節
Airpods的成功源於其優質的體驗,而Airpods2代此次升級了語音喚醒,語音喚醒是智能語音非常重要的一環,手機上面早就大量支持比如iPhone的Hey Siri、小米9的小愛同學、 samsung galaxy S10的Hi Bixby等等。
而在耳機端,大量的耳機依然使用的是觸摸或者按鍵喚醒的方式來激活語音助手。物理觸摸或者點按的方式與語音激活,兩者體驗的差距當然是不言而喻的。
Apple率先支持了語音喚醒,那麼其他廠商是否能夠跟上,又要如何實現。又有哪些技術細節需要去考量?
首先TWS 耳機本地喚醒詞的應用由語音辨識及誤喚醒處理2 個部份組成:
1、喚醒詞語音辯識(本地語音命令亦同)
喚醒詞辯識需由前端信號處理把用戶聲音與背景聲音的信噪比拉高以利在不同應用場景讓喚醒詞識得到最高喚醒率,我們列出從麥克風采集到用戶的聲音信息數據開始,至喚醒詞識別結束。
依序完成喚醒詞識別所需要的算法排列如下:
MIC→(LPSD 或VAD)→(BF)→(NS 或NR)→(KWD)
算法名稱及參考供應商
LPSD 或VAD, LPSD(Low Power Sound Detection), VAD(Voice Active Detection),參考供應商DSPC,Seneory;
BF, BF(Beam Forming) 參考供應商DSPC;
NS 或NR, NS(Noise Suppression, Noise Reduction) 參考供應商DSPC;
KWD, KWD(Key Word Detection) 參考供應商Sensory, AI Speech, Nuance, Cyberon。
眼下市場上真正能提供出足夠算力,使用單一藍牙芯片就能集成上述算法並低功耗做到本地喚醒詞功能的有高通的:QCC512x 及QCC302x。
絡達、瑞昱、恆玄等芯片產品建議搭配QuickLogic S3、Ambiq Apollo2、 Apollo3 或樓氏IA-610、IA-611 智能麥克風芯片以達到在高算力低功耗要求下,滿足本地喚醒詞的功能。
所有的算法或芯片都必須以合法的方式取得使用權力及各種必要技術支持,這些供應商內Quicklogic 的EOS S3 是最早與宇恆互動OVVP 算法做全面系統整合應用於實際客戶產品上的,S3芯片內部還帶有891 個可編程的Logic Cell,設計非常獨特,可以滿足特殊硬件接口的需要。
2、喚醒詞或語音命令誤喚醒誤觸發處理
誤喚醒或誤觸發的定義:
TWS 耳機用戶,非用戶本人說出喚醒詞或語音命令後,語音助手不回應或語音命令不動作,自己說出喚醒詞後,卻能喚醒或運行戴耳機用戶的語音助手或語音命令。
市場上幾個不同方案的說明:
2-1、基本處理
一般在喚醒詞算法群內,BF 可以起到一定減低誤喚醒率的作用,但與聲源的方向有關,在雙麥克風的間隔距離夠遠,產品結構聲學架構調試恰當狀況下DSPC 的BF 算法可以做到3db~6db。
這部份細節可以請教DSPC 代理商聆感智能科技,他們有很專業的聲學專家及實驗室可以給需要的TWS 耳機業者充分的聲學相關設計服務。
2-2、使用vpu 骨傳導傳感器
參考HUAWEI華為FreeBuds2 Pro 應用vpu(Voice Peak Up)。
vpu 嚴格說起來是使用一種壓電材料技術(因無法從datasheet內得知相關信息,只能從類似產品推論)的單軸加速度傳感器(Voice Pick Up Sensor is a high performance accelerometer 引自Sonion Datasheet Description ),主要是用來感測聲帶運動使用,是Sonion(聲揚)公司的產品。
以-25dbv/g 這條輸出強度線來看,最大帶寬可以從100hz 到8khz 完整的含蓋了人的聲譜範圍,整段頻譜的響應並不平坦(特別是3khz~5khz 剛好在人聲的高頻段),需要後段用加了高頻負反饋的放大器整平。
這個傳感器還有個優點就是低功耗(VDD=1.8V 時只要55ua 電流),由於輸出的是模擬信號,同時電平不足,拿來做VAD 時若A/D 採樣的分辨率夠,有機會可以不通過運放先做個VAD 讓傳感器Always On 感測到人聲後才打開麥克風,這樣可以達到降功耗的效果,但因vpu 是模擬輸出需要搭配芯片內的A/D 轉換器及算法,這還得看芯片的功耗換麥克風的功耗是不是劃的來。
這類單軸骨傳導傳加速度感器在產品結構內的放置點,需要考慮用戶使用過程中鬆脫後導致vpu 輸出聲信息強度滑落的補償問題。
HUAWEI華為FreeBuds2 pro需要支持骨聲紋支付,所以要較好的保證取到能做聲紋辯識用的聲音,在vpu 保證不了足夠的動態範圍條件下,聲帶寬範圍的放大器是免不了的,這樣在功耗,器件數量及組裝工藝,測試難度上都會有相當的增加。
加了高頻負反饋放大器後拉升了低頻加大了動態範圍,同時也把人體運動低頻信號又給拉了上來,vpu 自帶天然的高通濾波效果又變差了,後面還又要加上高通濾波算法,過濾掉因人體運動引起傳感器機械瞬態變化引發的多次諧波干擾,另外在通話,音樂應用場景下喇叭振動的串擾問題還得要處理解決。
所以從我愛音頻網拆解的HUAWEI華為FreeBuds2 pro 板上證實確實有運放,並且還加了個DA14195 來處理各種算法及A/D 的接口,這款產品使用喚醒詞的感度大約76db(在OVVP 感度規格區間內)。
而喚醒詞誤喚醒處理可以達到19db~22db(在OVVP 的語音強隔離護罩規格區間內)也是挺不錯的,使用加速度骨傳導傳感器感測聲帶振動與只使用麥克風感測用戶說話聲音的差異是,在說喚醒詞或語音命令時肯定,聲量要大一些(差約7db 左右),這大廠設計出來的產品還是很有代表性。
另外這個產品也有幾條本地語音命令,科技感十足外還充分發揮了vpu 的優勢,跟蘋果不同的是用戶說話要稍微“大聲一點”,但誤喚醒處理又比蘋果強很多,且沒有聲源方向限制,任何方向都可以。
但使用vpu來感測用戶說話聲音,輔助完成安全度需求較高的支付功能,不知道無“清音”的語音聲譜結構缺陷是不是比較嚴重的影響了用戶體驗。
使用骨傳導傳感器,未做清音補償狀況下會讓,Recode 聽成code,Strange 聽成change,HUAWEI 聽成AWEI,,河聽成了鵝,,福聽成了無,錢聽成了言。
聲結構的改變會讓人工智能語音識別產生嚴重錯誤,知乎上看到很多關於這方面的投訴,用戶很刻意的大聲說都沒辦法完成支付或聲紋學習,似乎感覺這個問題解決的並不好,當然也可能Freebuds2 pro 內的字詞識別引擎處理的不好或某種不良所導致。
從產業角度看HUAWEI起了個好頭領先蘋果超過數月,將TWS耳機智能化腳步推快了幾步,並在耳機產品數十年關注音質好壞,噪聲水平之外,注入了智能語音應用的亮點與活水,教育了群眾,活絡了產業,讓產業有了再擴張及引動新浪潮的可能。
2-3、使用MEMS 加速度計骨傳導傳感器(上行降噪)
Apple Airpods,使用多重手段(LPSD、BF、骨導降噪)在背了“不改變用戶使用習慣”的大鍋條件下,喚醒詞誤喚醒處里約有7db~9db 的效果(用戶背後0.5 米環境噪聲45db 與僅做BF及NS 處裡的喚醒詞開發闆對比)。
AirPods支持喚醒詞(本地,雲端或本地+手機),所有的語音命令都在雲端,在雲端的優點是詞彙的彈性無限,只要語義近似全都能用,識別精度更高,抗噪能力較強,佔用本地芯片的資源較少,缺點是無法聯網或聯網品質不好時使用體驗急速劣化甚至無法使用,響應速度較慢。
市場上能用於上行降噪的加速度傳感器除了使用壓電材料的vpu(模擬輸出)外,ST 意法半導體使用MEMS 技術的LIS25BA(TDM 接口)是市場上唯一的產品,LIS25BA 是一個全數字產品,內含A/D 及TDM 接口,相關信息可以向ST意法半導體索取。
雖然市場上有傳感器可用,但受限於權利保護覆蓋面強大嚴謹的蘋果專利及擔負改變上行聲音數據聲結構所造成風險的技術難度,眼下市場上還沒有可流通的專用降噪算法,DSPC,Sensory ,高通這些知名算法大拿都還沒有明顯動靜,但一些國內MEMS麥克風的廠家及一些國內算法公司已隱隱傳出動靜。
下面將對骨傳導上行降噪算法的難度提出一些看法,因技術能力與知識範圍有限,謬誤之處還請包涵指教。這裡簡單的談下骨傳導與麥克風融合的上行降噪技術。
在進入主題前首先為大家介紹一篇來自肖新華先生在2009 年提出的研究生畢業論文,讓大家對後面提及的”TWS耳機語音算法技術難度”有個衡量基礎:
《國防科學技術大學研究生院工程碩士學位論文:面向骨傳導語音消噪算法及硬件實現技術研究》
資料來源、論文作者:肖新華
這是一篇以非負稀疏編碼NNSC(Non-Negative Sparse Coding)為消噪核心主體並帶上一個使用AMDF (Average Magnitude Difference Function)技術的VAD 算法配合消除風噪,槍砲聲,摩擦聲。
這並非蘋果公司使用的降噪技術,但可以讓大家對骨傳導降噪或VAD 做個初步了解,這篇論文以人為可懂度衡量對象,用骨傳導傳感器感測的聲帶振動為主聲源,一個傳統麥克風做噪音拾取噪聲源,通過算法完成降噪處裡。
但現在可懂度的衡量對象除了人還有機器(語音識別算法),而機器對於可懂度的要求要比人高很多,因為機器對語音識別的整體智能還遠不如人。
這裡整理了一張對照表,以蘋果的TWS 耳機做為參照標準,比較使用2 種完全不同性質的聲傳感器所感測到的聲音信息數據在處理完降噪問題後要等於1種聲傳感器所感測到的聲音信息數據,將可能將要面臨到多少問題及挑戰。
下面依據上表把問題做文字條列敘述式的整理:
1)雙麥上行降噪算法技術的終極目標:只留下用戶說話的聲音,最大程度消去或壓制,非用戶
本人聲帶運動所發出的所有聲音,但必須讓降噪處理後的上行聲音信息數據與使用傳統麥克
風拾取到的用戶原始說話聲音信息數據完全相等。
2)算法使用了加速度骨傳導傳感,改變了過去由空氣介質傳導聲能量,推動某種材料做成的
膜體轉換成電能,改成了軟骨肌肉皮膚介質來傳導聲音,但算法仍用到2 個使用空氣介質傳導
的麥克風來補償加速度骨傳導傳感器感測不到清音的缺陷,空氣傳導穩定度高變數少,並經多
年應用對其了解較為透徹,而通過軟骨肌肉皮膚介質來傳導聲音,除了不穩定變數多另外相關
應用還在積壘過程,全球積壘最多應用經驗的非蘋果公司莫屬。
3)下面我們列了幾個算法需要完成的等式:
-1、加速度骨傳導傳感器+雙麥克風=雙麥克風
-2、(軟骨肌肉皮膚汗液,油漬,粉塵介質傳遞變數)+空氣溫濕度介質傳遞變數=空氣溫濕
度介質傳遞變數
-3、單獨濁音+(濁音+清音)=濁音+清音
-4、產品結構及耳廓結構嚴重影響+產品結構影響=產品結構影響
-5、人體運動嚴重影響+人體運動不影響=人體運動不影響
-6、人為算法融合拼接補償2 種不同材料,不同傳導介質結構,不同響應相位嚴遲,低頻調
制=嚴絲合縫混然一體
4)對於麥克風上行信息數據來說,這些是信息數據是用來聽的,可存儲的,可傳遞信息的,是具有廣闊延申再應用的聲音信息數據,並且需滿足現存於市場上千百個聲音應用軟硬件的需求。
項目決策者必需慎之又慎,規劃項目時慢2 步決定,然後系統性的觀察謹慎的測試為上。
蘋果公司在2012 年以前啟動研發並於2012 年9 月28 日提交13/631,716 號專利,2014 年4 月3日提出WO 2014/051969 A1 專利,2016 年9 月8 日Airpods 上市,2019 年3 月20 日Airpods二代上市。
這麼大的龍頭企業漫漫8年的歲月積壘,別小看這個技術,更何況現在國內市場上這些可能的算法供應者,都不可能具備蘋果公司這樣長期的積累,要實現彎道超車還有待觀察。
從這裡可以合理推測,蘋果公司在W1 或H1 芯片內這個上行降噪技術可能是用到最大算力的程序,其中H1 芯片估計還保留了一定的算力資源給未來做下行環境降噪用。
現在市場上的TWS 耳機藍牙芯片產品,在低功耗的要求下,需要滿足這個算法的算力需求,高通最高階QCC512x 的DSP在次功耗的限制下,要實現也需要持續努力。
5)加速度骨傳導傳感器加入各種了機械瞬態變化及環境應力老化的物理特徵,很多聲應用信息技術與算法模型,需要更系統性的重新摸索探究,而其中因補償清音及拼接融合2個不同傳感器感測到的聲音信息數據,導致聲諧波組成的結構變化,對現存雲端語音語義識別算法的可懂性能造成多大影響?需要仔細測試評估,人耳不易聽出來的變化但對語音識別算法來說確可能致命。
6)在Airpods 1代上市的過去幾年裏DSPC,Sensory 這些大咖算法供應商並沒有下一步動作。這是一個有很大算法需求的高報酬市場,這些供應商的保持沉默,這背後原因值得去細思探討。
7)算法需要解決相位失真,總諧波失真壓制,信噪比保證,非用戶語音的噪聲判斷轉換壓制比(純濁音,純清音),算法延遲,骨導聲與麥克風聲在不同情緒,音量條件下融合自適應或權重變化曲線,人體運動信息低頻調製及多次諧波抑制,清濁音互換響應狀態,降噪處理後的聲諧波結構變化,耳機鬆脫後音量頻響包絡補償。
8)算法要解決加速度骨傳導傳感器感測到的濁音聲帶運動與雙麥克風在不同情緒,音量條件下所感測到的濁音+清音2 個不同聲音間的實時同步,重疊,拼接,融合處裡所產生的諧波失真修補,平滑,濾波或壓制。
9)上行降噪最重要的應用場景就是在通話場景,使用骨傳導與麥克風融合降噪技術在大音量通話場景下就像把擴音器的麥克風貼在喇叭上,相移量足不足夠可能引起嚴重的串擾,所以不能只盯在降噪上。
對於器件密度極高的TWS 耳機來說,使用骨傳導傳感器來感測完整人聲的應用,被自身加噪才是最大問題,同時還需要用麥克風聲信息數據來補償清音的聲音缺陷信息數據。
在通話場景時關掉降噪算法或降低融合權重,做個偽骨傳導降噪或者用戶能拿到廠家給的有蘋果50%降噪效果功能的算法產品,卻需承擔100%的侵權風險可能!
喇叭造成的串擾圖
10)為穩定的取得最完整的用戶聲帶運動信息數據,如何最佳化設計耳機結構,找尋加速度骨傳導傳感器所在的位置及適當使用導聲材料,單軸的vpu在位置,導聲材料,產品結構,運動鬆脫,耳廓結構,生產工藝問題上影響遠大於3 軸的LIS25BA,這是所以蘋果用了3 軸加速度計的可能原因。
11)利用不同人發出不同音量大小的/ s /,/ sh /,/ f /,/ he /……等純清音,單由雙麥克風檢拾出來的聲音,對比融合骨傳導聲音信息及麥克風聲音信息降噪算法後的聲音,驗證融合算法自適應權重調整的處理效果,這裡是一個兩難的選擇,因為清音處理的越好降噪效果就要打折,降噪效果越好清音就越聽不清楚。
若因而導致喚醒詞,語音命令或云端語音辯識服務器,手機語音輸入法,翻譯,語音轉文字APP的辯識效果打了大折扣,在解決這個問題前,去使用到Amazon,Google, Microsoft,百度,阿里,騰訊,科大訊飛語音助手雲端語音辯識的產品就要面臨比較大的風險。
骨傳導上行降噪在形成實際產品前有很多細微的研發生產測試支節參數需要仔細琢磨調試,耗時極長,大家可以從iFixit 拆解Airpods 從其內大量使用黏著劑固定,就能看出為了滿足測試和維持性能指標,其組裝工藝的巨大難度,一個帶骨傳導上行降噪的產品,在相關技術確定成熟了的條件下,從外觀規劃開始到出貨花個1 年估計算快的了,或許遠遠不夠。
2-4、使用ST LIS2DW12(SPI 接口)加速度計傳感器+OVVP 算法(骨聲紋用戶說話識別)
傳感器選型:OVVP 算法因為對噪聲密度,分辨率,帶寬,ODR 及傳感器內部高低通濾波器有一定的限制及要求,眼下需指定搭配性價比最高的ST LIS2DW12 傳感器。
OVVP 算法與手機聲紋識別比較說明:
這是我們客戶曾經提過的一個代表性的問題,使用貴司的OVVP 算法看起來跟使用手機上的聲紋識別效果類似,為何還要多此一舉呢,下面我們做個對比:
1)聲紋識別需要針對特定字詞做學習訓練OVVP 不用;
2)聲紋識別只能對用戶訓練過的字詞做局部保護,OVVP 則是對每個字詞做全局性保護,
3)聲紋識別的安全級別遠高於OVVP;
4)聲紋識別易受用戶環境,情緒,聲啞病痛影響,OVVP 不會;
5)聲紋識別只能對用戶訓練過的字詞產生語音強隔離效果,OVVP 則對每個字詞都能強隔離;
6)OVVP 算法是使用用戶既有的加速度傳感器與聲紋識別一樣不需外加硬件成本;
7)OVVP 算法可同時並存雙擊,計步,心率……等算法,聲紋識別則無關;
8)聲紋識別沒有伴聲記號,OVVP 的伴聲記號可以用來做2 次研發延展應用;
利用伴聲記號與手機語音應用APP,強聯結提升用戶體驗:
伴聲記號是經由加速度傳感器感測到用戶說話時的聲帶運動,通過OVVP 算法處理後,隨著用戶說話的字詞產生的信息數據,最大的特徵是只有戴耳機的用戶“說話的時候”才會產生這個信息,戴耳機用戶旁邊的人說話聲音小於語音強隔離護罩時,是無法產生這個信息數據的,我們客戶產品語音強隔離護罩,能做到50cm 100db 的程度。
伴聲記號用法:
伴聲記號(下圖),是與麥克風聲音數據一同通過藍牙傳送到手機端,通過2 者同步後相互參照,可以知道用戶何時說話及說了什麼話。
翻譯軟件很多人用過,特別是谷歌翻譯,相當好用, 翻譯軟件選擇好翻譯的語種後,說話前要先按下屏幕上的麥克風按鍵,然後說一句話,說完後停下等待翻成另一個語言,然後從手機喇叭播出,這個按下屏幕上的麥克風按鍵可以用伴聲記號取代。
只要用戶說話就自動壓下屏幕上的麥克風按鍵,停止說話就翻譯成另一個語言,通過喇叭播放出來,不用去按麥克風按鍵的翻譯軟件是不是更自然方便。
而帶著伴聲記號的用戶說話聲可以讓語音辯識算法,除了肯定是近場拾取到用戶自己說話的聲音之外,快速得到聲音的起點,停點這3 個重要信息可以有效優化語音識別算法的應用體驗。
這類語音應用軟件除了翻譯軟件外還有很多,如,微信語音短信息,錄音機,語音輸入法,語音助手,語言學習,手機駕駛模式,語音轉文字……等。
而與伴聲記號同時存在的聲音強隔離護罩,更是讓用戶在多人高密度及較吵雜環境,語音識別算法不用兼顧遠場拾音問題,可以得到相互最低影響的效果。當然若能再有骨傳導上行降噪能力,肯定是美事一樁,完美的不要不要的了。
伴聲記號可以通過藍牙送到手機端,搭配麥克風信息數據,用在語音助手,自動錄音,自動翻譯,自動發送微信語音信息,語音輸入法,駕駛模式,遊戲……等各類語音相關應用。
OVVP 應用到的相關技術:
OVVP(Own Voice Vibration Peak-up)技術在應用上尊循一個最大的原則,就是不改變任何原有的聲音處理路徑上的信息數據參數結構,因為這些是多年積累下來的經驗與技術結晶,任何的改動都有機會引發不可收拾的風險,碰觸到眾多人的利益,所以我們另闢一個新路徑以輔助性角色為客戶的TWS 耳機在人工智能語音應用區塊,以最完整專利配套零風險的為客戶創造價值。
下方是在TWS 耳機內OVVP 的運作框架圖:
OVVP 算法技術細節簡述
1)算法涉及卡爾曼濾波,FFT 極窄帶聲譜面積分割計算,曲線擬合,為了不驚動藍牙芯片原廠能讓算法直接用於藍牙芯片應用層。通過泛化,降維,查表,不斷優化簡省整體延遲時間,使用內存資源,功耗及算力,從算法做出功能到給客戶做測試, 1年多的時間才逐漸成熟,更別說骨傳導上行降噪了。
2)加速度傳感器感測到 感測到的X,Y,Z三軸聲帶運動信息數據,亦涉及X,Y,Z 三軸信息亦涉及互相關及歸一化。
3)在最少影響極窄帶區間頻響的條件下,如何有效的將加速度傳感器感測到的聲帶運動信息數據與用戶自體運動所帶起的多次諧波及喇叭串擾間進行分辨與壓制。
三、語音算法各家公司專利保護重點分析
蘋果專利的完整程度及保護範圍級為完美, WO2014051969A1,201380046944.6 這2個專利把使用加速度傳感器本地喚醒詞與上行降噪應用保護的滴水不漏,從帶算法芯片,方案,模塊,產品到銷售整個鏈條都被包含進去。
知名上市公司需要非常慎重的對待,對提供使用傳感器做骨傳導降噪或VAD 應用的一定需要查詢清楚是否有足夠保護的專利或請對方提出具備閃躲蘋果專利的具體對策,簽署不侵權保證書,同時給出承擔被訴後損失的承諾,項目負責人簡單的問方案商有沒有專利問題。
另外對於使用vpu 做VAD 當然就需要查看確認華為的201811199154.2 專利,要特別提醒的是蘋果的2個專利一樣覆蓋到了vpu 基本上耳機用任何加速度骨傳導傳感器的上行降噪或VAD 都被包含在內。
當然,用MEMS 加速度傳感器做VAD 宇恆公司的200910190129.2,201810437831.3 也是特別需要去關注的。
專利侵權的判斷中許多人員(特別是工程師或技術人員)會容易遇到認知誤區,認為使用的技術比權利要求上的技術特徵多,方法不完全相同,就不侵權。
其實侵權的判定是只要專利證書有效合法,滿足權力要求內所有技術特徵或技術框架,不管再往上疊加多少技術,不管你知道這個技術或應用技巧再久,專利沒有被無效之前,侵權都是成立的。
另外技術特徵或技術框架的判定有相同(完全一樣)及等同(相似),“等同”這裡允許一定的模糊空間,若有爭議則可以再從專利說明書內去補充或其他行業信息內去舉證。
之所以以前行業內專利侵權訴訟不多或經常不了了之,是因為舉證成本,審理時間相對於產業變化速度及回報效益不成比例。
但現在整體智識產權維權大環境有了結構性的改變,就算不能短時間內在法院取得勝訴判決,在電商渠道卻可以很快的斬斷侵權者的利益,商譽及市佔率的大量丟失。
特別是TWS 耳機AirPods目前已經成為蘋果公司營收最重要的上昇機會,該公司應對侵權會實施更加嚴苛的方式。
上市公司或知名企業的項目負責人需要慎重,以免對任職企業造成巨大傷害,而解決專利侵權的辦法只有自己提早佈局創新,或合法取得授權及購買擁權產品,別無他法。
下方列出近一年國內專利保護較重大的變化:
1、2019 年1 月1 日開始實施的電商法(關聯法條41 條~45 條)
2、38 個部門和單位聯合印發《關於對知識產權(專利)領域嚴重失信主體開展聯合懲戒的
合作備忘錄》
3、深圳經濟特區知識產權保護條例(經市第六屆人民代表大會常務委員會第二十九次會議於
2018 年12 月27 日通過,並將於2019 年3 月1 日實施其中關聯法條19~27,43~46)
新的仲裁單位與訴訟法院有:
3-1、2018 年12 月25 日成立的中國(深圳)知識產權保護中心
3-2、2018 年7 月28 日在琶洲環球貿易中心成立的廣州互聯網法院
3-3、2018 年9 月09 日北京互聯網法院掛牌成立
四、專利侵權分析
1、蘋果公司專利201380046944.6
使用專利摘要,專利說明書及個人音頻設備唯一獨權內的技術特徵做分析,專利內用了一個模糊的字眼,骨傳導拾取換能器,在說明書[0005]條尾端也提到了加速計,這個專利適用的對像是TWS 耳機成品製造商,只要用到骨傳導拾取換能器(包含了MEMS 加速度計及vpu),並用到專利中的20 條權利要求中的某條權利,基本上就會導致侵權。
其中很關鍵的地方是,使用“軟材料”在殼內填充改善傳感器取得聲帶振動所產生聲波的效果,這點要請聲學研發人員特別關注,這是搞聲學的人最常用的手段,而下圖表示TWS 耳機廠家可能拿骨傳導拾取換能器來做的6 種功能,都在蘋果專利的保護範圍內。
蘋果公司專利WO2014051969A1
使用專利摘要及2 個獨權及權利要求2.5 內的技術特徵做分析,這個專利用了37 個權利要求主要保護VAD,噪聲抑制及清濁音互融的應用,基本上只要用了加速度計(MEMS ,vpu 都算)及麥克風就滿足權利要求的技術特徵,其中權利要求5 把麥克風陣列給補充了進去。
所以看到這幾個權利要可以很明確的說,不管骨傳導上行降噪算法的提供者用的是MEMS 或vpu 加速度傳感器加上麥克風(不管是1 個或多個)都是侵權。
當然,若是不用麥克風或加速度傳感器其中任何一種傳感器,就有機會閃躲掉這個專利,更好的辦法是擁有比蘋果更早的專利做保護,這個專利強的地方是判斷侵權非常簡單,不用找專業鑑定單位就可以做出清楚的侵權判斷。
目前推測蘋果公司有2 個方法可以選擇:
方法1:
拉出電商法,通過各電商平台的維權渠道投訴,就可以很快的讓侵權產品下架,判斷方法是,先看產品規格或功能介紹有沒有VAD,噪聲抑制功能若有,則再看產品內有沒有加速度計(MEMS 或vpu),若有,就是侵權了。
上電商平台投訴渠道買個侵權產品拆解拍照寫好侵權對比書,上傳,15 天內被訴商家提不出反投訴或相應不侵權證據,侵權產品就等著下架吧,省錢有效。
方法2:
直接從市場取證,鑑定,上法院起訴,交壓金,封所倉庫。
知名品牌廠商如:HUAWEI華為,VIVO,OPPO,聯想,小米客戶群體與蘋果重疊面積較大,蘋果的更為重視。
關於華強北的市場,因為客群與蘋果不重疊,被投訴主體太小,可以起到幫蘋果培養未來潛力客戶。
這項專利很嚴格,需要市場上的同行謹慎規避。
2、華為公司專利201811199154.2
使用專利摘要及1 個方法獨權14 及權利要求15 內的技術特徵做分析,華為這個專利可以用圖窮匕見來形容,前面系統獨權1 及權利要求2~13 基本上好閃好躲又多屬芯片內的處理或算法軟件,不易取證鑑定,但是方法獨權14 及權利要求15 同樣的非常嚴格,容易涉及侵權。
把重點突顯在使用骨振動傳感器來控制拾音設備開始拾音,這個權利要求滿足TWS 耳機行業內極為關鍵的低功耗要求,華為在專利說明書[0047]條裡提到Sonion 公司的骨傳導傳感器,就是vpu 了。
所以華為這個專利侵不侵權很好判,首先確定是否有vpu,然後用實體耳機通過量電流的方式確認,說話前後的電流差別及比對麥克風的拾音時機即可。
所以想利用vpu 做VAD 來降低功耗的方案,估計不好實現,另外這個專利的權利要求2~13 條其內每條都是算法或功能性軟件,華為將這些算法或功能軟件逐條拆解成權利要求,也方便他日後使用專利維權打擊對手。
3、宇恆公司專利200910190129.2
使用專利摘要及2 個獨權內的技術特徵做分析,使用加速度傳感器,感測聲帶,雙擊或計步運動,通過算法處裡計算後,查找(判斷,對比)是否落在預設閥值區間,得出用戶“何時說話”判斷結果,協助決定語音助手鍵碼或何時說話判斷結果(命令字)是否要通過藍牙傳送到手機。
只要依據加速度傳感器獲取用戶聲帶運動的VAD,做為“是否傳送出語音助手鍵碼的參考或何時說話判斷結果”,不管是否還帶有上行降噪功能都算是侵權,這個專利的申請時間落在2009 年,是個能夠攻防一體的專利。
宇恆公司專利201010224769.3,201010224780.X,201010224803.7,201010230464.3,
201010243048.7,201120374763.4,包含進去了加速度,陀螺儀,地磁儀,氣壓計多種慣性傳感器感測聲音的應用,申請時間都落在2010 年~2011 年,能在傳感器VAD 應用上,起到絕佳的防禦作用。
有興趣做骨傳導上行降噪算法的團隊或公司,宇恆互動有興趣將專利提供出來,一起研究如何用這些專利組合找出方法,至少先在中國突破蘋果專利封鎖,增加談判籌碼,降低自己及未來客戶的風險。
宇恆公司專利201810437831.3使用專利摘要及2 個獨權與權利要求16 內的技術特徵做分析,使用1 個或2 個,單軸或多軸,模擬或數字加速度傳感器來感測聲帶振動和/或人體面部皮膚肌肉及肢體運動,產生傳感器VAD 的控制信號,不管用的是MEMS 或vpu 加速度傳感器及是否還帶有上行降噪功能都算是侵權。
使用MEMS 或vpu 加速度計做VAD 或上行降噪應用,先把專利風險考慮完,再看這些應用是否滿足功能指標要求,系統性充分全面的測試過再用聲結構的改變是非常難實現的。
海內外知名人工智能語音應用巨頭,在對OVVP算法了解過程中,非常著重要求專利說明,顯然這個問題對這類企業來說影響很大。
我愛音頻網總結
隨著旗艦手機逐漸取消3.5mm接口以便實現輕薄化的趨勢,續航、傳輸、音質、價格等痛點得到了改善,對整個TWS耳機市場的放量帶來了巨大的成長空間。
根據GFK數據,2016年無線耳機出貨量僅918萬台,市場規模不足20億元。到2018年無線耳機出貨量同比增加41%,市場規模將達54億美金。到了2020年TWS無線耳機的市場規模將達到110億美金。
智研諮詢預計2018-2020年全球TWS耳機將實現高速增長,出貨量分別達到6500萬台,1億台和1.5億台,年復合增速達51.9%。預計隨著無線耳機音質,功能性持續改善及與人工智能語音APP應用深度擴展聯結,未來無線耳機的滲透率有望繼續提升。
這樣巨大的銷量增長空間,讓每一個想要入局有實力的廠商都有可能抓住商機,風口起飛。
TWS耳機智能語音重要供應商聯繫信息:
宇恆互動科技OVVP 算法羅富強13560775701
QuickLogic(美商) EOS S3 芯片尚進13905175302
Ambiq(美商) Apollo2, Apollo3 芯片李小樂13266661214
聆感智能聲學設計,算法服務王澄18666215917
益登科技(ST 代理商) LIS2DW12, LIS25BA 李美麗18665833995
樓氏電子(美商) IA-610, IA-611 智麥王奇峰13923890601
高通通信技術有限公司QCC302x, QCC512x
感謝宇恆互動提供資料來源