MEMS 麥克風如何在聲控設計中協助進行聲音偵測和關鍵字識別
資料提供者:DigiKey 北美編輯群
2020-04-23
隨著使用者越來越依賴語音使用者介面 (VUI),設計人員所面臨的挑戰是,實作出最為準確可靠且功耗及響應時間儘可能最低的 VUI,同時滿足更緊縮的空間和成本預算,以及不斷縮短的設計時程。為了幫助設計人員達到這些目標,一些廠商推出先進的微機電系統 (MEMS) 麥克風,其效能特性有助於 VUI 實現強大的喚醒詞偵測和語音命令處理。
MEMS 麥克風亦稱為矽基麥克風,已經普遍用於智慧型手機、智慧型手錶、無線耳機、汽車、智慧型電視及遙控器中。這主要歸功於個人語音助理應用的成功發展,如 Amazon 的 Alexa、Google 助理和 Apple 的 Siri。這類助理會偵聽特定的語音命令,並使用喚醒詞偵測演算法,從周圍聲音中擷取出命令。設計人員要掌握的訣竅就是,以經濟快速的方式實作此擷取功能,同時改善可靠性、準確度,以及環境噪音影響下的遠場語音擷取能力。
本文將討論影響 VUI 設計的 MEMS 麥克風關鍵特性,包括訊噪比 (SNR)、動態範圍、靈敏度和啟動時間。接著將介紹來自 TDK InvenSense、CUI Devices、STMicroelectronics 和 Vesper Technologies 的軟硬體解決方案,並展示如何將這些方案應用到聲控設計中。
MEMS 麥克風的運作方式
MEMS 麥克風通常由兩個元件裝入單一封裝中組成,包括將聲波轉換成電氣訊號的 MEMS 薄膜,以及作為阻抗轉換器的放大器。此放大器用於向音訊訊號鏈提供可用的類比輸出。如果需要數位輸出,則可在同一晶粒上整合第三個元件:類比數位轉換器 (ADC)。
圖 1:MEMS 麥克風的基本結構顯示其兩個關鍵建構模塊:MEMS 傳感器和 ASIC 中的訊號處理鏈。(圖片來源:CUI Devices)
除了可促成類比或數位輸出的小型麥克風外,MEMS 技術還在相位匹配和漂移方面提供出色效能。
MEMS 麥克風的關鍵特性
對於聲控元件的設計人員來說,MEMS 麥克風需注意的關鍵參數包括:
- 訊噪比 (SNR):即參考訊號位準對麥克風輸出訊號雜訊位準的比值。SNR 量測值包括麥克風元件和整合到 MEMS 麥克風封裝中的任何其他元件 (如 IC) 產生的雜訊。
- 靈敏度:針對聲壓位準 (SPL) 為 94 分貝 (dB) 或 1 Pa (壓力量測單位) 的 1 kHz 正弦波,回應的類比或數位輸出值。
- 靈敏度容差:任何特定之個別麥克風的靈敏度範圍。嚴格的靈敏度容差,可在使用多個麥克風時確保一致性。
- 動態範圍:麥克風呈線性響應時,最大和最小 SPL 之間差異值的度量。
- 頻率響應:麥克風可以運作的音訊範圍。
- 啟動時間:麥克風喚醒和輸出有效訊號以回應觸發事件的速度。
遙控器、電視和智慧型揚聲器等聲控裝置,通常是在高環境雜訊中運作。此外,在遠場操作情況下,使用者可能在裝置附近或遠離裝置 1 至 10 m。有鑑於這些情況,麥克風的動態範圍、靈敏度和 SNR 非常重要。若應用在在一個陣列中使用多個麥克風,靈敏度容差將是非常關鍵的特性。
雖然每個麥克風可能有規定的靈敏度位準,但細微的結構性變化可導致偏差。然而,由於 MEMS 麥克風使用嚴格控制的半導體製程開發,因此可提供嚴格匹配的靈敏度容差,滿足有效處理麥克風陣列訊號的需求 (圖 2)。
圖 2:陣列使用的麥克風必須嚴格匹配,以達到所需的訊號處理效能。(圖片來源:CUI Devices)
由於越來越多支援 VUI 的設計採用麥克風陣列,嚴格的容差更顯重要。一個麥克風陣列使用兩個或多個麥克風來收集訊號,然後每個麥克風發出的訊號會單獨處理 (放大、延遲或過濾),之後再組合成最終的訊號。在麥克風陣列中,可以運用多個輸入來建立指向性響應 (亦稱為波束形成),以過濾掉不需要的雜訊,同時聚焦於來自所需方向的聲音。
在擷取整個關鍵字和確保關鍵字準確度時,MEMS 麥克風的啟動時間也很重要。為了節省電力,支援 VUI 的裝置會保持在低功率狀態;但如果麥克風響應喚醒觸發事件的啟動時間較短,則會影響 VUI 喚醒時間,進而影響喚醒詞偵測效能和功耗。
若依照這些特性來挑選麥克風,在高環境雜訊和/或使用者於遠方說話的情況下,後續的語音處理演算法則可在擷取使用者語音方面有更好的表現。
類比與數位 MEMS 麥克風介面的比較
正如前述的MEMS 麥克風運作方式,MEMS 麥克風的輸出可以是類比訊號,也可以是數位訊號。類比 MEMS 麥克風使用內部放大器,將麥克風的輸出訊號驅動到合理的高位準,但輸出阻抗值較低。這為音訊處理器提供簡單明瞭的介面。對於 VUI,設計人員需要確保相關的處理器具有板載 ADC,或者設計人員可以挑選 ADC 來滿足其特定的需求。只是後者會增加複雜性和成本。
若是數位 MEMS 麥克風,麥克風輸出可以直接施加在數位電路上,此類電路通常是微控制器或數位訊號處理器 (DSP)。適用於電氣雜訊環境的 VUI 設計傾向使用數位麥克風,因為數位輸出訊號的雜訊耐受能力比類比輸出訊號更強。
此外,數位 MEMS 麥克風通常採用脈衝密度調變 (PDM),將類比訊號電壓轉換成單一位元數位資料流,其中包含相應密度的邏輯高位準訊號。如此即可對無線電頻率干擾 (RFI) 和電磁干擾 (EMI) 提供進一步耐受性。此特性在大型麥克風陣列,以及聲控車用資訊娛樂系統等大型實體系統中尤其重要。
在靈敏度方面,類比麥克風會以 1 V 為基準的分貝值為單位 (dB/V) 測量聲壓位準。數位麥克風則通常是以滿量程的分貝值 (dB FS) 來量測靈敏度。
適用於 VUI 的 MEMS 麥克風解決方案
TDK InvenSense 推出的 ICS-40740 類比 MEMS 麥克風可在 VUI 應用中滿足許多關鍵的麥克風效能要求。此產品採用 4.00 x 3.00 x 1.20 mm 小型表面黏著封裝,內有一個 MEMS 麥克風元件、一個阻抗轉換器和一個差動輸出放大器。其供電電源為 1.5 V,運作時僅耗用 165 µA 的電流 (圖 3)。
圖 3:ICS-40740 類比 MEMS 麥克風在尺寸和功率預算上,均可滿足智慧型揚聲器和穿戴式裝置 (如抗噪頭戴式耳機) 的需求。(圖片來源:TDK InvenSense)
此產品的 SNR 為 70 dBA (A 加權分貝值),並且具備 108.5 dB 的寬廣動態範圍,即便在高環境雜訊和遠場條件下,仍可偵測到語音。此外,更擁有 80 Hz 至 20 kHz 的寬廣工作頻率響應範圍,線性響應為 132.5 dB,靈敏度容差為 ±1db,也因為此靈敏度,因此非常適合用於麥克風陣列。
ICS-40740 的覆蓋區小、耗電量低,適合用於以智慧型揚聲器和穿戴式裝置 (如抗噪耳機) 為基礎打造的物聯網 (IoT) 應用。
Vesper Technologies 的 VM3000 是全向性、底部收音孔數位壓電 MEMS 麥克風,具有不到 200 µs 的超快速啟動時間,能迅速喚醒,足以完整擷取喚醒詞 (圖 4)。
圖 4:VM3000 壓電數位 MEMS 麥克風具有不到 200 µs 的超快速啟動時間,能迅速喚醒,足以完整擷取喚醒詞。(圖片來源:Vesper Technologies)
當聲波撞擊壓電式 MEMS 麥克風的壓電懸臂樑時,會移動懸臂樑並產生電壓。超低功率比較器電路會感測此電壓,然後向音訊系統傳送喚醒訊號。
由於壓電式 MEMS 麥克風不需要偏壓,在喚醒詞命令啟動 VM3000 之前,此裝置幾乎不會消耗任何電力。此外,此裝置也可以保持在睡眠模式,只需消耗 0.35 µA 的電力,而且只需不到 100 µs 的時間就可切換到效能模式。超低功率睡眠模式搭配快速的模式切換功能,可進一步確保音訊裝置在喚醒時不會遺失任何資訊。
VM3000 數位麥克風幾乎可以與任何音訊晶片配對,其輸出具備多工處理特性,可在單一條數據線上處理雙重麥克風。此麥克風在 1 kHz 訊號下的 SNR 典型值為 63 dB,聲學過載點 (AOP) 為 122 dB SPL。
VM3000 的封裝尺寸為 3.5 x 2.65 x 1.3 mm,並且整合 ADC,可減少物料清單 (BOM) 項目。此外,VM3000 採用單層壓電晶體,因此不受靈敏度漂移的影響,並對灰塵、水、濕氣和其他環境顆粒具有防護作用。
VM3000 等壓電式 MEMS 麥克風不需要保護網或保護膜來覆蓋多個麥克風,因此也可簡化陣列的音訊設計。此類保護網或保護膜通常會裝在收音孔作為保護元件,以免產品受環境污染,但這會導致 MEMS 麥克風的靈敏度下降。
另外,由於 VM3000 可直接連接到編解碼器或其他處理器,因此相當容易實作 (圖 5)。主系統 (編解碼器等) 提供主時脈 (即 CLK),並以此指定數據線上的位元傳輸速率。
圖 5:VM3000 可直接連接到外部處理器,還可以將兩個麥克風連接到單一條數據線。(圖片來源:Vesper Technologies)
值得注意的是,兩個麥克風可以透過單一條數據線連接。這是因為數據是在時脈 (CLK) 的正緣或負緣設定,具體由 L/R Select 引腳指定。當 L/R Select = GND (頂部),會在負緣設定數據;當 L/R Select = VDD (底部),會在正緣設定數據。然後,編解碼器或處理器可以根據與 CLK 邊緣對齊的情況來分離位元流。
入門:MEMS 麥克風評估套件
為了評估關鍵參數,並簡化採用 MEMS 麥克風的音訊系統設計,供應商提供參考板和軟體開發套件。例如,Vesper 就提供 S-VM3000-C 評估板,其中含有一個 VM3000 數位 MEMS 麥克風、一個 0.1 µF 的電源供應器旁路電容,以及一個邊緣連接器。
TDK InvenSense 也針對其 ICS-40740 類比 MEMS 感測器提供 EV_ICS-40740-FX 評估板,能讓設計人員快速有效地分析差動類比輸出麥克風的效能。除了 MEMS 麥克風之外,此開發套件就只有一個 0.1 µF 的電源旁路電容。
CUI Devices 同時提供類比和數位 MEMS 麥克風,並推出 DEVKIT-MEMS-001 開發套件,可用於原型設計和測試 (圖 6)。此評估板具有四個獨立的麥克風評估電路。
圖 6:DEVKIT-MEMS-001 具有四個可拆卸的麥克風評估電路:兩個用於類比輸出,兩個用於數位輸出。(圖片來源:CUI Devices)
此評估板具有兩個類比 MEMS 麥克風:底部收音孔 CMM-2718AB-38308-TR 和頂部收音孔 CMM-2718AT-42308-TR;以及兩個數位 MEMS 麥克風:底部收音孔 CMM-4030DB-26354-TR 和頂部收音孔 CMM-4030DT-26354-TR。類比和數位輸出麥克風均提供頂部和底部收音孔選項,可提供設計靈活性。
兩個類比元件互相比較之下,CMM-2718AB-38308-TR 的靈敏度為 -38 dB,SNR 為 65 dBA。CM-2718AT-43208-TR 的靈敏度為 -42 dB,SNR 為 60 dBA。兩者的頻率範圍均為 100 Hz 至 10 kHz,且皆從一個 2 V 電軌耗用 80 µA 電力。
至於兩個數位麥克風,CMM-4030DB-26354-TR 的靈敏度為 -26 dB FS,SNR 為 64 dBA。CMM-4030DT-26354-TR 的靈敏度為 -26 dB FS,SNR 為 65 dBA。兩者都使用 1 位元 PDM 數據格式,在 100 Hz 到 10 kHz 的頻率範圍內運作,並從一個 2 V 電源耗用 0.54 mA 的電力。
結論
仔細研究 MEMS 麥克風 (包括類比和數位型),即可發現其系統層級的效能優勢,並瞭解其如何補足常開式語音介面的設計。最新的 MEMS 麥克風採用創新技術延長電池續航力、改善遠場音訊品質,並且能耐受環境污染物。另一個主要的設計考量是提高關鍵字準確度,而這與 SNR、靈敏度容差和啟動時間等參數息息相關。最新的元件已因應上述所有考量,因此更加適合 VUI 設計。

聲明:各作者及/或論壇參與者於本網站所發表之意見、理念和觀點,概不反映 DigiKey 的意見、理念和觀點,亦非 DigiKey 的正式原則。