MEMS 麥克風如何在聲控設計中協助進行聲音偵測和關鍵字識別

作者:Majeed Ahmad

資料提供者:DigiKey 北美編輯群

隨著使用者越來越依賴語音使用者介面 (VUI),設計人員所面臨的挑戰是,實作出最為準確可靠且功耗及響應時間儘可能最低的 VUI,同時滿足更緊縮的空間和成本預算,以及不斷縮短的設計時程。為了幫助設計人員達到這些目標,一些廠商推出先進的微機電系統 (MEMS) 麥克風,其效能特性有助於 VUI 實現強大的喚醒詞偵測和語音命令處理。

MEMS 麥克風亦稱為矽基麥克風,已經普遍用於智慧型手機、智慧型手錶、無線耳機、汽車、智慧型電視及遙控器中。這主要歸功於個人語音助理應用的成功發展,如 Amazon 的 Alexa、Google 助理和 Apple 的 Siri。這類助理會偵聽特定的語音命令,並使用喚醒詞偵測演算法,從周圍聲音中擷取出命令。設計人員要掌握的訣竅就是,以經濟快速的方式實作此擷取功能,同時改善可靠性、準確度,以及環境噪音影響下的遠場語音擷取能力。

本文將討論影響 VUI 設計的 MEMS 麥克風關鍵特性,包括訊噪比 (SNR)、動態範圍、靈敏度和啟動時間。接著將介紹來自 TDK InvenSenseCUI DevicesSTMicroelectronicsVesper Technologies 的軟硬體解決方案,並展示如何將這些方案應用到聲控設計中。

MEMS 麥克風的運作方式

MEMS 麥克風通常由兩個元件裝入單一封裝中組成,包括將聲波轉換成電氣訊號的 MEMS 薄膜,以及作為阻抗轉換器的放大器。此放大器用於向音訊訊號鏈提供可用的類比輸出。如果需要數位輸出,則可在同一晶粒上整合第三個元件:類比數位轉換器 (ADC)。

MEMS 麥克風的基本結構示意圖圖 1:MEMS 麥克風的基本結構顯示其兩個關鍵建構模塊:MEMS 傳感器和 ASIC 中的訊號處理鏈。(圖片來源:CUI Devices)

除了可促成類比或數位輸出的小型麥克風外,MEMS 技術還在相位匹配和漂移方面提供出色效能。

MEMS 麥克風的關鍵特性

對於聲控元件的設計人員來說,MEMS 麥克風需注意的關鍵參數包括:

  • 訊噪比 (SNR):即參考訊號位準對麥克風輸出訊號雜訊位準的比值。SNR 量測值包括麥克風元件和整合到 MEMS 麥克風封裝中的任何其他元件 (如 IC) 產生的雜訊。
  • 靈敏度:針對聲壓位準 (SPL) 為 94 分貝 (dB) 或 1 Pa (壓力量測單位) 的 1 kHz 正弦波,回應的類比或數位輸出值。
  • 靈敏度容差:任何特定之個別麥克風的靈敏度範圍。嚴格的靈敏度容差,可在使用多個麥克風時確保一致性。
  • 動態範圍:麥克風呈線性響應時,最大和最小 SPL 之間差異值的度量。
  • 頻率響應:麥克風可以運作的音訊範圍。
  • 啟動時間:麥克風喚醒和輸出有效訊號以回應觸發事件的速度。

遙控器、電視和智慧型揚聲器等聲控裝置,通常是在高環境雜訊中運作。此外,在遠場操作情況下,使用者可能在裝置附近或遠離裝置 1 至 10 m。有鑑於這些情況,麥克風的動態範圍、靈敏度和 SNR 非常重要。若應用在在一個陣列中使用多個麥克風,靈敏度容差將是非常關鍵的特性。

雖然每個麥克風可能有規定的靈敏度位準,但細微的結構性變化可導致偏差。然而,由於 MEMS 麥克風使用嚴格控制的半導體製程開發,因此可提供嚴格匹配的靈敏度容差,滿足有效處理麥克風陣列訊號的需求 (圖 2)。

麥克風陣列示意圖圖 2:陣列使用的麥克風必須嚴格匹配,以達到所需的訊號處理效能。(圖片來源:CUI Devices)

由於越來越多支援 VUI 的設計採用麥克風陣列,嚴格的容差更顯重要。一個麥克風陣列使用兩個或多個麥克風來收集訊號,然後每個麥克風發出的訊號會單獨處理 (放大、延遲或過濾),之後再組合成最終的訊號。在麥克風陣列中,可以運用多個輸入來建立指向性響應 (亦稱為波束形成),以過濾掉不需要的雜訊,同時聚焦於來自所需方向的聲音。

在擷取整個關鍵字和確保關鍵字準確度時,MEMS 麥克風的啟動時間也很重要。為了節省電力,支援 VUI 的裝置會保持在低功率狀態;但如果麥克風響應喚醒觸發事件的啟動時間較短,則會影響 VUI 喚醒時間,進而影響喚醒詞偵測效能和功耗。

若依照這些特性來挑選麥克風,在高環境雜訊和/或使用者於遠方說話的情況下,後續的語音處理演算法則可在擷取使用者語音方面有更好的表現。

類比與數位 MEMS 麥克風介面的比較

正如前述的MEMS 麥克風運作方式,MEMS 麥克風的輸出可以是類比訊號,也可以是數位訊號。類比 MEMS 麥克風使用內部放大器,將麥克風的輸出訊號驅動到合理的高位準,但輸出阻抗值較低。這為音訊處理器提供簡單明瞭的介面。對於 VUI,設計人員需要確保相關的處理器具有板載 ADC,或者設計人員可以挑選 ADC 來滿足其特定的需求。只是後者會增加複雜性和成本。

若是數位 MEMS 麥克風,麥克風輸出可以直接施加在數位電路上,此類電路通常是微控制器或數位訊號處理器 (DSP)。適用於電氣雜訊環境的 VUI 設計傾向使用數位麥克風,因為數位輸出訊號的雜訊耐受能力比類比輸出訊號更強。

此外,數位 MEMS 麥克風通常採用脈衝密度調變 (PDM),將類比訊號電壓轉換成單一位元數位資料流,其中包含相應密度的邏輯高位準訊號。如此即可對無線電頻率干擾 (RFI) 和電磁干擾 (EMI) 提供進一步耐受性。此特性在大型麥克風陣列,以及聲控車用資訊娛樂系統等大型實體系統中尤其重要。

在靈敏度方面,類比麥克風會以 1 V 為基準的分貝值為單位 (dB/V) 測量聲壓位準。數位麥克風則通常是以滿量程的分貝值 (dB FS) 來量測靈敏度。

適用於 VUI 的 MEMS 麥克風解決方案

TDK InvenSense 推出的 ICS-40740 類比 MEMS 麥克風可在 VUI 應用中滿足許多關鍵的麥克風效能要求。此產品採用 4.00 x 3.00 x 1.20 mm 小型表面黏著封裝,內有一個 MEMS 麥克風元件、一個阻抗轉換器和一個差動輸出放大器。其供電電源為 1.5 V,運作時僅耗用 165 µA 的電流 (圖 3)。

InvenSense 的 ICS-40740 類比 MEMS 麥克風圖片圖 3:ICS-40740 類比 MEMS 麥克風在尺寸和功率預算上,均可滿足智慧型揚聲器和穿戴式裝置 (如抗噪頭戴式耳機) 的需求。(圖片來源:TDK InvenSense)

此產品的 SNR 為 70 dBA (A 加權分貝值),並且具備 108.5 dB 的寬廣動態範圍,即便在高環境雜訊和遠場條件下,仍可偵測到語音。此外,更擁有 80 Hz 至 20 kHz 的寬廣工作頻率響應範圍,線性響應為 132.5 dB,靈敏度容差為 ±1db,也因為此靈敏度,因此非常適合用於麥克風陣列。

ICS-40740 的覆蓋區小、耗電量低,適合用於以智慧型揚聲器和穿戴式裝置 (如抗噪耳機) 為基礎打造的物聯網 (IoT) 應用。

Vesper Technologies 的 VM3000 是全向性、底部收音孔數位壓電 MEMS 麥克風,具有不到 200 µs 的超快速啟動時間,能迅速喚醒,足以完整擷取喚醒詞 (圖 4)。

Vesper 的 VM3000 壓電數位 MEMS 麥克風圖片圖 4:VM3000 壓電數位 MEMS 麥克風具有不到 200 µs 的超快速啟動時間,能迅速喚醒,足以完整擷取喚醒詞。(圖片來源:Vesper Technologies)

當聲波撞擊壓電式 MEMS 麥克風的壓電懸臂樑時,會移動懸臂樑並產生電壓。超低功率比較器電路會感測此電壓,然後向音訊系統傳送喚醒訊號。

由於壓電式 MEMS 麥克風不需要偏壓,在喚醒詞命令啟動 VM3000 之前,此裝置幾乎不會消耗任何電力。此外,此裝置也可以保持在睡眠模式,只需消耗 0.35 µA 的電力,而且只需不到 100 µs 的時間就可切換到效能模式。超低功率睡眠模式搭配快速的模式切換功能,可進一步確保音訊裝置在喚醒時不會遺失任何資訊。

VM3000 數位麥克風幾乎可以與任何音訊晶片配對,其輸出具備多工處理特性,可在單一條數據線上處理雙重麥克風。此麥克風在 1 kHz 訊號下的 SNR 典型值為 63 dB,聲學過載點 (AOP) 為 122 dB SPL。

VM3000 的封裝尺寸為 3.5 x 2.65 x 1.3 mm,並且整合 ADC,可減少物料清單 (BOM) 項目。此外,VM3000 採用單層壓電晶體,因此不受靈敏度漂移的影響,並對灰塵、水、濕氣和其他環境顆粒具有防護作用。

VM3000 等壓電式 MEMS 麥克風不需要保護網或保護膜來覆蓋多個麥克風,因此也可簡化陣列的音訊設計。此類保護網或保護膜通常會裝在收音孔作為保護元件,以免產品受環境污染,但這會導致 MEMS 麥克風的靈敏度下降。

另外,由於 VM3000 可直接連接到編解碼器或其他處理器,因此相當容易實作 (圖 5)。主系統 (編解碼器等) 提供主時脈 (即 CLK),並以此指定數據線上的位元傳輸速率。

Vesper 的 VM3000 可直接連接到外部處理器示意圖圖 5:VM3000 可直接連接到外部處理器,還可以將兩個麥克風連接到單一條數據線。(圖片來源:Vesper Technologies)

值得注意的是,兩個麥克風可以透過單一條數據線連接。這是因為數據是在時脈 (CLK) 的正緣或負緣設定,具體由 L/R Select 引腳指定。當 L/R Select = GND (頂部),會在負緣設定數據;當 L/R Select = VDD (底部),會在正緣設定數據。然後,編解碼器或處理器可以根據與 CLK 邊緣對齊的情況來分離位元流。

入門:MEMS 麥克風評估套件

為了評估關鍵參數,並簡化採用 MEMS 麥克風的音訊系統設計,供應商提供參考板和軟體開發套件。例如,Vesper 就提供 S-VM3000-C 評估板,其中含有一個 VM3000 數位 MEMS 麥克風、一個 0.1 µF 的電源供應器旁路電容,以及一個邊緣連接器。

TDK InvenSense 也針對其 ICS-40740 類比 MEMS 感測器提供 EV_ICS-40740-FX 評估板,能讓設計人員快速有效地分析差動類比輸出麥克風的效能。除了 MEMS 麥克風之外,此開發套件就只有一個 0.1 µF 的電源旁路電容。

CUI Devices 同時提供類比和數位 MEMS 麥克風,並推出 DEVKIT-MEMS-001 開發套件,可用於原型設計和測試 (圖 6)。此評估板具有四個獨立的麥克風評估電路。

CUI Devices 的 DEVKIT-MEMS-001 開發板圖片圖 6:DEVKIT-MEMS-001 具有四個可拆卸的麥克風評估電路:兩個用於類比輸出,兩個用於數位輸出。(圖片來源:CUI Devices)

此評估板具有兩個類比 MEMS 麥克風:底部收音孔 CMM-2718AB-38308-TR 和頂部收音孔 CMM-2718AT-42308-TR;以及兩個數位 MEMS 麥克風:底部收音孔 CMM-4030DB-26354-TR 和頂部收音孔 CMM-4030DT-26354-TR。類比和數位輸出麥克風均提供頂部和底部收音孔選項,可提供設計靈活性。

兩個類比元件互相比較之下,CMM-2718AB-38308-TR 的靈敏度為 -38 dB,SNR 為 65 dBA。CM-2718AT-43208-TR 的靈敏度為 -42 dB,SNR 為 60 dBA。兩者的頻率範圍均為 100 Hz 至 10 kHz,且皆從一個 2 V 電軌耗用 80 µA 電力。

至於兩個數位麥克風,CMM-4030DB-26354-TR 的靈敏度為 -26 dB FS,SNR 為 64 dBA。CMM-4030DT-26354-TR 的靈敏度為 -26 dB FS,SNR 為 65 dBA。兩者都使用 1 位元 PDM 數據格式,在 100 Hz 到 10 kHz 的頻率範圍內運作,並從一個 2 V 電源耗用 0.54 mA 的電力。

結論

仔細研究 MEMS 麥克風 (包括類比和數位型),即可發現其系統層級的效能優勢,並瞭解其如何補足常開式語音介面的設計。最新的 MEMS 麥克風採用創新技術延長電池續航力、改善遠場音訊品質,並且能耐受環境污染物。另一個主要的設計考量是提高關鍵字準確度,而這與 SNR、靈敏度容差和啟動時間等參數息息相關。最新的元件已因應上述所有考量,因此更加適合 VUI 設計。

DigiKey logo

聲明:各作者及/或論壇參與者於本網站所發表之意見、理念和觀點,概不反映 DigiKey 的意見、理念和觀點,亦非 DigiKey 的正式原則。

關於作者

Image of Majeed Ahmad

Majeed Ahmad

Majeed Ahmad 是在 B2B 技術媒體領域具有超過 20 年資深經驗的電子工程師。他曾任 EE Times Asia (EE Times 的同門刊物) 的主編。

Majeed 完成六本電子領域的著作。他也經常在電子設計刊物發表文章,包括 All About Circuits、Electronic Products 以及 Embedded Computing Design。

關於出版者

DigiKey 北美編輯群