將語音助理整合到可攜式揚聲器和智慧型耳機

作者:Majeed Ahmad

資料提供者:DigiKey 北美編輯群

在虛擬助理 (例如 Amazon 的 Alexa、Apple 的 Siri、Microsoft 的 Cortana 與 Google 助理) 的帶動下,許多智慧型語音啟動式裝置紛紛問世,包括與智慧型手機及其他行動裝置配對的藍牙耳機、家庭與辦公室自動化環境的智慧型揚聲器,以至於電視等消費性電子產品。利用語音啟動式服務來控制聽音樂、打電話和執行生物辨識感測器等功能的情況越來越常見,但設計人員發現,要在嘈雜和高電氣雜訊的環境中進行語音的辨識、擷取和無線傳輸相當有難度。

這需要完備的抗噪技術和同樣完備的無線介面,以套裝解決方案的形式呈現,讓開發人員實驗並迅速加以應用,以節省時間與成本。

本文將介紹幾個語音擷取解決方案 (分別來自 Cirrus LogicXMOSQualcomm 公司),能協助設計人員快速開始新一代的語音啟動式行動裝置和耳機設計。

語音擷取解決方案

Apple 和 Microsoft 等公司已經開始在智慧型手機及電腦上實作其語音解決方案,Amazon 則先用 Echo 智慧型揚聲器展開 Alexa 的推廣,接著再進一步拓展到更多裝置。

但 Echo 內建七個麥克風,這對小型手持式裝置來說太多了,其空間、成本和功率都非常有限。儘管如此,Cirrus Logic 等晶片製造商加入行列後,推出更簡單的設計解決方案,能讓設計人員將 Alexa 整合到多種智慧型裝置與其他形式的音訊系統中。

以智慧家庭應用為例,就可將 Alexa 語音服務 (AVS) 加入到語音控制式照明與家電、免手持可攜式揚聲器,以及連網揚聲器中。在此需要使用語音擷取解決方案來抑制噪音和其他真實世界裡的干擾,提高語音互動的準確度和可靠性,藉此提升使用者體驗。

在吵雜的環境中以及播放音樂時,需要有高準確度的喚醒詞觸發和命令詮釋,才能實作語音助理功能。要達到優異的使用者體驗,回音消除也很重要;這能讓使用者中斷響亮的音樂和 Alexa 回應,以便準確回應新的請求。

Cirrus Logic 針對 AVS 提供 598-2471-KIT 語音擷取開發套件。若要試驗一下 AVS 設計,這是很好的入門工具。此套件的用途是將 Alexa 功能整合到備有聲音微調式音訊處理軟硬體元件的小型音訊裝置中 (圖 1)。此套件以 Raspberry Pi 3 平台為基礎,內含一個參考板,其採用 Cirrus Logic 的 CS47L24-CWZR 智慧編解碼器、數位 MEMS 麥克風,以及 SoundClear® 演算法,可進行語音控制、噪音抑制和回音消除。

Cirrus Logic 的 598-2471-KIT 語音擷取開發套件圖片圖 1:Cirrus Logic 針對 AVS 功能裝置推出 598-2471-KIT 語音擷取開發套件,能讓語音擷取板 (右上) 連接到 Raspberry Pi 3 (左上),可透過纜線連接,或當作 HAT 放置在 Raspberry Pi 3 上方。(圖片來源:Cirrus Logic)

語音擷取建構模塊

語音擷取作業會從 CS47L24 語音處理器開始進行,其結合雙核心 300 MMAC DSP 和音訊中樞編解碼器,可因應多種高能效的固定功能音訊處理模塊 (圖 2)。可編程 DSP 核心支援一系列的進階音訊處理功能,例如多重麥克風噪音抑制、回音消除 (AEC) 和語音辨識功能。

Cirrus Logic 的 CS47L24 語音處理器示意圖圖 2:套件的語音擷取作業會從 CS47L24 語音處理器開始進行,其結合雙核心 300 MMAC DSP 和音訊中樞編解碼器,可因應多種高能效的固定功能音訊處理模塊。(圖片來源:Cirrus Logic)

CS47L24 智慧編解碼器採用晶片上數位類比轉換器 (DAC) 與 2 W 單聲道揚聲器驅動器,能達到高傳真度的音訊播放。此外,還支援自動取樣率偵測,有助於廣頻與窄頻語音通話轉移。CS47L24 處理器提供三種數位音訊介面,每個介面都支援多種標準音訊取樣率與序列介面格式。

CS47L24 以 1.8 V 和 1.2 V 外部電源電壓驅動;其功率、時脈和輸出驅動器架構,都是針對在語音、音樂和待機模式下達到低功率而設計。CS47L24 還另外提供 MICVDD 輸入,可支援超過 1.8 V 的麥克風作業。

數位 MEMS 麥克風 IC 以及相關的 SoundClear 演算法可進行語音控制、噪音抑制和回音消除,能為輸入端提供優質音訊,並能降低麥克風功耗。此 IC 支援兩種運作模式,即低功率模式和高效能模式,前者適合用於全時啟動語音活動偵測,後者則針對高傳真度錄製進行最佳化。模式是由採用的時脈頻率所決定。

麥克風含有類比數位轉換器 (ADC),能透過脈衝密度調變 (PDM) 編碼來輸出單一位元資料流,並有效率地以立體聲及陣列配置來連接多個麥克風。對設計人員來說,多重麥克風 IC 非常重要,因為可以對這些 IC 進行最佳化,透過波束成形技術提供主動的雜訊抑制和回音消除,以達到最清晰的全雙工通訊與音訊擷取。

MEMS 麥克風也有助於在背景雜訊和聲音過載點之間,達到寬廣的動態範圍 (100 dB 是很好的起點)。這樣無論是在安靜還是吵雜的環境中,都能達到高傳真度的錄音品質。例如,若是古典樂或語音等低度音訊內容,就可在錄製時毫無背景嘶嘶聲。同時,還能確保麥克風不會受到搖滾樂演唱會及風聲等非常吵雜的聲音影響而失真。

為了讓硬體發揮最大效用,SoundClear 演算法會利用一些處理功能來消除噪音,例如噪音抑制、自動語音辨識 (ASR) Enhance™ 和回音消除等。

遠場語音擷取

另一個語音擷取解決方案是 XMOS 針對 Amazon AVS 推出的 XK-VF3500-L33-AVS VocalFusion™ 立體聲開發套件。此套件著重於遠場使用案例,例如智慧型電視、條形音箱、機上盒和數位媒體轉接器。這些應用要求為「全室型」語音介面解決方案提供立體聲 AEC 支援,以便使用者透過語音命令打開電視和調整檯燈。

遠場語音擷取應用要求 AEC 參考訊號必須經過準確校正,且必須仔細調整延遲時間。如此一來,設計人員便可確定,其設計的遠場語音配件必能聽到並且準確擷取使用者的語音命令,無論音量和周圍的環境如何。

VocalFusion 套件屬於線性麥克風陣列解決方案,且遠場效能已獲得 Amazon 認可。此套件能讓設計人員將 Alexa 整合到房間角落型裝置中,例如智慧型電視、照明和家電。此套件是以 XVF3500-FB167-C 語音處理器為基礎打造,可提供雙通道全雙工 AEC,在複雜的聲音環境中支援語音擷取能力 (圖 3)。具有 DSP 能力的 AEC 功能有助於進行去混響、自動增益控制和噪音抑制,確保即使處於吵雜環境,也能達到明確的語音互動。

XMOS 的 XVF3500 語音處理器示意圖圖 3:XVF3500 語音處理器利用調適性波束成形技術,來定位所需的語音來源,然後有效地將語音命令與立體聲音頻隔離開來,同時抑制背景噪音和室內回音。(圖片來源:XMOS)

接下來,四麥克風 VocalFusion 套件會使用 Infineon 的 XENSIV™ IM69D130V01XTSA1 MEMS 麥克風,利用此麥克風提供原始音訊資料,以便在 XVF3500 語音處理器上執行音訊訊號處理演算法。IM69D130 麥克風的設計可發揮遠場和耳語的語音拾取效能,並能在最高達 128 dB 的聲壓位準 (SPL) 下,達到低於 1% 的總諧波失真 (THD)。

語音擷取設計提供「打斷」功能,能讓使用者中斷或暫停正在播放音樂的裝置,因此可開創新的商機,在立體聲家庭娛樂和壁掛式視聽設備中納入 Alexa 設計 (圖 4)。

語音擷取處理器和麥克風的示意圖 (按此放大)圖 4:語音擷取處理器和麥克風搭配使用,建構遠場 Alexa 應用的語音介面。(圖片來源:Infineon Technologies)

Skyworth 的人工智慧 (AI) 功能智慧型電視就搭載 XVF3500 語音處理器,是個實際的實作範例。此全時啟動智慧型電視可喚醒並回應語音命令,具有最遠達 5 m 的 180° 全方位聲源識別功能。

智慧型耳機設計

另一個設計面向是耳塞和耳機。這些產品與智慧型手機及平板電腦搭配使用時,越來越需要整合語音助理功能,以取得行事曆管理、智慧型居家控制、串流音樂和天氣更新功能。與智慧型揚聲器一樣,藍牙耳機也需要持續改進,以在吵雜的環境中傳輸高品質的音訊。

Qualcomm 針對 AVS 和 Google 助理平台推出的智慧型耳機公版設計與開發套件屬於主要的建構模塊,能讓開發人員著手進行聲控耳機和聽戴式設計的開發。參考板可幫助開發人員評估語音助理,設計套件則能讓設計工程師轉移到完整的開發環境。

以 Qualcomm 針對 Google 助理推出的 DK-QCC5124-GAHS-A-0 智慧型耳機開發套件為例。對於裝有 Google 助理應用程式的 Android 手機,此套件可支援以按鈕方式啟動 Google 語音助理。此產品以 Qualcomm 的藍牙音訊晶片組為基礎打造,其中使用 Qualcomm 清晰語音擷取 (cVc™) 降噪技術,能透過噪音抑制和其他音訊增強功能來降低周遭的聲音,進而增強發話者的語音。

cVc 6.0 技術藉由一組雜訊抑制演算法,來遮掩封包遺失和位元錯誤,進而達到清晰的通話效果。Qualcomm 的 aptX™HD 是另一項值得注意的技術,可促進低延遲,達到穩定的音訊串流。這是一種高解析度藍牙音訊編解碼器,能提高訊噪比並降低背景噪音。

Qualcomm 針對 Amazon AVS 推出的 DK-QCC5124-AVSHS-A-0 智慧型耳機公版設計,也支援 cVc 6.0 雜訊抑制和 aptX HD 無線音訊技術。在裝有 Alexa 應用程式的手機上,此產品可支援以按鈕方式來啟動 Alexa。

此平台以 Qualcomm 的 QCC5124 藍牙收發器晶片組為基礎打造,也支援 Alexa Mobile Accessory (AMA) 套件,能讓使用者輕鬆將藍牙與 Android 及 iOS 裝置上的 Alexa Mobile 應用程式進行連線 (圖 5)。AMA 套件有助於將來自耳機的語音命令透過手機傳達至 Alexa,由 Amazon AVS 應付自然語言處理的重擔。

Qualcomm 針對 Amazon AVS 推出的 DK-QCC5124-AVSHS-A-0 開發板示意圖圖 5:用於 Amazon AVS 的 DK-QCC5124-AVSHS-A-0 開發板具有智慧型耳機設計的關鍵建構模塊。(圖片來源:Qualcomm)

這代表兩件事:首先,開發人員不需要為了 Alexa 整合作業而檢查大量程式碼。其次,除了藍牙連接能力之外,開發人員無需增加任何通訊硬體。

在較高層級方面,AMA 套件能讓 Amazon AVS 透過語音配件 (如智慧型耳機) 與 Alexa Mobile 應用程式之間的控制機制,促進語音配件和 Alexa 服務之間的通訊。

開發人員可以在評估後使用開放式機板開發套件。但若要對開放式機板開發套件進行編程,需要使用 Transaction Bridge (DK-TRBI200-CE684-1)。套件未隨附此產品,但可另行購買。

結論

對於希望在下個設計中整合語音助理的設計人員而言,矽供應商已經在喚醒詞辨識、抗噪和低功率全時啟動功能方面,處理許多困難的部分。設計人員可以使用公版設計和開發套件來開發語音擷取解決方案,以用於一系列智慧型語音控制服務,包括智慧型耳機和智慧型揚聲器,以至於完整的家庭語音控制。

 
DigiKey logo

聲明:各作者及/或論壇參與者於本網站所發表之意見、理念和觀點,概不反映 DigiKey 的意見、理念和觀點,亦非 DigiKey 的正式原則。

關於作者

Image of Majeed Ahmad

Majeed Ahmad

Majeed Ahmad 是在 B2B 技術媒體領域具有超過 20 年資深經驗的電子工程師。他曾任 EE Times Asia (EE Times 的同門刊物) 的主編。

Majeed 完成六本電子領域的著作。他也經常在電子設計刊物發表文章,包括 All About Circuits、Electronic Products 以及 Embedded Computing Design。

關於出版者

DigiKey 北美編輯群