語音清晰度總被忽略？ 淺談通話抗噪音技術

大明：喂！小明，你在哪兒呀？
小明：喂，我在酒樓呀！

大明：喂！喂！聽不到你說什麼呀，你那邊十分嘈！
小明：喂，我都說在酒樓呀！

大明：什麼，聽不太清楚呀，你在走廊？
小明：我去安靜些的地方再打電話給你吧？

大明：啊！喂！聽不到⋯

這個簡單的對話，其實已不算是一段有效對話，相信如果有用耳機聽音樂的朋友，也曾經使用耳機配置的麥克風作通訊對話，在多年前，不少耳機已配備通話功能的麥克風，以方便用家作電話通話。從有線耳機，到無線耳機、掛頸式藍牙耳機到今天的 T.W.S.（真無線立體聲耳機），對於通話質素的表現卻各有千秋、各有優劣，如果你也是耳機用家，你總會嘗試過某些耳機的通話質素何其糟糕，也有某些耳機份外清晰。

早期，很多有線耳機配備的麥克風，其位置很多也剛好較近嘴巴，有些人更把麥克風拿在嘴邊，一邊行一邊講，雖然沒有什麼軟件、算法的協助，語音收音方面還算可以。若是一些無線頭戴式耳機，佩戴位置固定，麥克風位置往往離嘴巴較遠，收音時會把語音和其他環境噪音也同時收進來，噪音往往蓋過主音，導致通話質素下降，對方幾乎不能清楚聽到語音內容. 尤其近年最為火熱和流行的 T.W.S.，耳機細小，收音咪和嘴巴更有一定的距離，即使 T.W.S. 耳機能做到不錯的通話音色，但收音表現仍不如掛頸式藍牙耳機或有線耳機。從音頻技術面來說，隨著各家產品所搭載的通話降噪技術及調校方式之不同，而形成差異化，產品工程師不得不想盡方法去破解和不斷改良通話質素，從而提升產品競爭力。

音頻技術日新月異，在多年前耳機通話功能已經開始加入一些抗噪音的機制和運算法，去協助提高通話的質素和清晰度。早期主要是一些傳統運算法，起初是單麥克風運作，效果卻未如理想，之後出現雙麥克風語音抗噪，原理是在耳機內加入額外的麥克風作為噪音訊號的參考，通過兩顆麥克風所收到聲音訊號的特性包括：能量大小、相位的不同，訊號的相似性和差異性的計算，去達到抑制噪音的效果。通常其中一個麥克風配置在耳機上方，用作外部環境聲音的擷取，另一個麥克風則是在耳機底部的指向性麥克風，主要負責接收主語音的角色，麥克風接收到音訊後，再透過演算法去除環境背景聲、增強人聲清晰度。

大明：喂！小明，你在哪兒呀？小明：喂，我在酒樓呀！
大明：喂！喂！聽不到你說什麼呀，你那邊十分嘈！小明：喂，我都說在酒樓呀！
大明：什麼，聽不太清楚呀，你在走廊？小明：我去安靜些的地方再打電話給你吧？
大明：啊！喂！聽不到⋯
這個簡單的對話，其實已不算是一段有效對話，相信如果有用耳機聽音樂的朋友，也曾經使用耳機配置的麥克風作通訊對話，在多年前，不少耳機已配備通話功能的麥克風，以方便用家作電話通話。從有線耳機，到無線耳機、掛頸式藍牙耳機到今天的 T.W.S.（真無線立體聲耳機），對於通話質素的表現卻各有千秋、各有優劣，如果你也是耳機用家，你總會嘗試過某些耳機的通話質素何其糟糕，也有某些耳機份外清晰。
早期，很多有線耳機配備的麥克風，其位置很多也剛好較近嘴巴，有些人更把麥克風拿在嘴邊，一邊行一邊講，雖然沒有什麼軟件、算法的協助，語音收音方面還算可以。若是一些無線頭戴式耳機，佩戴位置固定，麥克風位置往往離嘴巴較遠，收音時會把語音和其他環境噪音也同時收進來，噪音往往蓋過主音，導致通話質素下降，對方幾乎不能清楚聽到語音內容. 尤其近年最為火熱和流行的 T.W.S.，耳機細小，收音咪和嘴巴更有一定的距離，即使 T.W.S. 耳機能做到不錯的通話音色，但收音表現仍不如掛頸式藍牙耳機或有線耳機。從音頻技術面來說，隨著各家產品所搭載的通話降噪技術及調校方式之不同，而形成差異化，產品工程師不得不想盡方法去破解和不斷改良通話質素，從而提升產品競爭力。
音頻技術日新月異，在多年前耳機通話功能已經開始加入一些抗噪音的機制和運算法，去協助提高通話的質素和清晰度。早期主要是一些傳統運算法，起初是單麥克風運作，效果卻未如理想，之後出現雙麥克風語音抗噪，原理是在耳機內加入額外的麥克風作為噪音訊號的參考，通過兩顆麥克風所收到聲音訊號的特性包括：能量大小、相位的不同，訊號的相似性和差異性的計算，去達到抑制噪音的效果。通常其中一個麥克風配置在耳機上方，用作外部環境聲音的擷取，另一個麥克風則是在耳機底部的指向性麥克風，主要負責接收主語音的角色，麥克風接收到音訊後，再透過演算法去除環境背景聲、增強人聲清晰度。

在音頻市場上，這些把外界噪音衰減而提升通話質素的稱為 ENC（Environment Noise Cancellation）通話抗噪，較為人所共知的可能是高通的 CVC（Clear Voice Capture）通話功能，用以提高主語音的清晰度，而近年不少芯片和運算法公司也有提供不同通話抗噪技術，一般都採用了麥克風陣列波束導向（beam forming）的原理去找出主收音的方向和增益調節去把通話清晰度提升，在語音不失真的狀況下，可過濾約 90% 的環境背景聲音，並降低 30dB 以上的噪音，讓用家能夠在各種吵雜的環境中還能進行清晰通話。

近年非常流行的 T.W.S. 對通話抗噪的要求頗高，不同的方案商和算法公司不斷尋求創新，如蘋果的 AirPods Pro 更採用了骨傳的方式引入對應的運算法去達到超凡的效果，骨傳技術還在語音識辨和語音喚醒方面帶來更有效和更優化的應用功能。

採用骨傳方式，耳機需加入 G sensor（加速度傳感器），用以偵測發音時語音的震動特徵再經由算法進行分析和比較麥克風訊號的共同特性去完成抗噪的功能，效果比純以麥克風收音更佳。在語音喚醒方面，都以 G sensor 去偵測用家的語音震動，可以確保語音的震動源來自耳機用家本身而非外間訊號導致誤判的好處，還可令語音識別之準確性提高。

若要成就更佳的通話抗噪效果，耳機需要配備兩個或以上的麥克風或傳感器，在空間有限的 T.W.S.（真無線立體聲耳機）產品上，也是一大挑戰，所以近來不少 T.W.S. 也改用 MEMS microphone（微機電麥克風）來取代傳統的 Electret Condenser Microphone（電容性麥克風），主要是因為 MEMS microphone 的體積較少，而且有較好的靈敏度一致性和抗干擾能力，在多重麥克風陣列的產品應用和生產上，也能帶來很多好處。除了 T.W.S. 之外，MEMS 麥克風現在也被廣泛運用在汽車、PC、NB、智能音箱和手機等消費性產品中。

以下是 ECM 麥克風和 MEMS 麥克風的簡單對比，高下立見。

評估面向	ECM 麥克風	MEMS 麥克風
產品尺寸：	較大	較小
生產 / 封裝：	手工焊接	表面黏著技術（SMT）
可承受溫度：	攝氏 85 度以下	攝氏 200 度以上
防震度：	較差	較佳
防電磁干擾度：	較差	較佳
防射頻干擾度：	較差	較佳
價格：	較低	較高

隨著芯片技術的進步，近來 DSP 和 MCU 的運算能力提升不少，同時也造就了人所共知的「人工智能」，透過收集大數據，再讓對應的芯片進行機器學習，從而達到更佳和更全面的功能效果。

在音頻技術應用上，人工智能抗噪音（AI noise cancellation）近來也廣泛應用於T.W.S. 耳機產品上，而聲音分離技術是現時人工智能抗噪和助聽器較常用的原理和方法，它主要採用了一種聽覺場景分析（CASA，Computating Auditory Scene Analysis）的技術，並以人腦對聲音的一種特性，經由 Deep Neural Network（DNN）深度神經網絡在芯片上去實現。

有否聽過有一種聲學心理叫「雞尾酒效應」？就是我們的大腦可以下意識地拆解進入聽覺系統的訊號，然後根據這些訊號的特性，分門別類歸納出不同的訊號來源，如哪些是背景音？哪些是對話的聲音？於是，我們便會選擇性地忽略掉那些背景音，進而專注在真正的對話聲音上。工程人員把人腦這個機制應用在人工智能運算上，從而強化通話抗噪的效果，配合波束導向甚至骨傳導把非主語音的雜音分離及抑制，用家在非常嘈雜的環境下仍可輕鬆清晰地通話，對方可清晰聽到語音內容，採用人工智能元素不但使語音更為清晰、更能把以往非平穩噪音和風噪音等一些較難處理的噪音也有所抑制，且說話方的聲音也不會因降噪處理而變得不自然。

除了「人工智能」的引入， Auto Echo Cancellation（AEC）自動回音消除的功能一般也會配備在通話處理中去防止對方聽到自己聲音的回音，用以保證通話的質素不會受喇叭和麥克風的迴路所干擾。

廠家和品牌商會視乎不同產品的水平和定位有不同程度的複雜性，從而決定採用什麼配備及相應的運算法去實現其通話抗噪功能。

一直以來，耳機產品固然是以聲音風格和品質為最重要的賣點，但隨著產品功能的多元性，耳機除了追求重播音質水平之外，其他功能的要求和指標不斷提升，用家對通話和語音的清晰度要求亦日漸提高，有賴硬件和軟件科技的進步神速，讓我們進入「人工智能」的時代，令不同的產品在性能上有意想不到的突破和提升，為人類帶來無窮的好處和方便。就讓大家期待和享受這個智能新時代的改變吧。

緊貼最新資訊，請關注 SPILL 的 Facebook 專頁、Instagram 帳戶及 YouTube 頻道。如欲訂閱 SPILL Paper 電子通訊可按這裡。