其實我在實驗室所做的研究,從TTS(Text-to-speech)這個領域轉到電話語音也只不過才三四個月而已,現在卻已經要開始寫論文了。以標準的兩年畢業時程來看,我在電話語音也只花了不到20%的時間而已。即使如此,現在還是有生出來一些東西啦,把草稿po上來,順便介紹一下我目前正在做的研究。

自從貝爾在1876年取得電話的專利權以來,已經過了130年左右了。這130年來電話已經發展出很多種型式,例如行動電話、IP Phone、VoIP之類;而從130年前就已經發展的公共交換電話網(Public Switched Telephone Network, PSTN),雖然在佔有率方面居於全球之冠,可是傳輸頻寬卻仍舊侷限在3.4kHz以下。以人耳可聽到的聲音範圍(20Hz~20kHz)來說,3.4kHz的傳輸頻寬真的讓人耳可說是大材小用。若發話端的語音本來就不易辨認,則受話端則會因為傳輸頻寬的限制,使得受話端所聽到的語音更難以辨認。基於以上種種原因,我們必須要改善電話的低沈語音。為了改善此一問題,我們可以透過以下兩種方式達成:

  1. 提高取樣率以及增加更多的傳輸位元

  2. 頻寬復原(bandwidth recovery)


第一種方法可以從根本解決電話語音的品質,不過若要提高取樣率以及傳輸位元的話,必須將局端設備以及blahblah之類的設備一次更新到最新的設備,不只會耗費龐大的金錢購買設備,更會耗費大量的時間來重新佈置網路,而且並不是所有的用戶端都需要用到高品質的電話語音。若以短期的時間報酬率來看,似乎不是一個最恰當的做法。所以我們改從用戶端的設備著手改善,也就是上述第二點所說的「頻寬復原」。

第二種方法,簡單來說就是復原3.4kHz以上的高頻頻譜資訊。基本上,人所發出來的每一段語音,其高頻以及低頻都會有一定程度的關聯性,所以我們可以利用低頻(3.4kHz以下)頻譜來估測高頻(3.4kHz以上)頻譜,然後再藉由語音合成技術來復原高頻訊號,最後再將原本的低頻訊號與復原後的高頻訊號相加起來,就會得到高品質的電話語音訊號了。以任何一個用戶端來說,用戶只要購買含有頻寬復原機制的電話話機,就可以得到高品質的電話語音,如此也不用花費大量的時間與金錢的成本來更新局端設備了。


所以我現在做的就是第二種方法,直接用演算法去估測高頻頻譜的資訊。用打字的可能不了解我現在在做的,我直接放給大家聽比較容易理解。





很明顯就聽的出來兩者的不同了吧,第一個語音是處理之前,第二個語音是處理之後,不過這些都是非即時性的。如果要做到即時性的話,必須將程式放到DSP上經過處理才行,這也就是我目前正在做的實作部分,不過一直卡關,煩呀!!!

全站熱搜

kewang 發表在 痞客邦 留言(0) 人氣()