目前正在做的研究 @ 雜七雜八的kewang部落格

其實我在實驗室所做的研究，從TTS(Text-to-speech)這個領域轉到電話語音也只不過才三四個月而已，現在卻已經要開始寫論文了。以標準的兩年畢業時程來看，我在電話語音也只花了不到20%的時間而已。即使如此，現在還是有生出來一些東西啦，把草稿po上來，順便介紹一下我目前正在做的研究。

自從貝爾在1876年取得電話的專利權以來，已經過了130年左右了。這130年來電話已經發展出很多種型式，例如行動電話、IP Phone、VoIP之類；而從130年前就已經發展的公共交換電話網(Public Switched Telephone Network, PSTN)，雖然在佔有率方面居於全球之冠，可是傳輸頻寬卻仍舊侷限在3.4kHz以下。以人耳可聽到的聲音範圍(20Hz~20kHz)來說，3.4kHz的傳輸頻寬真的讓人耳可說是大材小用。若發話端的語音本來就不易辨認，則受話端則會因為傳輸頻寬的限制，使得受話端所聽到的語音更難以辨認。基於以上種種原因，我們必須要改善電話的低沈語音。為了改善此一問題，我們可以透過以下兩種方式達成：

提高取樣率以及增加更多的傳輸位元

頻寬復原(bandwidth recovery)

第一種方法可以從根本解決電話語音的品質，不過若要提高取樣率以及傳輸位元的話，必須將局端設備以及blahblah之類的設備一次更新到最新的設備，不只會耗費龐大的金錢購買設備，更會耗費大量的時間來重新佈置網路，而且並不是所有的用戶端都需要用到高品質的電話語音。若以短期的時間報酬率來看，似乎不是一個最恰當的做法。所以我們改從用戶端的設備著手改善，也就是上述第二點所說的「頻寬復原」。

第二種方法，簡單來說就是復原3.4kHz以上的高頻頻譜資訊。基本上，人所發出來的每一段語音，其高頻以及低頻都會有一定程度的關聯性，所以我們可以利用低頻(3.4kHz以下)頻譜來估測高頻(3.4kHz以上)頻譜，然後再藉由語音合成技術來復原高頻訊號，最後再將原本的低頻訊號與復原後的高頻訊號相加起來，就會得到高品質的電話語音訊號了。以任何一個用戶端來說，用戶只要購買含有頻寬復原機制的電話話機，就可以得到高品質的電話語音，如此也不用花費大量的時間與金錢的成本來更新局端設備了。

所以我現在做的就是第二種方法，直接用演算法去估測高頻頻譜的資訊。用打字的可能不了解我現在在做的，我直接放給大家聽比較容易理解。

很明顯就聽的出來兩者的不同了吧，第一個語音是處理之前，第二個語音是處理之後，不過這些都是非即時性的。如果要做到即時性的話，必須將程式放到DSP上經過處理才行，這也就是我目前正在做的實作部分，不過一直卡關，煩呀！！！