今天跟胡老大聊天,聊的當然是我的研究啦,我在中文斷詞這一部分看了很多的paper,也知道了很多model,像是HMM, SVD之類的東西。

可是光是學這些model就會花不少的時間,更別說要去改善precision rate了,目前的研究資料都顯示出來目前的精確度都已經達到95%以上了,如果還要去改這些model的話,那勢必要學更多更多的model。可是我又不是數學系的,光是導一個model都有困難了,更何況是要去改善了。

所以胡老大就建議我,看看要不要把中文斷詞這一個部分加上TTS系統,用實作的方式來當做我的論文方向,model用一般的HMM就好了。可是又有一個問題,語音的資料是要從哪來啦,雖然我們有單字的語料庫,可是卻沒有單詞的語料庫,實在是很頭痛呀!總不可能要我自己錄音,然後再自己去標這些詞吧,煩呀!

kewang 發表在 痞客邦 留言(2) 人氣()