杜克進入一種入魔一樣的研究狀態,他現在的時間非常寶貴,完全沒有多少可以浪費的空間,所以在吃完後就迅速回到自己那個小小的家裏。坐在24小時不間斷下載的電腦麵前,他瘋狂搜索下載各種語音片段資料,交給克裏進行語音語義分析及基礎知識庫的建設。
自從搬到出租屋後杜克已經瘋狂在網上下載了數千各種環境和語境下的語音片段,從電視電台新聞片段到影視劇對白、動物世界或是國家地理頻道的科教解說片段,以及各種偷拍、自拍、偽自拍生活現場片段,感謝酷溜土豆、youtube,還有BT和電驢,讓杜克知道原來世界還有如此豐富多彩聲音。
杜克收集的如此眾多聲音索材對於克裏處理能力來說卻仿佛是滄海一粟,往往剛剛輸入進去,克裏就運算解析出來該片段的語音語義特征,從而為語音識別的語音語義特征庫增加一份新的標本元素,越是不同的語音片段越有價值。
這就像一個人生活過的地方越多,就越能聽出不同地方口音是一個道理,每個聲音都是有一些特殊特征和普遍特征構成的,現在的語音識別軟件對於標準發音的識別率其實已經很不錯了。
如IBM在很多年前就推出語音識別輸入係統ViaVoice,在安靜環境和標準發音情況下軟件識別率可以達到實用級別。
可惜實際運用環境不會那麽理想,而是就像杜克寢室中4個人一樣千差萬別,雖然大家說的都是中國話,但是四個來自不同地方的人的口音卻大相徑庭,剛剛住在一起的時候四個人溝通經常有些問題,但是大家很快就適應下來。
人腦強悍的學習能力絕對不是當今電腦所能夠比擬的。而現有的語音識別軟件卻沒有這麽強悍的學習適應能力,也就是說它沒有用來識別這種語音特征差異的知識庫,當然就無法將一些未知類型的發音很好的識別出來。