從Hey、Siri、OK Google開始,我們早已習慣用語音來控制設備,語音輸入法取代鍵盤,Google幫你朗讀文章,你一定很好奇這些語音系統是如何建造出來的。
本書以Kaldi為主,完整介紹Librispeech等資料處理,並且完整說明了三音素架構。
語音模型方面:完整介紹語言模型、n元模型。
特徵工程方面:完整介紹包括對齊、Transition模型、GMM模型等。
構圖及解碼方面:完整介紹OpenFST、WFST等技術。
深度學習建模方面:完整介紹nnet、nnet2、nnet3。
大家最常用的語音搜尋、語音喚醒也有完整的實作介紹。類似人臉辨識的「人聲」辨識,也用PLDA、i-vector、x-vector等技術實作,最近當紅的語言辨識也沒錯過,可說是深入語音工程的最佳手冊。
好評來襲
顏永紅 中國科學院語言聲學與內容了解重點實驗室主任
Kaldi 開放原始碼軟體對推動語音技術研究和產品落地做出了不可磨滅的貢獻,本書作者是工作在語音研究和產業前端的青年才俊,他們以第一手經驗詳細說明了如何運用該軟體建置實際系統,這對初學者迅速掌握相關知識和技能是非常有益的。
俞凱 上海交通大學智慧語音技術實驗室主任
本書以Kaldi為主,完整介紹Librispeech等資料處理,並且完整說明了三音素架構。
語音模型方面:完整介紹語言模型、n元模型。
特徵工程方面:完整介紹包括對齊、Transition模型、GMM模型等。
構圖及解碼方面:完整介紹OpenFST、WFST等技術。
深度學習建模方面:完整介紹nnet、nnet2、nnet3。
大家最常用的語音搜尋、語音喚醒也有完整的實作介紹。類似人臉辨識的「人聲」辨識,也用PLDA、i-vector、x-vector等技術實作,最近當紅的語言辨識也沒錯過,可說是深入語音工程的最佳手冊。
好評來襲
顏永紅 中國科學院語言聲學與內容了解重點實驗室主任
Kaldi 開放原始碼軟體對推動語音技術研究和產品落地做出了不可磨滅的貢獻,本書作者是工作在語音研究和產業前端的青年才俊,他們以第一手經驗詳細說明了如何運用該軟體建置實際系統,這對初學者迅速掌握相關知識和技能是非常有益的。
俞凱 上海交通大學智慧語音技術實驗室主任