金寶書局網路書店

 
目前位置:首頁 > 圖書十大分類 > 300 科學類 > 312 電腦科學 > Hey Siri及Ok Google原理:AI語音辨識專案真應用開發(二版)
圖書十大分類 > 300 科學類 > 312 電腦科學 > Hey Siri及Ok Google原理:AI語音辨識專案真應用開發(二版)
Hey Siri及Ok Google原理:AI語音辨識專案真應用開發(二版)
Hey Siri及Ok Google原理:AI語音辨識專案真應用開發(二版)
作者: 楊學銳
出版社深智數位
出版日期:2025-05-19
語言:中文
ISBN:9786267569795
裝訂:平裝
定價880
購買數量:
內容簡介
目錄書摘
導讀/序
作者介紹
\\好評再版//

  ★語音前端處理,語音辨識
  ★語者自動分段標記演算法原理
  ★基於WebRTC,Kaldi和gRPC,從零建構穩定、高性能、可商用的語音服務
  ★前端演算法完整介紹
  ★語音活動檢測、語音降噪、回聲消除、波束形成
  ★WebRTC和Kaldi最佳化處理流程
  ★形成語音演算法SDK
  ★微服務建構的RPC遠端呼叫框架和SDK

  本書從語音辨識的概要談起,並且介紹了目前市場概況及常用的工具包括WebRTC及技術人最愛的Kaldi。接下來說明了語音訊號的聲學基和數位化、時頻變換的原理。語音技術中最重要的演算法也有說明,包括了各種VAD、單通道降噪、回聲消除等濾波器、波束形成的介紹。重點部分包括了語音辨識中最重要的特徵提取和聲學模型,如傳統及神經網路基礎的實作法。

  在了解原理之後,即開始建立真正專案,包括使用Kaldi實作一個國語的模型。最近流行的語者自動分段標記在本書中也有實作,大量應用了深度學習的模型及音訊庫、函數庫等。如使用了CNCeleb的聲紋資料當作訓練集。在Kaldi的進階應用方面,也實作了其SDK的音訊特徵提取及WebRTC的語音活動檢測。

  本書的收尾之作就是使用了gRPC進行一個完整的語音識別服務實作,使用了現在最好用的ProtoBuf的協定進行運作,完成了伺服器/客戶端應用開發,可以說是目前市面上最完整的語音辨識中文圖書。