從現代網頁爬取資料
爬取×解析×轉換──讓資料收集快、準、全,告別繁瑣工作!
從HTML到API、從圖片到文字,使用Python做網頁爬取,能廣泛應用於市場預測、機器翻譯甚至是醫學診斷,實用性極高。因此,無論在哪一個領域,網路爬蟲都可以更有效地應用於商務、分析、提升生產效能,開創新機會。
「本書是內容豐富的傑作,可幫助讀者有意識地、有效地抓取網頁資料,值得推薦給想從網站爬取資料、打算建立網站和分享資料的每一個人。」
—Michael Hopkins
P.Geo., PMP
如果說程式設計像魔法一樣,那麼「網站擷取」無疑就是一種巫術,只要寫一個簡單的自動程式,就可以用它來查詢網頁伺服器、請求資料、解析資料,並提取所需資訊。本書第三版經過徹底翻新,不僅介紹網路爬取,也全面性地教你如何從現代網頁抓取幾乎每一種類型的資料。
本書的第一部分專門討論網路爬取機制,包括使用 Python 從網頁伺服器請求資訊、初步處理伺服器的回應,以及自動和網站進行互動。第二部分則探討更具體的工具和應用,以應對可能遇到的各種網頁爬取情境。
本書教你如何:
•解析複雜的HTML網頁
•使用Scrapy框架來開發爬蟲
•儲存你抓到的資料
•從文件中讀取和提取資料
•清理格式不嚴僅的資料,以及將之正規化
•讀寫自然語言
•爬取表單與登入網站
•爬取JavaScript和 API
•使用和編寫「圖片轉文字」軟體
•避免爬網陷阱和反機器人封鎖
•使用爬蟲來測試自己的網站
爬取×解析×轉換──讓資料收集快、準、全,告別繁瑣工作!
從HTML到API、從圖片到文字,使用Python做網頁爬取,能廣泛應用於市場預測、機器翻譯甚至是醫學診斷,實用性極高。因此,無論在哪一個領域,網路爬蟲都可以更有效地應用於商務、分析、提升生產效能,開創新機會。
「本書是內容豐富的傑作,可幫助讀者有意識地、有效地抓取網頁資料,值得推薦給想從網站爬取資料、打算建立網站和分享資料的每一個人。」
—Michael Hopkins
P.Geo., PMP
如果說程式設計像魔法一樣,那麼「網站擷取」無疑就是一種巫術,只要寫一個簡單的自動程式,就可以用它來查詢網頁伺服器、請求資料、解析資料,並提取所需資訊。本書第三版經過徹底翻新,不僅介紹網路爬取,也全面性地教你如何從現代網頁抓取幾乎每一種類型的資料。
本書的第一部分專門討論網路爬取機制,包括使用 Python 從網頁伺服器請求資訊、初步處理伺服器的回應,以及自動和網站進行互動。第二部分則探討更具體的工具和應用,以應對可能遇到的各種網頁爬取情境。
本書教你如何:
•解析複雜的HTML網頁
•使用Scrapy框架來開發爬蟲
•儲存你抓到的資料
•從文件中讀取和提取資料
•清理格式不嚴僅的資料,以及將之正規化
•讀寫自然語言
•爬取表單與登入網站
•爬取JavaScript和 API
•使用和編寫「圖片轉文字」軟體
•避免爬網陷阱和反機器人封鎖
•使用爬蟲來測試自己的網站