華文視障電子圖書網
現在位置: > 書目介紹出版快訊/書目介紹
Python網路爬蟲:大數據擷取、清洗、儲存與分析:王者歸來
- 分類 : 電腦資訊> 程式設計/APP開發> Python
- 作者 : 洪錦魁
- 出版社 : 深智數位
這是一本使用Python從零開始指導讀者的網路爬蟲入門書籍,全書以約350個程式實例,完整解說大數據擷取、清洗、儲存與分析相關知識,下列是本書有關網路爬蟲知識的主要內容。
# 認識搜尋引擎與網路爬蟲
# 認識約定成俗的協議robots.txt
# 從零開始解析HTML網頁
# 認識與使用Chrome開發人員環境解析網頁
# 認識Python內建urllib、urllib2模組,同時介紹好用的requests模組
# 說明lxml模組
# Selenium模組
# XPath方法解說
# css定位網頁元素
# Cookie觀念
# 自動填寫表單
# 使用IP代理服務與實作
# 偵測IP
# 更進一步解說更新的模組Requests-HTML
# 認識適用大型爬蟲框架的Scrapy模組
在書籍內容,本書設計爬蟲程式探索下列相關網站,讀者可以由不同的網站主題,深入測試自己設計網路爬蟲的能力,以適應未來職場的需求。
# 金融資訊
# 股市數據
# 人力銀行
# 交友網站
# 維基網站
# 主流媒體網站
# 政府開放數據網站
# 社群服務網站
# PTT網站
# 電影網站
# 星座網站
# 小說網站
# 台灣高鐵
# 露天拍賣網站
# httpbin網站
# python.org網站
# github.com網站
# ipstack.com網站API實作
# Google API實作
# Facebook API實作
探索網站成功後,本書也說明下列如何下載或儲存不同資料格式的數據。
# CSV檔案格式
# JSON檔案格式
# XML、Pickle
# Excel
# SQLite資料庫
本書沿襲作者著作的特色,程式實例豐富,相信讀者只要遵循本書內容必定可以在最短時間精通Python網路爬蟲設計。