:::中央區塊

華文視障電子圖書網

現在位置： > 書目介紹

出版快訊/書目介紹

字體大小：大中小

Python網路爬蟲：大數據擷取、清洗、儲存與分析：王者歸來

分類 : 電腦資訊> 程式設計/APP開發> Python
作者 : 洪錦魁
出版社 : 深智數位

內容簡介

　　這是一本使用Python從零開始指導讀者的網路爬蟲入門書籍，全書以約350個程式實例，完整解說大數據擷取、清洗、儲存與分析相關知識，下列是本書有關網路爬蟲知識的主要內容。

　　# 認識搜尋引擎與網路爬蟲
　　# 認識約定成俗的協議robots.txt
　　# 從零開始解析HTML網頁
　　# 認識與使用Chrome開發人員環境解析網頁
　　# 認識Python內建urllib、urllib2模組，同時介紹好用的requests模組
　　# 說明lxml模組
　　# Selenium模組
　　# XPath方法解說
　　# css定位網頁元素
　　# Cookie觀念
　　# 自動填寫表單
　　# 使用IP代理服務與實作
　　# 偵測IP
　　# 更進一步解說更新的模組Requests-HTML
　　# 認識適用大型爬蟲框架的Scrapy模組

　　在書籍內容，本書設計爬蟲程式探索下列相關網站，讀者可以由不同的網站主題，深入測試自己設計網路爬蟲的能力，以適應未來職場的需求。

　　# 金融資訊
　　# 股市數據
　　# 人力銀行
　　# 交友網站
　　# 維基網站
　　# 主流媒體網站
　　# 政府開放數據網站
　　# 社群服務網站
　　# PTT網站
　　# 電影網站
　　# 星座網站
　　# 小說網站
　　# 台灣高鐵
　　# 露天拍賣網站
　　# httpbin網站
　　# python.org網站
　　# github.com網站
　　# ipstack.com網站API實作
　　# Google API實作
　　# Facebook API實作

　　探索網站成功後，本書也說明下列如何下載或儲存不同資料格式的數據。

　　# CSV檔案格式
　　# JSON檔案格式
　　# XML、Pickle
　　# Excel
　　# SQLite資料庫

　　本書沿襲作者著作的特色，程式實例豐富，相信讀者只要遵循本書內容必定可以在最短時間精通Python網路爬蟲設計。

引用網址

「博客來」網路書店相關連結(另開新視窗)

推薦此書

留言