
0人評分過此書
Python網絡爬蟲實戰
電腦技術飛速發展,人們對電腦使用技能的要求也越來越高。在編寫軟體時,大家既希望有超高的效率,又希望這門語言簡單易用。這種魚與熊掌皆得的要求的確很高,Python編程語言恰好符合這麼苛刻的要求。
Python的執行效率僅比效率之王C略差一籌,在簡單易用方面Python也名列三甲。可以說Python在效率和簡單之間達到了平衡。另外,Python還是一門膠水語言,可以將其他編程語言的優點融合在一起,達到1+1>2的效果。這也是Python如今使用人數越來越多的原因。
Python語言發展迅速,在各行各業都發揮獨特的作用。在各大企業、學校、機關都運行著Python明星程序。但就個人而言,運用Python最多的還是網路爬蟲(這裡的爬蟲僅涉及從網頁提取數據,不涉及深度、廣度算法爬蟲搜索)。在網路上經常更新的數據,無須每次都打開網頁瀏覽,使用爬蟲程序,一鍵獲取數據,下載保存後分析。考慮到Python爬蟲在網路上的資料雖多,但大多都不成系統,難以提供系統有效的學習。因此筆者拋磚引玉,編寫了這本有關Python網路爬蟲的書,以供讀者學習參考。
Python簡單易學,Python爬蟲也不複雜。只需要瞭解了Python的基本操作即可自行編寫。本書中介紹了幾種不同類型的Python爬蟲,可以針對不同情況的站點進行數據收集。
Python的執行效率僅比效率之王C略差一籌,在簡單易用方面Python也名列三甲。可以說Python在效率和簡單之間達到了平衡。另外,Python還是一門膠水語言,可以將其他編程語言的優點融合在一起,達到1+1>2的效果。這也是Python如今使用人數越來越多的原因。
Python語言發展迅速,在各行各業都發揮獨特的作用。在各大企業、學校、機關都運行著Python明星程序。但就個人而言,運用Python最多的還是網路爬蟲(這裡的爬蟲僅涉及從網頁提取數據,不涉及深度、廣度算法爬蟲搜索)。在網路上經常更新的數據,無須每次都打開網頁瀏覽,使用爬蟲程序,一鍵獲取數據,下載保存後分析。考慮到Python爬蟲在網路上的資料雖多,但大多都不成系統,難以提供系統有效的學習。因此筆者拋磚引玉,編寫了這本有關Python網路爬蟲的書,以供讀者學習參考。
Python簡單易學,Python爬蟲也不複雜。只需要瞭解了Python的基本操作即可自行編寫。本書中介紹了幾種不同類型的Python爬蟲,可以針對不同情況的站點進行數據收集。
- 目錄
- 版權訊息
- 內容簡介
-
前言
-
本書特色
-
本書結構
-
本書讀者與作者
-
本書代碼下載
-
-
第1章 Python環境配置
-
1.1 Python簡介
-
1.1.1 Python的歷史由來
-
1.1.2 Python的現狀
-
1.1.3 Python的應用
-
-
1.2 Python開發環境配置
-
1.2.1 Windows下安裝Python
-
1.2.2 Windows下安裝配置pip
-
1.2.3 Linux下安裝Python
-
1.2.4 Linux下安裝配置pip
-
1.2.5 永遠的開始:hello world
-
-
1.3 本章小結
-
-
第2章 Python基礎
-
2.1 Python變量類型
-
2.1.1 數字
-
2.1.2 字符串
-
2.1.3 列表
-
2.1.4 元組
-
2.1.5 字典
-
-
2.2 Python語句
-
2.2.1 條件語句——if else
-
2.2.2 有限循環——for
-
2.2.3 無限循環——while
-
2.2.4 中斷循環——continue、break
-
2.2.5 異常處理——try except
-
2.2.6 導入模塊——import
-
-
2.3 函數和類
-
2.3.1 函數
-
2.3.2 類
-
-
2.4 Python代碼格式
-
2.4.1 Python代碼縮進
-
2.4.2 Python命名規則
-
2.4.3 Python代碼註釋
-
-
2.5 Python調試
-
2.5.1 Windows下IDLE調試
-
2.5.2 Linux下pdb調試
-
-
2.6 本章小結
-
-
第3章 簡單的Python腳本
-
3.1 九九乘法表
-
3.1.1 Project分析
-
3.1.2 Project實施
-
-
3.2 斐波那契數列
-
3.2.1 Project分析
-
3.2.2 Project實施
-
-
3.3 概率計算
-
3.3.1 Project分析
-
3.3.2 Project實施
-
-
3.4 讀寫文件
-
3.4.1 Project分析
-
3.4.2 project實施
-
-
3.5 本章小結
-
-
第4章 Python爬蟲常用模塊
-
4.1 Python標準庫之urllib2模塊
-
4.1.1 urllib2請求返回網頁
-
4.1.2 urllib2使用代理訪問網頁
-
4.1.3 urllib2修改header
-
-
4.2 Python標準庫——logging模塊
-
4.2.1 簡述logging模塊
-
4.2.2 自定義模塊myLog
-
-
4.3 其他有用模塊
-
4.3.1 re模塊(正則表達式操作)
-
4.3.2 sys模塊(系統參數獲取)
-
4.3.3 time模塊(獲取時間訊息)
-
-
4.4 本章小結
-
-
第5章 Scrapy爬蟲框架
-
5.1 安裝Scrapy
-
5.1.1 Windows下安裝Scrapy環境
-
5.1.2 Linux下安裝Scrapy
-
5.1.3 vim編輯器
-
-
5.2 Scrapy選擇器XPath和CSS
-
5.2.1 XPath選擇器
-
5.2.2 CSS選擇器
-
5.2.3 其他選擇器
-
-
5.3 Scrapy爬蟲實戰一:今日影視
-
5.3.1 創建Scrapy項目
-
5.3.2 Scrapy文件介紹
-
5.3.3 Scrapy爬蟲編寫
-
-
5.4 Scrapy爬蟲實戰二:天氣預報
-
5.4.1 項目準備
-
5.4.2 創建編輯Scrapy爬蟲
-
5.4.3 數據存儲到json
-
5.4.4 數據存儲到MySQL
-
-
5.5 Scrapy爬蟲實戰三:獲取代理
-
5.5.1 項目準備
-
5.5.2 創建編輯Scrapy爬蟲
-
5.5.3 多個Spider
-
5.5.4 處理Spider數據
-
-
5.6 Scrapy爬蟲實戰四:糗事百科
-
5.6.1 目標分析
-
5.6.2 創建編輯Scrapy爬蟲
-
5.6.3 Scrapy項目中間件——添加headers
-
5.6.4 Scrapy項目中間件——添加proxy
-
-
5.7 scrapy爬蟲實戰五:爬蟲攻防
-
5.7.1 創建一般爬蟲
-
5.7.2 封鎖間隔時間破解
-
5.7.3 封鎖Cookies破解
-
5.7.4 封鎖user-agent破解
-
5.7.5 封鎖IP破解
-
-
5.8 本章小結
-
-
第6章 Beautiful Soup爬蟲
-
6.1 安裝Beautiful Soup環境
-
6.1.1 Windows下安裝Beautiful Soup
-
6.1.2 Linux下安裝Beautiful Soup
-
6.1.3 最強大的IDE——Eclipse
-
-
6.2 BeautifulSoup解析器
-
6.2.1 bs4解析器選擇
-
6.2.2 lxml解析器安裝
-
6.2.3 使用bs4過濾器
-
-
6.3 bs4爬蟲實戰一:獲取百度貼吧內容
-
6.3.1 目標分析
-
6.3.2 項目實施
-
6.3.3 代碼分析
-
6.3.4 Eclipse調試
-
-
6.4 bs4爬蟲實戰二:獲取雙色球中獎訊息
-
6.4.1 目標分析
-
6.4.2 項目實施
-
6.4.3 保存結果到Excel
-
6.4.4 代碼分析
-
-
6.5 bs4爬蟲實戰三:獲取起點小說訊息
-
6.5.1 目標分析
-
6.5.2 項目實施
-
6.5.3 保存結果到MySQL
-
6.5.4 代碼分析
-
-
6.6 bs4爬蟲實戰四:獲取電影訊息
-
6.6.1 目標分析
-
6.6.2 項目實施
-
6.6.3 bs4反爬蟲
-
6.6.4 代碼分析
-
-
6.7 bs4爬蟲實戰五:獲取音悅臺榜單
-
6.7.1 目標分析
-
6.7.2 項目實施
-
6.7.3 代碼分析
-
-
6.8 本章小結
-
-
第7章 Mechanize模擬瀏覽器
-
7.1 安裝Mechanize模塊
-
7.1.1 Windows下安裝Mechanize
-
7.1.2 Linux下安裝Mechanize
-
-
7.2 Mechanize測試
-
7.2.1 Mechanize百度
-
7.2.2 Mechanize光貓F460
-
-
7.3 Mechanize實站一:獲取Modem訊息
-
7.3.1 獲取F460數據
-
7.3.2 代碼分析
-
-
7.4 Mechanize實戰二:獲取音悅臺公告
-
7.4.1 登錄原理
-
7.4.2 獲取Cookie的方法
-
7.4.3 獲取Cookie
-
7.4.4 使用Cookie登錄獲取數據
-
-
7.5 本章總結
-
-
第8章 Selenium模擬瀏覽器
-
8.1 安裝Selenium模塊
-
8.1.1 Windows下安裝Selenium模塊
-
8.1.2 Linux下安裝Selenium模塊
-
-
8.2 瀏覽器選擇
-
8.2.1 Webdriver支持列表
-
8.2.2 Windows下安裝PhantomJS
-
8.2.3 Linux下安裝PhantomJS
-
-
8.3 Selenium&PhantomJS抓取數據
-
8.3.1 獲取百度搜索結果
-
8.3.2 獲取搜索結果
-
8.3.3 獲取有效數據位置
-
8.3.4 從位置中獲取有效數據
-
-
8.4 Selenium&PhantomJS實戰一:獲取代理
-
8.4.1 準備環境
-
8.4.2 爬蟲代碼
-
8.4.3 代碼解釋
-
-
8.5 Selenium&PhantomJS實戰二:漫畫爬蟲
-
8.5.1 準備環境
-
8.5.2 爬蟲代碼
-
8.5.3 代碼解釋
-
-
8.6 本章總結
-
- 出版地 : 臺灣
- 語言 : 繁體中文
評分與評論
請登入後再留言與評分