0人評分過此書

Python網絡爬蟲實戰

出版日期
2018
閱讀格式
EPUB
書籍分類
學科分類
ISBN
9789576811906

本館館藏

借閱規則
當前可使用人數 2
借閱天數 14
線上看 0
借閱中 0
選擇分享方式

推薦本館採購書籍

您可以將喜歡的電子書推薦給圖書館,圖書館會參考讀者意見進行採購

讀者資料
圖書館 國立臺北科技大學
* 姓名
* 身分
系所
* E-mail
※ 我們會寄送一份副本至您填寫的Email中
電話
※ 電話格式為 區碼+電話號碼(ex. 0229235151)/ 手機格式為 0900111111
* 請輸入驗證碼
電腦技術飛速發展,人們對電腦使用技能的要求也越來越高。在編寫軟體時,大家既希望有超高的效率,又希望這門語言簡單易用。這種魚與熊掌皆得的要求的確很高,Python編程語言恰好符合這麼苛刻的要求。

Python的執行效率僅比效率之王C略差一籌,在簡單易用方面Python也名列三甲。可以說Python在效率和簡單之間達到了平衡。另外,Python還是一門膠水語言,可以將其他編程語言的優點融合在一起,達到1+1>2的效果。這也是Python如今使用人數越來越多的原因。

Python語言發展迅速,在各行各業都發揮獨特的作用。在各大企業、學校、機關都運行著Python明星程序。但就個人而言,運用Python最多的還是網路爬蟲(這裡的爬蟲僅涉及從網頁提取數據,不涉及深度、廣度算法爬蟲搜索)。在網路上經常更新的數據,無須每次都打開網頁瀏覽,使用爬蟲程序,一鍵獲取數據,下載保存後分析。考慮到Python爬蟲在網路上的資料雖多,但大多都不成系統,難以提供系統有效的學習。因此筆者拋磚引玉,編寫了這本有關Python網路爬蟲的書,以供讀者學習參考。

Python簡單易學,Python爬蟲也不複雜。只需要瞭解了Python的基本操作即可自行編寫。本書中介紹了幾種不同類型的Python爬蟲,可以針對不同情況的站點進行數據收集。
  • 目錄
  • 版權訊息
  • 內容簡介
  • 前言
    • 本書特色
    • 本書結構
    • 本書讀者與作者
    • 本書代碼下載
  • 第1章 Python環境配置
    • 1.1 Python簡介
      • 1.1.1 Python的歷史由來
      • 1.1.2 Python的現狀
      • 1.1.3 Python的應用
    • 1.2 Python開發環境配置
      • 1.2.1 Windows下安裝Python
      • 1.2.2 Windows下安裝配置pip
      • 1.2.3 Linux下安裝Python
      • 1.2.4 Linux下安裝配置pip
      • 1.2.5 永遠的開始:hello world
    • 1.3 本章小結
  • 第2章 Python基礎
    • 2.1 Python變量類型
      • 2.1.1 數字
      • 2.1.2 字符串
      • 2.1.3 列表
      • 2.1.4 元組
      • 2.1.5 字典
    • 2.2 Python語句
      • 2.2.1 條件語句——if else
      • 2.2.2 有限循環——for
      • 2.2.3 無限循環——while
      • 2.2.4 中斷循環——continue、break
      • 2.2.5 異常處理——try except
      • 2.2.6 導入模塊——import
    • 2.3 函數和類
      • 2.3.1 函數
      • 2.3.2 類
    • 2.4 Python代碼格式
      • 2.4.1 Python代碼縮進
      • 2.4.2 Python命名規則
      • 2.4.3 Python代碼註釋
    • 2.5 Python調試
      • 2.5.1 Windows下IDLE調試
      • 2.5.2 Linux下pdb調試
    • 2.6 本章小結
  • 第3章 簡單的Python腳本
    • 3.1 九九乘法表
      • 3.1.1 Project分析
      • 3.1.2 Project實施
    • 3.2 斐波那契數列
      • 3.2.1 Project分析
      • 3.2.2 Project實施
    • 3.3 概率計算
      • 3.3.1 Project分析
      • 3.3.2 Project實施
    • 3.4 讀寫文件
      • 3.4.1 Project分析
      • 3.4.2 project實施
    • 3.5 本章小結
  • 第4章 Python爬蟲常用模塊
    • 4.1 Python標準庫之urllib2模塊
      • 4.1.1 urllib2請求返回網頁
      • 4.1.2 urllib2使用代理訪問網頁
      • 4.1.3 urllib2修改header
    • 4.2 Python標準庫——logging模塊
      • 4.2.1 簡述logging模塊
      • 4.2.2 自定義模塊myLog
    • 4.3 其他有用模塊
      • 4.3.1 re模塊(正則表達式操作)
      • 4.3.2 sys模塊(系統參數獲取)
      • 4.3.3 time模塊(獲取時間訊息)
    • 4.4 本章小結
  • 第5章 Scrapy爬蟲框架
    • 5.1 安裝Scrapy
      • 5.1.1 Windows下安裝Scrapy環境
      • 5.1.2 Linux下安裝Scrapy
      • 5.1.3 vim編輯器
    • 5.2 Scrapy選擇器XPath和CSS
      • 5.2.1 XPath選擇器
      • 5.2.2 CSS選擇器
      • 5.2.3 其他選擇器
    • 5.3 Scrapy爬蟲實戰一:今日影視
      • 5.3.1 創建Scrapy項目
      • 5.3.2 Scrapy文件介紹
      • 5.3.3 Scrapy爬蟲編寫
    • 5.4 Scrapy爬蟲實戰二:天氣預報
      • 5.4.1 項目準備
      • 5.4.2 創建編輯Scrapy爬蟲
      • 5.4.3 數據存儲到json
      • 5.4.4 數據存儲到MySQL
    • 5.5 Scrapy爬蟲實戰三:獲取代理
      • 5.5.1 項目準備
      • 5.5.2 創建編輯Scrapy爬蟲
      • 5.5.3 多個Spider
      • 5.5.4 處理Spider數據
    • 5.6 Scrapy爬蟲實戰四:糗事百科
      • 5.6.1 目標分析
      • 5.6.2 創建編輯Scrapy爬蟲
      • 5.6.3 Scrapy項目中間件——添加headers
      • 5.6.4 Scrapy項目中間件——添加proxy
    • 5.7 scrapy爬蟲實戰五:爬蟲攻防
      • 5.7.1 創建一般爬蟲
      • 5.7.2 封鎖間隔時間破解
      • 5.7.3 封鎖Cookies破解
      • 5.7.4 封鎖user-agent破解
      • 5.7.5 封鎖IP破解
    • 5.8 本章小結
  • 第6章 Beautiful Soup爬蟲
    • 6.1 安裝Beautiful Soup環境
      • 6.1.1 Windows下安裝Beautiful Soup
      • 6.1.2 Linux下安裝Beautiful Soup
      • 6.1.3 最強大的IDE——Eclipse
    • 6.2 BeautifulSoup解析器
      • 6.2.1 bs4解析器選擇
      • 6.2.2 lxml解析器安裝
      • 6.2.3 使用bs4過濾器
    • 6.3 bs4爬蟲實戰一:獲取百度貼吧內容
      • 6.3.1 目標分析
      • 6.3.2 項目實施
      • 6.3.3 代碼分析
      • 6.3.4 Eclipse調試
    • 6.4 bs4爬蟲實戰二:獲取雙色球中獎訊息
      • 6.4.1 目標分析
      • 6.4.2 項目實施
      • 6.4.3 保存結果到Excel
      • 6.4.4 代碼分析
    • 6.5 bs4爬蟲實戰三:獲取起點小說訊息
      • 6.5.1 目標分析
      • 6.5.2 項目實施
      • 6.5.3 保存結果到MySQL
      • 6.5.4 代碼分析
    • 6.6 bs4爬蟲實戰四:獲取電影訊息
      • 6.6.1 目標分析
      • 6.6.2 項目實施
      • 6.6.3 bs4反爬蟲
      • 6.6.4 代碼分析
    • 6.7 bs4爬蟲實戰五:獲取音悅臺榜單
      • 6.7.1 目標分析
      • 6.7.2 項目實施
      • 6.7.3 代碼分析
    • 6.8 本章小結
  • 第7章 Mechanize模擬瀏覽器
    • 7.1 安裝Mechanize模塊
      • 7.1.1 Windows下安裝Mechanize
      • 7.1.2 Linux下安裝Mechanize
    • 7.2 Mechanize測試
      • 7.2.1 Mechanize百度
      • 7.2.2 Mechanize光貓F460
    • 7.3 Mechanize實站一:獲取Modem訊息
      • 7.3.1 獲取F460數據
      • 7.3.2 代碼分析
    • 7.4 Mechanize實戰二:獲取音悅臺公告
      • 7.4.1 登錄原理
      • 7.4.2 獲取Cookie的方法
      • 7.4.3 獲取Cookie
      • 7.4.4 使用Cookie登錄獲取數據
    • 7.5 本章總結
  • 第8章 Selenium模擬瀏覽器
    • 8.1 安裝Selenium模塊
      • 8.1.1 Windows下安裝Selenium模塊
      • 8.1.2 Linux下安裝Selenium模塊
    • 8.2 瀏覽器選擇
      • 8.2.1 Webdriver支持列表
      • 8.2.2 Windows下安裝PhantomJS
      • 8.2.3 Linux下安裝PhantomJS
    • 8.3 Selenium&PhantomJS抓取數據
      • 8.3.1 獲取百度搜索結果
      • 8.3.2 獲取搜索結果
      • 8.3.3 獲取有效數據位置
      • 8.3.4 從位置中獲取有效數據
    • 8.4 Selenium&PhantomJS實戰一:獲取代理
      • 8.4.1 準備環境
      • 8.4.2 爬蟲代碼
      • 8.4.3 代碼解釋
    • 8.5 Selenium&PhantomJS實戰二:漫畫爬蟲
      • 8.5.1 準備環境
      • 8.5.2 爬蟲代碼
      • 8.5.3 代碼解釋
    • 8.6 本章總結
  • 出版地 臺灣
  • 語言 繁體中文

評分與評論

請登入後再留言與評分
幫助
您好,請問需要甚麼幫助呢?
使用指南

客服專線:0800-000-747

服務時間:週一至週五 AM 09:00~PM 06:00

loading