本書介紹瞭如何利用 Python 3 開發網絡爬蟲。書中首先詳細介紹瞭環境配置過程和爬蟲基礎知識 ;然後討論瞭 urllib、requests 等請求庫,Beautiful Soup、XPath、pyquery 等解析庫以及文本和各類數據庫的存儲方法;接著通過多個案例介紹瞭如何進行 Ajax 數據爬取,如何使用 Selenium 和 Splash 進行動態網站爬取; 接著介紹瞭爬蟲的一些技巧,比如使用代理爬取和維護動態代理池的方法,ADSL 撥號代理的使用,圖形、 極驗、點觸、宮格等各類驗證碼的破解方法,模擬登錄網站爬取的方法及 Cookies 池的維護。 此外,本書還結閤移動互聯網的特點探討瞭使用 Charles、mitmdump、Appium 等工具實現 App 爬取 的方法,緊接著介紹瞭 pyspider 框架和 Scrapy 框架的使用,以及分布式爬蟲的知識,最後介紹瞭 Bloom Filter 效率優化、Docker 和 Scrapyd 爬蟲部署、Gerapy 爬蟲管理等方麵的知識。
作者:崔慶纔
係列書名圖靈原創
執行編輯關於本書的內容有任何問題,請聯係 王軍花
書 號978-7-115-48034-7
頁 數608
印刷方式單色
開 本16開
齣版狀態正在排版
定價99.00
本書特色
1.本書詳細介紹瞭爬蟲的關鍵技術,涵蓋麵廣,實用性強。
2.本書作者崔慶纔,北京航空航天大學碩士,北京釘趣網絡公司技術總監,其個人博客為cuiqingcai.com,其上爬蟲文章的瀏覽量總計已過百萬。
目錄
本書介紹瞭如何利用Python 3開發網絡爬蟲,書中首先介紹瞭環境配置和基礎知識,然後討論瞭urllib、requests、正則錶達式、Beautiful Soup、XPath、pyquery、數據存儲、Ajax數據爬取等內容,接著通過多個案例介紹瞭不同場景下如何實現數據爬取,最後介紹瞭pyspider框架、Scrapy框架和分布式爬蟲。
本書適閤Python程序員閱讀。
1-開發環境配置
1.1-Python3的安裝
1.2-請求庫的安裝
1.2.1-Requests的安裝
1.2.2-Selenium的安裝
1.2.3-ChromeDriver的安裝
1.2.4-GeckoDriver的安裝
1.2.5-PhantomJS的安裝
1.2.6-aiohttp的安裝
1.3-解析庫的安裝
1.3.1-lxml的安裝
1.3.2-Beautiful Soup的安裝
1.3.3-pyquery的安裝
1.3.4-tesserocr的安裝
1.4-數據庫的安裝
1.4.1-MySQL的安裝
1.4.2-MongoDB安裝
1.4.3-Redis的安裝
1.5-存儲庫的安裝
1.5.1-PyMySQL的安裝
1.5.2-PyMongo的安裝
1.5.3-redis-py的安裝
1.5.4-RedisDump的安裝
1.6-Web庫的安裝
1.6.1-Flask的安裝
1.6.2-Tornado的安裝
1.7-App爬取相關庫的安裝
1.7.1-Charles的安裝
1.7.2-mitmproxy的安裝
1.7.3-Appium的安裝
1.8-爬蟲框架的安裝
1.8.1-pyspider的安裝
1.8.2-Scrapy的安裝
1.8.3-Scrapy-Splash的安裝
1.8.4-Scrapy-Redis的安裝
1.9-部署相關庫的安裝
1.9.1-Docker的安裝
1.9.2-Scrapyd的安裝
1.9.3-Scrapyd-Client的安裝
1.9.4-Scrapyd API的安裝
1.9.5-Scrapyrt的安裝
1.9.6-Gerapy的安裝
2-爬蟲基礎
2.1-HTTP基本原理
2.2-網頁基礎
2.3-爬蟲的基本原理
2.4-會話和Cookies
2.5-代理的基本原理
3-基本庫的使用
3.1-使用urllib
3.1.1-發送請求
3.1.2-處理異常
3.1.3-解析鏈接
3.1.4-分析Robots協議
3.2-使用requests
3.2.1-基本用法
3.2.2-高級用法
3.3-正則錶達式
3.4-抓取貓眼電影排行
4-解析庫的使用
4.1-使用XPath
4.2-使用Beautiful Soup
4.3-使用pyquery
5-數據存儲
5.1-文件存儲
5.1.1-TXT文本存儲
5.1.2-JSON文件存儲
5.1.3-CSV文件存儲
5.2-關係型數據庫存儲
5.2.1-MySQL存儲
5.3-非關係型數據庫存儲
5.3.1-MongoDB存儲
5.3.2-Redis存儲
6-Ajax數據爬取
6.1-什麼是Ajax
6.2-Ajax分析方法
6.3-Ajax結果提取
6.4-分析Ajax爬取今日頭條街拍美圖
7-動態渲染頁麵爬取
7.1-Selenium的使用
7.2-Splash的使用
7.3-Splash負載均衡配置
7.4-使用Selenium爬取淘寶商品
8-驗證碼的識彆
8.1-圖形驗證碼的識彆
8.2-極驗滑動驗證碼的識彆
8.3-點觸驗證碼的識彆
8.4-微博宮格驗證碼的識彆
9-代理的使用
9.1-代理的設置
9.2-代理池的維護
9.3-付費代理的使用
9.4-ADSL撥號代理
9.5-使用代理爬取微信公眾號文章
10-模擬登錄
10.1-模擬登錄並爬取GitHub
10.2-Cookies池的搭建
11-App的爬取
11.1-Charles的使用
11.2-mitmproxy的使用
11.3-mitmdump爬取“得到”App電子書信息
11.4-Appium的基本使用
11.5-Appium爬取微信朋友圈
11.6-Appium+mitmdump爬取京東商品
12-pyspider框架的使用
12.1-pyspider框架介紹
12.2-pyspider的基本使用
12.3-pyspider用法詳解
13-Scrapy框架的使用
13.1-Scrapy框架介紹
13.2-Scrapy入門
13.3-Selector的用法
13.4-Spider的用法
13.5-Downloader Middleware的用法
13.6-Spider Middleware的用法
13.7-Item Pipeline的用法
13.8-Scrapy對接Selenium
13.9-Scrapy對接Splash
13.10-Scrapy通用爬蟲
13.11-Scrapyrt的使用
13.12-Scrapy對接Docker
13.13-Scrapy爬取新浪微博
14-分布式爬蟲
14.1-分布式爬蟲原理
14.2-Scrapy-Redis源碼解析
14.3-Scrapy分布式實現
14.4-Bloom Filter的對接
15-分布式爬蟲的部署
15.1-Scrapyd分布式部署
15.2-Scrapyd-Client的使用
15.3-Scrapyd對接Docker
15.4-Scrapyd批量部署
15.5-Gerapy分布式管理
服务到位,速度快,书的质量不错
评分印刷待加强啊
评分很好,点赞,发货很快
评分朋友推荐才卖的,买了后还没看,不过朋友说挺好的,好的话再来评下
评分早就关注作者的blog,学习了不少,书里有不少作者总结的技术,很实用..
评分这个书,个人感觉不值那个价钱
评分书挺好的,正版
评分买了,还没有看。估计不错
评分还不错!
本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度,google,bing,sogou 等
© 2025 tushu.tinynews.org All Rights Reserved. 求知書站 版权所有