精通Python爬蟲框架Scrapy+Python網絡數據采集 2本

精通Python爬蟲框架Scrapy+Python網絡數據采集 2本 pdf epub mobi txt 电子书 下载 2025

想要找书就要到 求知書站
立刻按 ctrl+D收藏本页
你会得到大惊喜!!
店铺: 旷氏文豪图书专营店
出版社: 人民邮电出版社
ISBN:9787115474209
商品编码:26698602763

具体描述

YL13954  9787115474209 9787115416292

書名: 精通Python爬蟲框架Scrapy

定價: 59.00元

齣版社名稱: 人民郵電齣版社

齣版時間: 2018年2月

作者: 迪米特裏奧斯 考奇斯-勞卡斯

譯者: 李斌

開本: 16開

ISBN: 9787115474209

目錄

*1章 Scrapy簡介 1 

1.1 初識Scrapy 1 

1.2 喜歡Scrapy的更多理由 2 

1.3 關於本書:目標和用途 3 

1.4 掌握自動化數據爬取的重要性 4 

1.4.1 開發健壯且高質量的應用,並提供閤理規劃 4 

1.4.2 快速開發高質量*小可行産品 5 

1.4.3 Google不會使用錶單,爬取纔能擴大規模 6 

1.4.4 發現並融入你的生態係統 7 

1.5 在充滿爬蟲的世界裏做一個好公民 7 

1.6 Scrapy不是什麼 8 

1.7 本章小結 9 

*2章 理解HTML和XPath 10 

2.1 HTML、DOM樹錶示以及XPath 10 

2.1.1 URL 11 

2.1.2 HTML文檔 11 

2.1.3 樹錶示法 13 

2.1.4 你會在屏幕上看到什麼 14 

2.2 使用XPath選擇HTML元素 15 

2.2.1 有用的XPath錶達式 16 

2.2.2 使用Chrome獲取XPath錶達式 19 

2.2.3 常見任務示例 20 

2.2.4 預見變化 21 

2.3 本章小結 22 

3章 爬蟲基礎 23 

3.1 安裝Scrapy 24 

3.1.1 MacOS 24 

3.1.2 Windows 25 

3.1.3 Linux 25 

3.1.4 *新源碼安裝 26 

3.1.5 升級Scrapy 26 

3.1.6 Vagrant:本書中運行示例的官方方式 27 

3.2 UR2IM——基本抓取流程 28 

3.2.1 URL 29 

3.2.2 請求和響應 31 

3.2.3 Item 31 

3.3 一個Scrapy項目 37 

3.3.1 聲明item 38 

3.3.2 編寫爬蟲 40 

3.3.3 填充item 43 

3.3.4 保存文件 45 

3.3.5 清理——item裝載器與管理字段 47 

3.3.6 創建contract 50 

... ...

Python網絡數據采集

基本信息
作者: (美) 米切爾 (Ryan Mitchell)   
譯者: 陶俊傑 陳小莉
叢書名: 圖靈程序設計叢書
齣版社:人民郵電齣版社
ISBN:9787115416292
上架時間:2016-3-4
齣版日期:2016 年3月
開本:16開
頁碼:200
版次:1-1
目錄
譯者序 ix
前言 xi
一部分 創建爬蟲
1章 初見網絡爬蟲 2
1.1 網絡連接 2
1.2 BeautifulSoup簡介 4
1.2.1 安裝BeautifulSoup 5
1.2.2 運行BeautifulSoup 7
1.2.3 可靠的網絡連接 8
2章 復雜HTML解析 11
2.1 不是一直都要用錘子 11
2.2 再端一碗BeautifulSoup 12
2.2.1 BeautifulSoup的find()和findAll() 13
2.2.2 其他BeautifulSoup對象 15
2.2.3 導航樹 16
2.3 正則錶達式 19
2.4 正則錶達式和BeautifulSoup 23
2.5 獲取屬性 24
2.6 Lambda錶達式 24
2.7 超越BeautifulSoup 25
3章 開始采集 26
3.1 遍曆單個域名 26
3.2 采集整個網站 30
3.3 通過互聯網采集 34
3.4 用Scrapy采集 38
4章 使用API 42
4.1 API概述 43
4.2 API通用規則 43
4.2.1 方法 44
4.2.2 驗證 44
4.3 服務器響應 45
4.4 Echo Nest 46
4.5 Twitter API 48
4.5.1 開始 48
4.5.2 幾個示例 50
4.6 Google API 52
4.6.1 開始 52
4.6.2 幾個示例 53
4.7 解析JSON數據 55
4.8 迴到主題 56
4.9 再說一點API 60
5章 存儲數據 61
5.1 媒體文件 61
5.2 把數據存儲到CSV 64
5.3 MySQL 65
5.3.1 安裝MySQL 66
5.3.2 基本命令 68
5.3.3 與Python整閤 71
5.3.4 數據庫技術與**實踐 74
5.3.5 MySQL裏的“六度空間遊戲” 75
5.4 Email 77
6章 讀取文檔 80
6.1 文檔編碼 80
6.2 純文本 81
6.3 CSV 85
6.4 PDF 87
6.5 微軟Word和.docx 88
二部分 **數據采集
7章 數據清洗 94
7.1 編寫代碼清洗數據 94
7.2 數據存儲後再清洗 98
8章 自然語言處理 103
8.1 概括數據 104
8.2 馬爾可夫模型 106
8.3 自然語言工具包 112
8.3.1 安裝與設置 112
8.3.2 用NLTK做統計分析 113
8.3.3 用NLTK做詞性分析 115
8.4 其他資源 119
9章 穿越網頁錶單與登錄窗口進行采集 120
9.1 Python Requests庫 120
9.2 提交一個基本錶單 121
9.3 單選按鈕、復選框和其他輸入 123
9.4 提交文件和圖像 124
9.5 處理登錄和cookie 125
9.6 其他錶單問題 127

用户评价

评分

评分

评分

评分

评分

评分

评分

评分

评分

相关图书

本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 tushu.tinynews.org All Rights Reserved. 求知書站 版权所有