作 譯 者:黃文青
齣版時間:2018-05 韆 字 數:300
版 次:01-01 頁 數:212
開 本:16開
裝 幀:
I S B N :9787121336546
換 版:
所屬分類:科技 >> 計算機 >> 計算機科學
紙質書定價:¥79.0
僅僅會Python編程是不夠的。想成為一名優秀的數據分析工程師,還需要有全方位、透徹理解問題本質的能力,善於把實際的工作任務拆解成準確的數據問題,並運用相關的知識來解決。本書恰好是從這個角度齣發的,它條分縷析地幫助你認識任務的本質,教你從數據的角度來思考、拆解任務,並最終順利地達成目標。
1 概述 / 1
1.1 何為數據工程師 / 1
1.2 數據分析的流程 / 3
1.3 數據分析的工具 / 11
1.4 大數據的思與辨 / 14
2 關於Python / 17
2.1 為什麼是Python / 17
2.2 常用基礎庫 / 19
2.2.1 Numpy / 19
2.2.2 Pandas / 26
2.2.3 Scipy / 37
2.2.4 Matplotlib / 38
3 基礎分析 / 43
3.1 場景分析與建模策略 / 43
3.1.1 統計量 / 43
3.1.2 概率分布 / 48
3.2 實例講解 / 55
3.2.1 誰的成績更優秀 / 55
3.2.2 應該庫存多少水果 / 57
4 數據挖掘 / 60
4.1 場景分析與建模策略 / 60
4.1.1 分類 / 61
4.1.2 聚類 / 76
4.1.3 迴歸 / 86
4.1.4 關聯規則 / 90
4.2 數據挖掘的重要概念 / 93
4.2.1 數據預處理 / 93
4.2.2 評估與驗證 /97
4.2.3 Bagging 與Adaboost / 99
4.2.4 梯度下降與牛頓法 / 102
4.3 實例講解 /105
4.3.1 信用卡欺詐監測 / 105
4.3.2 員工離職預判 /110
5 深度學習/ 114
5.1 場景分析與建模策略 / 115
5.1.1 感知機 / 115
5.1.2 自編碼器 / 119
5.1.3 限製玻爾茲曼機 /123
5.1.4 深度信念神經網絡 / 127
5.1.5 捲積神經網絡 / 129
5.2 人工智能應用概況 / 137
5.2.1 深度學習的曆史 /137
5.2.2 人工智能的傑作 / 140
5.3 實例講解 / 146
5.3.1 學習識彆手寫數字 / 146
5.3.2 讓機器認識一隻貓 / 151
6 大數據分析 / 160
6.1 常用組件介紹 / 160
6.1.1 數據傳輸 / 165
6.1.3 數據計算 / 174
6.1.4 數據展示 / 180
6.2 大數據處理架構 / 188
6.2.1 Lambda 架構 / 189
6.2.2 Kappa 架構 / 192
6.2.3 ELK 架構 / 193
6.3 項目設計 / 194
參考文獻 / 202
版 次:1頁 數:字 數:200000印刷時間:2018年03月01日開 本:16開紙 張:輕型紙包 裝:平裝-膠訂是否套裝:否國際標準書號ISBN:9787121333590
所屬分類:
圖書>計算機/網絡>程序設計>其他
編輯推薦
本書內容來自筆者在高校授課的內容,主要介紹如何運用 Python 工具獲取電商平颱的頁麵數據,並對數據進行清洗和存儲。本書簡化瞭 Python 基礎部分,保證有足夠的篇幅來介紹爬蟲和數據清洗的內容。
本書采用的版本是 Python 3.6.2,是筆者寫書時的*版本,而且筆者習慣用的操作平颱是Windows 係統。
內容簡介
本書是一本通過實戰教初學者學習采集數據、清洗和組織數據進行分析及可視化的 Python 讀物。書中案例均經過實戰檢驗,筆者在實踐過程中深感采集數據、清洗和組織數據的重要性,作為一名數據行業的“碼農”,數據就是沃土,沒有數據,我們將無田可耕。
本書共分 11 章, 6 個核心主題:其一是 Python 基礎入門,包括環境配置、基本操作、數據類型、語句和函數;其二是 Python 爬蟲的構建,包括網頁結構解析、爬蟲流程設計、代碼優化、效率優化、容錯處理、 反防爬蟲、 錶單交互和模擬頁麵點擊; 其三是 Python 數據庫應用, 包括 MongoDB、 MySQL 在 Python中的連接與應用;其四是數據清洗和組織,包括 NumPy 數組知識、 pandas 數據的讀寫、分組變形、缺失值異常值處理、時序數據處理和正則錶達式的使用;其五是綜閤應用案例,幫助讀者貫穿爬蟲、數據清洗與組織的過程;*後是數據可視化,包括 Matplotlib 和 Pyecharts 兩個庫的使用,涉及餅圖、柱形圖、綫圖、詞雲圖、地圖等圖形,幫助讀者進入可視化的殿堂。
本書以實戰為主,適閤 Python 初學者及高等院校的相關專業學生,也適閤 Python 培訓機構作為實驗教材使用。
作者簡介
零一
原名陳海城,
零一數據學院創始人,
電商數據專傢,數據分析師,開發工程師。
從事培訓教育、數據分析和人工智能行業。
黃園園,具有十年軟件開發經驗,全棧工程師,六西格瑪黑帶,精通Python和機器學習算法,具有豐富的分布式爬蟲開發經驗;曾在蘇州三星電子電腦(SESC)、新加坡電信(NCS)、希捷科技(Seagate Technology)等世界知名企業研發部工作,參與過花旗銀行在綫支付係統、銀行賬單自動化審核係統等大型軟件開發,曾任杭州沐垚科技CTO。
顯示全部信息
目 錄
第 1 章 Python 基礎 /1
1.1 安裝 Python 環境 /1
1.1.1 Python 3.6.2 安裝與配置 /1
1.1.2 使用 IDE 工具——PyCharm /4
1.1.3 使用 IDE 工具——Anaconda / 4
1.2 Python 操作入門/6
1.2.1 編寫第一個 Python 代碼/6
1.2.2 Python 基本操作/9
1.2.3 變量/10
1.3 Python 數據類型/10
1.3.1 數字/10
1.3.2 字符串/11
1.3.3 列錶/13
1.3.4 元組/14
顯示全部信息
前 言
Python 是軍刀型的開源工具,被廣泛應用於 Web 開發、爬蟲、數據清洗、自然語言處理、機器學習和人工智能等方麵,而且Python 的語法簡潔易讀,這讓許多編程入門者不再望而卻步,因此Python 在最近幾年非常受歡迎,各行各業的技術人員都開始使用 Python。
本書內容來自筆者在高校授課的內容,主要介紹如何運用 Python 工具獲取電商平颱的頁麵數據,並對數據進行清洗和存儲。本書簡化瞭Python 基礎部分,保證有足夠的篇幅來介紹爬蟲和數據清洗的內容。
本書采用的版本是Python 3.6.2,是筆者寫書時的最新版本,而且筆者習慣用的操作平颱是Windows 係統。雖然目前一些高校和開發者在使用 Python 2.7,但是 Python 團隊將在 2020 年停止對Python 2.7 的支持更新, Python 2.X 轉嚮 Python 3.X 是大勢所趨。
顯示全部信息
媒體評論
這本書教大傢如何利用Python撰寫爬蟲程序,清洗和組織數據,解析網頁的內容,並將數據儲存於數據庫中。巨細無遺,幫助大傢節省時間,是值得一讀的好書!
國立颱灣大學資訊工程博士,銘傳大學資訊工程學係教授李禦璽 (Yue-Shi Lee)
零一兄的這本Python爬蟲技術是一個完整大數據應用框架:從數據收集、分析到數據可視化、數據建模。各章節以實際案例為齣發點,對大數據分析、爬蟲技術應用感興趣的小夥伴們來說,這本書值得購買。
版 次:1頁 數:字 數:印刷時間:2018年03月01日開 本:16開紙 張:膠版紙包 裝:平裝-膠訂是否套裝:否國際標準書號ISBN:9787121336539
所屬分類:
圖書>計算機/網絡>程序設計>其他
快速直達
編輯推薦
內容簡介
作者簡介
目 錄
前 言
媒體評論
下載免費當當讀書
編輯推薦
這是一本務實之作,充分體現數據分析流程的各項環節,包含數據的采集、清洗和探索性分析,並通過大傢耳熟能說的Python工具加以實操。
內容簡介
本書作為數據分析的入門圖書,以Python語言為基礎,介紹瞭數據分析的整個流程。本書內容涵蓋數據的獲取(即網絡爬蟲程序的設計)、前期數據的清洗和處理、運用機器學習算法進行建模分析,以及使用可視化的方法展示數據及結果。首先,書中不會涉及過於高級的語法,不過還是希望讀者有一定的語法基礎,這樣可以更好地理解本書的內容。其次,本書重點在於應用Python來完成一些數據分析和數據處理的工作,即如何使用Python來完成工作而非專注於Python語言語法等原理的講解。本書的目的是讓初學者不論對數據分析流程本身還是Python語言,都能有一個十分直觀的感受,為以後的深入學習打下基礎。*後,讀者不必須按順序通讀本書,因為各個章節層次比較分明,可以根據興趣或者需要來自行安排。例如第5章介紹瞭一些實戰的小項目,有趣且難度不大,大傢可以在學習前麵內容之餘來閱讀這部分內容。
作者簡介
瀋祥壯
自學Python兩年,以數據分析為主綫,係統學習瞭數據的采集,處理、分析和可視化。在研究統計機器學習理論的同時,使用Python語言實現瞭部分統計學習算法。研究方嚮包括數據采集,數據挖掘,統計機器學習及圖像處理。
目 錄
1 準備 1
1.1 開發環境搭建 2
1.1.1 在Ubuntu係統下搭建Python集成開發環境 2
1.1.2 在Windows係統下搭建Python集成開發環境 13
1.1.3 三種安裝第三方庫的方法 16
1.2 Python基礎語法介紹 19
1.2.1 if__name__=='__main__' 20
1.2.2 列錶解析式 22
1.2.3 裝飾器 23
1.2.4 遞歸函數 26
1.2.5 麵嚮對象 27
1.3 The Zen of Python 28
參考文獻 30
2 數據的獲取 31
2.1 爬蟲簡介 31
2.2 數據抓取實踐 33
2.2.1 請求網頁數據 33
2.2.2 網頁解析 38
2.2.3 數據的存儲 46
2.3 爬蟲進階 50
2.3.1 異常處理 50
2.3.2 robots.txt 58
2.3.3 動態UA 60
2.3.4 代理IP 61
2.3.5 編碼檢測 61
2.3.6 正則錶達式入門 63
2.3.7 模擬登錄 69
2.3.8 驗證碼問題 74
2.3.9 動態加載內容的獲取 84
2.3.10 多綫程與多進程 93
2.4 爬蟲總結 101
參考文獻 102
3 數據的存取與清洗 103
3.1 數據存取 103
3.1.1 基本文件操作 103
3.1.2 CSV文件的存取 111
3.1.3 JSON文件的存取 116
3.1.4 XLSX文件的存取 121
3.1.5 MySQL數據庫文件的存取 137
3.2 NumPy 145
3.2.1 NumPy簡介 145
3.2.2 NumPy基本操作 146
3.3 pandas 158
3.3.1 pandas簡介 158
3.3.2 Series與DataFrame的使用 159
3.3.3 布爾值數組與函數應用 169
3.4 數據的清洗 174
3.4.1 編碼問題 174
3.4.2 缺失值的檢測與處理 175
3.4.3 去除異常值 181
3.4.4 去除重復值與冗餘信息 183
3.4.5 注意事項 185
參考文獻 187
4 數據的分析及可視化 188
4.1 探索性數據分析 189
4.1.1 基本流程 189
4.1.2 數據降維 197
4.2 機器學習入門 199
4.2.1 機器學習簡介 200
4.2.2 決策樹——機器學習算法的應用 202
4.3 手動實現KNN算法 205
4.3.1 特例——最鄰近分類器 205
4.3.2 KNN算法的完整實現 213
4.4 數據可視化 215
4.4.1 高質量作圖工具——matplotlib 215
4.4.2 快速作圖工具——pandas與matplotlib 223
4.4.3 簡捷作圖工具——seaborn與matplotlib 226
4.4.4 詞雲圖 230
參考文獻 232
5 Python與生活 234
5.1 定製一個新聞提醒服務 234
5.1.1 新聞數據的抓取 235
5.1.2 實現郵件發送功能 237
5.1.3 定時執行及本地日誌記錄 239
5.2 Python與數學 241
5.2.1 估計π值 242
5.2.2 三門問題 245
5.2.3 解決LP與QP問題(選讀) 247
5.3 QQ群聊天記錄數據分析 251
參考文獻 256
评分
评分
评分
评分
评分
评分
评分
评分
本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度,google,bing,sogou 等
© 2025 tushu.tinynews.org All Rights Reserved. 求知書站 版权所有