Python+Spark 2.0+Hadoop機器學習與大數據實戰 pdf epub mobi txt 電子書 下載 2024

圖書介紹


Python+Spark 2.0+Hadoop機器學習與大數據實戰


林大貴 著



點擊這裡下載
    


想要找書就要到 求知書站
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

发表于2024-11-08

類似圖書 點擊查看全場最低價

齣版社: 清華大學齣版社
ISBN:9787302490739
版次:1
商品編碼:12276775
包裝:平裝
開本:16開
齣版時間:2017-12-01
用紙:膠版紙
頁數:519
字數:864000
正文語種:中文

Python+Spark 2.0+Hadoop機器學習與大數據實戰 epub 下載 mobi 下載 pdf 下載 txt 電子書 下載 2024

相關圖書



Python+Spark 2.0+Hadoop機器學習與大數據實戰 epub 下載 mobi 下載 pdf 下載 txt 電子書 下載 2024

Python+Spark 2.0+Hadoop機器學習與大數據實戰 pdf epub mobi txt 電子書 下載 2024



具體描述

産品特色

編輯推薦

適讀人群 :正在學習大數據理論和技術的人員作為上機實踐用的教材

1.Hadoop集群安裝與分散式運算和存儲介紹
通過實機操作,學會如何安裝Virtual Box、Ubuntu Linux、Hadoop單機與多颱機器集群安裝,並學會使用HDFS分散式存儲與MapReduce分散式運算。
2.Python Spark 2.0安裝
通過實機操作,學會安裝Spark 2.0,並在本機與多颱機器集群執行Python Spark應用程序。同時介紹如何在iPython Notebook互動界麵執行Python Spark指令。安裝eclipse整閤開發界麵,開發Python Spark應用程序,大幅提升程序開發生産力。
3.Python Spark SQL、DataFrame數據統計與數據可視化
Spark SQL 即使非程序設計人員,隻需要懂得SQL語法,就可以使用。DataFrame API 可使用類SQL的方法,如select()、groupby()、count(),很容易進行統計,大幅降低大數據分析的學習門檻。Spark DataFrame可轉換為Pandas DataFrame,運用Python豐富的數據可視化組件(例如matplotlib)進行數據可視化。
4.Python Spark MLlib機器學習
以大數據分析實際案例MoiveLens、StumbleUpon、CovType、BikeSharing介紹如何使用Python Spark運用機器學習演算法進行數據處理、訓練、建立模型、訓練驗證找齣*佳模型、預測結果。
5.Python Spark ML Pipeline機器學習流程
以大數據實際案例示範使用Python Spark ML Pipeline機器學習流程進行二元分類、多元分類、迴歸分析,將機器學習的每一個步驟建立成Pipeline流程:數據處理 →運算法訓練數據→建立模型→找齣*佳模型→預測結果。Spark ML Pipeline 通過內建數據處理模塊與機器學習運算法,減輕數據分析師在程序設計上的負擔。

內容簡介

《Python+Spark 2.0+Hadoop機器學習與大數據實戰》從淺顯易懂的“大數據和機器學習”原理說明入手,講述大數據和機器學習的基本概念,如分類、分析、訓練、建模、預測、機器學習(推薦引擎)、機器學習(二元分類)、機器學習(多元分類)、機器學習(迴歸分析)和數據可視化應用等。書中不僅加入瞭新近的大數據技術,還豐富瞭“機器學習”內容。
為降低讀者學習大數據技術的門檻,書中提供瞭豐富的上機實踐操作和範例程序詳解,展示瞭如何在單機Windows係統上通過Virtual Box虛擬機安裝多機Linux虛擬機,如何建立Hadoop集群,再建立Spark開發環境。《Python+Spark 2.0+Hadoop機器學習與大數據實戰》中介紹搭建的上機實踐平颱並不限製於單颱實體計算機。對於有條件的公司和學校,參照書中介紹的搭建過程,同樣可以實現將自己的平颱搭建在多颱實體計算機上,以便更加接近於大數據和機器學習真實的運行環境。
《Python+Spark 2.0+Hadoop機器學習與大數據實戰》非常適閤於學習大數據基礎知識的初學者閱讀,更適閤正在學習大數據理論和技術的人員作為上機實踐用的教材。

作者簡介

林大貴,從事IT行業多年,在係統設計、網站開發、數字營銷、商業智慧、大數據、機器學習等領域具有豐富的實戰經驗。

目錄

目 錄


第1章 Python Spark機器學習與Hadoop大數據 1
1.1 機器學習的介紹 2
1.2 Spark的介紹 5
1.3 Spark數據處理 RDD、DataFrame、Spark SQL 7
1.4 使用Python開發 Spark機器學習與大數據應用 8
1.5 Python Spark 機器學習 9
1.6 Spark ML Pipeline機器學習流程介紹 10
1.7 Spark 2.0的介紹 12
1.8 大數據定義 13
1.9 Hadoop 簡介 14
1.10 Hadoop HDFS分布式文件係統 14
1.11 Hadoop MapReduce的介紹 17
1.12 結論 18
第2章 VirtualBox虛擬機軟件的安裝 19
2.1 VirtualBox的下載和安裝 20
2.2 設置VirtualBox存儲文件夾 23
2.3 在VirtualBox創建虛擬機 25
2.4 結論 29
第3章 Ubuntu Linux 操作係統的安裝 30
3.1 Ubuntu Linux 操作係統的安裝 31
3.2 在Virtual設置Ubuntu虛擬光盤文件 33
3.3 開始安裝Ubuntu 35
3.4 啓動Ubuntu 40
3.5 安裝增強功能 41
3.6 設置默認輸入法 45
3.7 設置“終端”程序 48
3.8 設置“終端”程序為白底黑字 49
3.9 設置共享剪貼闆 50
3.10 設置最佳下載服務器 52
3.11 結論 56
第4章 Hadoop Single Node Cluster的安裝 57
4.1 安裝JDK 58
4.2 設置SSH無密碼登錄 61
4.3 下載安裝Hadoop 64
4.4 設置Hadoop環境變量 67
4.5 修改Hadoop配置設置文件 69
4.6 創建並格式化HDFS目錄 73
4.7 啓動Hadoop 74
4.8 打開Hadoop Resource-Manager Web界麵 76
4.9 NameNode HDFS Web界麵 78
4.10 結論 79
第5章 Hadoop Multi Node Cluster的安裝 80
5.1 把Single Node Cluster復製到data1 83
5.2 設置VirtualBox網卡 84
5.3 設置data1服務器 87
5.4 復製data1服務器到data2、data3、master 94
5.5 設置data2服務器 97
5.6 設置data3服務器 100
5.7 設置master服務器 102
5.8 master連接到data1、data2、data3 創建HDFS目錄 107
5.9 創建並格式化NameNode HDFS目錄 110
5.10 啓動Hadoop Multi Node Cluster 112
5.11 打開Hadoop ResourceManager Web界麵 114
5.12 打開NameNode Web界麵 115
5.13 停止Hadoop Multi Node Cluster 116
5.14 結論 116
第 6 章 Hadoop HDFS命令 117
6.1 啓動Hadoop Multi-Node Cluster 118
6.2 創建與查看HDFS目錄 120
6.3 從本地計算機復製文件到HDFS 122
6.4 將HDFS上的文件復製到本地計算機 127
6.5 復製與刪除HDFS文件 129
6.6 在Hadoop HDFS Web用戶界麵瀏覽HDFS 131
6.7 結論 134
第7章 Hadoop MapReduce 135
7.1 簡單介紹WordCount.java 136
7.2 編輯WordCount.java 137
7.3 編譯WordCount.java 141
7.4 創建測試文本文件 143
7.5 運行WordCount.java 145
7.6 查看運行結果 146
7.7 結論 147
第8章 Python Spark的介紹與安裝 148
8.1 Scala的介紹與安裝 150
8.2 安裝Spark 153
8.3 啓動pyspark交互式界麵 156
8.4 設置pyspark顯示信息 157
8.5 創建測試用的文本文件 159
8.6 本地運行pyspark程序 161
8.7 在Hadoop YARN運行pyspark 163
8.8 構建Spark Standalone Cluster運行環境 165
8.9 在Spark Standalone運行pyspark 171
8.10 Spark Web UI界麵 173
8.11 結論 175


前言/序言

前 言


機器學習是近二十來年興起的多領域學科,機器學習算法可從數據中建立模型,並利用模型對未知數據進行預測。機器學習技術不斷進步,應用相當廣泛,例如推薦引擎、定嚮廣告、需求預測、垃圾郵件過濾、醫學診斷、自然語言處理、搜索引擎、詐騙偵測、證券分析、視覺辨識、語音識彆、手寫識彆等。
近年來Google、Facebook、Microsoft、IBM等大公司全力投入機器學習研究與應用。以Google 為例,Google 已經將機器學習運用到垃圾郵件判斷、自動迴復、照片分類與搜索、翻譯、語音識彆等功能上。同時,各大主流Hadoop發行版公司加強瞭對機器學習的投入,比如Cloudera對spark ml的完整支持、星環科技基於Spark自主研發的機器學習産品Discover。在不知不覺中,機器學習已經讓日常生活更為便利。
為什麼近年來機器學習變得如此熱門,各大公司都爭相投入?因為機器學習需要大量數據進行訓練。大數據的興起帶來瞭大量的數據以及可存儲大量數據的分布式存儲技術,例如Hadoop HDFS、NoSQL……還有分布式計算可進行大量運算,例如 Spark 基於內存的分布式計算框架/架構,可以大幅提升性能。
本書的主題是Python+Spark+Hadoop 機器學習與大數據分析。使用Python 開發Spark 應用程序,具有多重優勢:不僅可以享有Python 語言特性所帶來的好處,即程序代碼簡明、較易學習、高生産力等,再加上Spark 基於內存的分布式計算框架/架構,還可以大幅提升性能,非常適閤需要多次重復運算的機器學習算法,並且Spark 還可以存取 Hadoop HDFS 分布式存儲的大量數據。
本書希望能夠用淺顯易懂的原理介紹和說明以及上機實踐操作、範例程序來降低機器學習與大數據技術的學習門檻,帶領讀者進入機器學習和大數據的領域。當然,整個機器學習與大數據的生態係統非常龐大,需要學習的東西很多。讀者通過本書學習,對機器學習和數據有瞭基本的概念後就比較容易踏入這個領域瞭,以便深入研究其他的相關技術。


林大貴



Python+Spark 2.0+Hadoop機器學習與大數據實戰 下載 mobi epub pdf txt 電子書
Python+Spark 2.0+Hadoop機器學習與大數據實戰 pdf epub mobi txt 電子書 下載
想要找書就要到 求知書站
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

用戶評價

評分

基礎看不錯的一本書

評分

京東快遞第二天就送到瞭,書不錯,物有所值。

評分

很不錯的一本書,最近項目上用到大數據相關的技術,但是很多書都是講hadoop生態本身的配置和使用,這本書把算法和大數據平颱結閤起來,非常有實踐指導價值。推薦購買~

評分

東西很好,可以好好學習瞭,哈哈哈

評分

不錯!!!!!!!!!!!!!!!!!!!!!!

評分

跟蹤一下當前熱點,人工智能

評分

照見五蘊皆空,

評分

評分

非常滿意,不足之處在於代碼的注釋幾乎沒有,基礎不太紮實的話看代碼有難度

類似圖書 點擊查看全場最低價

Python+Spark 2.0+Hadoop機器學習與大數據實戰 pdf epub mobi txt 電子書 下載





相關圖書


本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

友情鏈接

© 2024 tushu.tinynews.org All Rights Reserved. 求知書站 版权所有