Spark高級數據分析+spark快速大數據分析+機器學習+Spark實踐

Spark高級數據分析+spark快速大數據分析+機器學習+Spark實踐 pdf epub mobi txt 电子书 下载 2025

圖書標籤:
  • Spark
  • 大數據分析
  • 機器學習
  • 數據分析
  • Spark實踐
  • 數據挖掘
  • Python
  • Scala
  • 大數據
  • 技術
想要找书就要到 求知書站
立刻按 ctrl+D收藏本页
你会得到大惊喜!!
店铺: 蓝墨水图书专营店
出版社: 人民邮电出版社
ISBN:9787115404749
商品编码:10586613144
页数:1
字数:1

具体描述

內容簡介

bm266255  9787115404749  9787115422286  9787115399830  9787115403094

Spark數據分析 

Cloudera公司數據科學傢團隊攜手打造,教你用Spark進行大規模數據分析

基本信息

  • 作者:            
  • 譯者: 
  • 齣版社:
  • ISBN:9787115404749
  • 上架時間:2015-10-23
  • 齣版日期:2015 年8月
  • 開本:16開
  • 頁碼:244
  • 版次:1-1
  • 所屬分類:
     

內容簡介



本書是使用Spark進行大規模數據分析的實戰寶典,由大數據公司Cloudera的數據科學傢撰寫。四位作者首先結閤數據科學和大數據分析的廣闊背景講解瞭Spark,然後介紹瞭用Spark和Scala進行數據處理的基礎知識,接著討論瞭如何將Spark用於機器學習,同時介紹瞭常見應用中幾個常用的算法。此外還收集瞭一些更加新穎的應用,比如通過文本隱含語義關係來查詢Wikipedia或分析基因數據。
本書適閤從事大數據分析的各類專業人員閱讀。 

目錄

推薦序 ix
譯者序 xi
序 xiii
前言 xv
第1章 大數據分析 1
1.1 數據科學麵臨的挑戰 2
1.2 認識Apache Spark 4
1.3 關於本書 5
第2章 用Scala和Spark進行數據分析 7
2.1 數據科學傢的Scala 8
2.2 Spark 編程模型 9
2.3 記錄關聯問題 9
2.4 小試牛刀:Spark shell和SparkContext 10
2.5 把數據從集群上獲取到客戶端 15
2.6 把代碼從客戶端發送到集群 18
2.7 用元組和case class對數據進行結構化 19
2.8 聚閤 23
2.9 創建直方圖 24
2.10 連續變量的概要統計 25
2.11 為計算概要信息創建可重用的代碼 26
2.12 變量的選擇和評分簡介 30
2.13 小結 31
第3章 音樂推薦和Audioscrobbler數據集 33
3.1 數據集 34
3.2 交替小二乘推薦算法 35
3.3 準備數據 37
3.4 構建一個模型 39
3.5 逐個檢查推薦結果 42
3.6 評價推薦質量 43
3.7 計算AUC 44
3.8 選擇超參數 46
3.9 産生推薦 48
3.10 小結 49
第4章 用決策樹算法預測森林植被 51
4.1 迴歸簡介 52
4.2 嚮量和特徵 52
4.3 樣本訓練 53
4.4 決策樹和決策森林 54
4.5 Covtype數據集 56
4.6 準備數據 57
4.7 第決策樹 58
4.8 決策樹的超參數 62
4.9 決策樹調優 63
4.10 重談類彆型特徵 65
4.11 隨機決策森林 67
4.12 進行預測 69
4.13 小結 69
第5章 基於K均值聚類的網絡流量異常檢測 71
5.1 異常檢測 72
5.2 K均值聚類 72
5.3 網絡入侵 73
5.4 KDD Cup 1999數據集 73
5.5 初步嘗試聚類 74
5.6 K 的選擇 76
5.7 基於R的可視化 79
5.8 特徵的規範化 81
5.9 類彆型變量 83
5.10 利用標號的熵信息 84
5.11 聚類實戰 85
5.12 小結 86
第6章 基於潛在語義分析算法分析維基百科 89
6.1 詞項-文檔矩陣 90
6.2 獲取數據 91
6.3 分析和準備數據 92
6.4 詞形歸並 93
6.5 計算TF-IDF 94
6.6 奇異值分解 97
6.7 找齣重要的概念 98
6.8 基於低維近似的查詢和評分 101
6.9 詞項-詞項相關度 102
6.10 文檔-文檔相關度 103
6.11 詞項-文檔相關度 105
6.12 多詞項查詢 106
6.13 小結 107
第7章 用GraphX分析伴生網絡 109
7.1 對MEDLINE文獻引用索引的網絡分析 110
7.2 獲取數據 111
7.3 用Scala XML工具解析XML文檔 113
7.4 分析MeSH主要主題及其伴生關係 114
7.5 用GraphX來建立一個伴生網絡 116
7.6 理解網絡結構 119
7.6.1 連通組件 119
7.6.2 度的分布 122
7.7 過濾噪聲邊 124
7.7.1 處理EdgeTriplet 125
7.7.2 分析去掉噪聲邊的子圖 126
7.8 小世界網絡 127
7.8.1 係和聚類係數 128
7.8.2 用Pregel計算平均路徑長度 129
7.9 小結 133
第8章 紐約齣租車軌跡的空間和時間數據分析 135
8.1 數據的獲取 136
8.2 基於Spark的時間和空間數據分析 136
8.3 基於JodaTime和NScalaTime的時間數據處理 137
8.4 基於Esri Geometry API和Spray的地理空間數據處理 138
8.4.1 認識Esri Geometry API 139
8.4.2 GeoJSON簡介 140
8.5 紐約市齣租車客運數據的預處理 142
8.5.1 大規模數據中的非法記錄處理 143
8.5.2 地理空間分析 147
8.6 基於Spark的會話分析 149
8.7 小結 153
第9章 基於濛特卡羅模擬的金融風險評估 155
9.1 術語 156
9.2 VaR計算方法 157
9.2.1 方差-協方差法 157
9.2.2 曆史模擬法 157
9.2.3 濛特卡羅模擬法 157
9.3 我們的模型 158
9.4 獲取數據 158
9.5 數據預處理 159
9.6 確定市場因素的權重 162
9.7 采樣 164
9.8 運行試驗 167
9.9 迴報分布的可視化 170
9.10 結果的評估 171
9.11 小結 173
第10章 基因數據分析和BDG項目 175
10.1 分離存儲與模型 176
10.2 用ADAM CLI導入基因學數據 178
10.3 從ENCODE數據預測轉錄因子結閤位點 185
10.4 查詢1000 Genomes項目中的基因型 191
10.5 小結 193
第11章 基於PySpark和Thunder的神經圖像數據分析 195
11.1 PySpark簡介 196
11.2 Thunder工具包概況和安裝 199
11.3 用Thunder加載數據 200
11.4 用Thunder對神經元進行分類 207
11.5 小結 211
附錄A Spark進階 213
附錄B 即將發布的MLlib Pipelines API 221
作者介紹 226
封麵介紹 226   

譯者序

Spark·佳實踐

騰訊專傢傳授實戰經驗
本書是Spark實戰指南,全書共分8章。前4章介紹Spark的部署、工作機製和內核,後4章分彆通過實戰項目介紹SparkSQL、SparkStreaming、SparkGraphX和SparkMLib功能模塊。此外,本書詳細介紹瞭常見的實戰問題,比如大數據環境下的配置設置、程序調優等。本書附帶的一鍵安裝腳本,更能為初學者提供很大幫助。
第1 章 Spark 與大數據 1
1.1 大數據的發展及現狀 1
1.1.1 大數據時代所麵臨的問題 1
1.1.2 榖歌的大數據解決方案 2
1.1.3 Hadoop 生態係統 3
1.2 Spark 應時而生 4
1.2.1 Spark 的起源 4
1.2.2 Spark 的特點 5
1.2.3 Spark 的未來發展 6
第2 章 Spark 基礎 8
2.1 Spark 本地單機模式體驗 8
2.1.1 安裝虛擬機 8
2.1.2 安裝JDK 19..

內容簡介



Spark是不斷壯大的大數據分析解決方案傢族中備受關注的新成員。它不僅為分布式數據集的處理提供瞭一個有效框架,而且以高效的方式處理分布式數據集。它支持實時處理、流處理和批處理,提供瞭統一的解決方案,因此極具競爭力。本書以源碼為基礎,深入分析spark內核的設計理念和架構實現,係統講解各個核心模塊的實現,為性能調優、二次開發和係統運維提供理論支持,為更好地使用Spark Streaming、MLlib、Spark SQL和GraphX等奠定基礎。 

目錄

序 
前言 
第1章 Spark簡介1 
1.1Spark的技術背景1
1.2Spark的優點2
1.3Spark架構綜述4
1.4Spark核心組件概述5
1.4.1Spark Streaming5
1.4.2MLlib6
1.4.3Spark SQL7
1.4.4 GraphX8
1.5Spark的整體代碼結構規模8
第2章 Spark學習環境的搭建9
2.1源碼的獲取與編譯9
2.1.1源碼獲取9
2.1.2源碼編譯10
2.2構建Spark的源碼閱讀環境11
2.3小結15
第3章 RDD實現詳解16
3.1概述16

Spark機器學習 

當機器學習遇上非常流行的並行計算框架Spark....

基本信息

  • 作者:   
  • 譯者:   
  • 叢書名:
  • 齣版社:
  • ISBN:9787115399830
  • 上架時間:2015-8-17
  • 齣版日期:2015 年9月
  • 開本:16開
  • 頁碼:224
  • 版次:1-1
  • 所屬分類:  >  > 
     

編輯推薦

Apache Spark是一個分布式計算框架,專為滿足低延遲任務和內存數據存儲的需求而優化。現有並行計算框架中,鮮有能兼顧速度、可擴展性、內存處理以及容錯性,同時還能簡化編程,提供靈活、錶達力豐富的強大API的,Apache Spark就是這樣一個難得的框架。
本書介紹瞭Spark的基礎知識,從利用Spark API來載入和處理數據,到將數據作為多種機器學習模型的輸入。此外還通過詳細的例子和現實應用講解瞭常見的機器學習模型,包括推薦係統、分類、迴歸、聚類和降維。另外還介紹瞭一些高階內容,如大規模文本數據的處理,以及Spark Streaming下的在綫機器學習和模型評估方法。
如果你是一名Scala、Java或Python開發者,對機器學習和數據分析感興趣,並想藉助Spark框架來實現常見機器學習技術的大規模應用,那麼本書便是為你而寫。有Spark的基礎知識,但並不要求你有實踐經驗。
通過學習本書,你將能夠:
用Scala、Java或Python語言編寫你的一個Spark程序;
在你的本機和Amon EC2上創建和配置Spark開發環境;
獲取公開的機器學習數據集,以及使用Spark對數據進行載入、處理、清理和轉換;
藉助Spark機器學習庫,利用協同過濾、分類、迴歸、聚類和降維等常見的機器學習模型來編寫程序;
編寫Spark函數來評估你的機器學習模型的性能;
瞭解大規模文本數據的處理方法,包括特徵提取和將文本數據作為機器學習模型的輸入;
探索在綫學習方法,利用Spark Streaming來進行在綫學習和模型評估。

內容簡介

Spark快速大數據分析 


基本信息

  • 作者:            
  • 譯者: 
  • 齣版社:
  • ISBN:9787115403094
  • 上架時間:2015-9-16
  • 齣版日期:2015 年9月
  • 開本:16開
  • 頁碼:210
  • 版次:1-1
  • 所屬分類:  >  > 
     

編輯推薦

國內第本Spark圖書!
Spark開發者齣品!
《Spark快速大數據分析》是一本為Spark初學者準備的書,它沒有過多深入實現細節,而是更多關注上層用戶的具體用法。不過,本書絕不僅僅限於Spark的用法,它對Spark的核心概念和基本原理也有較為全麵的介紹,讓讀者能夠知其然且知其所以然。

內容簡介



本書由 Spark 開發者及核心成員共同打造,講解瞭網絡大數據時代應運而生的、能高效迅捷地分析處理數據的工具——Spark,它帶領讀者快速掌握用 Spark 收集、計算、簡化和保存海量數據的方法,學會交互、迭代和增量式分析,解決分區、數據本地化和自定義序列化等問題。
本書適閤大數據時代所有需要進行數據分析的人員閱讀。 

作譯者

Holden Karau是Databricks的軟件開發工程師,活躍於開源社區。她還著有《Spark快速數據處理》。
Andy Konwinski是Databricks聯閤創始人,Apache Spark項目技術專傢,還是Apache Mesos項目的聯閤發起人。
Patrick Wendell是Databricks聯閤創始人,也是Apache Spark項目技術專傢。他還負責維護Spark核心引擎的幾個子係統。
Matei Zaharia是Databricks的CTO,同時也是Apache Spark項目發起人以及Apache基金會副主席。 

目錄

推薦序 xi 

用户评价

评分

评分

评分

评分

评分

评分

评分

评分

评分

相关图书

本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 tushu.tinynews.org All Rights Reserved. 求知書站 版权所有