Scala機器學習 pdf epub mobi txt 电子书下载 2025

☆☆☆☆☆

[美] 亞曆剋斯·科茲洛夫（Alex Kozlov）著，劉波譯

圖書標籤:

Scala
機器學習
數據科學
算法
編程
技術
計算機科學
人工智能
大數據
Spark

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到求知書站

tushu.tinynews.org

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

出版社：机械工业出版社

ISBN：9787111572152

版次：1

商品编码：12128617

品牌：机工出版

包装：平装

丛书名：大数据技术丛书

开本：16开

出版时间：2017-07-01

用纸：胶版纸

页数：203

具体描述

內容簡介

　　Copyright ?2016 Packt Publishing. First published in the English language under the title “Mastering Scala Machine Learning”.All rights reserved.Chinese simplified language edition published by China Machine Press.Copyright ?2017 by China Machine Press.本書中文簡體字版由Packt Publishing授權機械工業齣版社齣版。未經齣版者書麵許可，不得以任何方式復製或抄襲本書內容。

前言/序言

　　Preface前言這是一本關於機器學習的書，它以Scala為重點，介紹瞭函數式編程方法以及如何在Spark上處理大數據。九個月前，當我受邀寫作本書時，我的第一反應是：Scala、大數據、機器學習，每一個主題我都曾徹底調研過，也參加瞭很多的討論，結閤任何兩個話題來寫都具有挑戰性，更不用說在一本書中結閤這三個主題。這個挑戰激發瞭我的興趣，於是就有瞭這本書。並不是每一章的內容都像我所希望的那樣圓滿，但技術每天都在快速發展。我有一份具體的工作，寫作隻是錶達我想法的一種方式。

　　下麵先介紹機器學習。機器學習經曆瞭翻天覆地的變換；它是由人工智能和統計學發展起來的，於20世紀90年代興起。後來在2010年或稍晚些時候誕生瞭數據科學。數據科學傢有許多定義，但JoshWills的定義可能最通俗，我有幸在Cloudera工作時和他共事過。這個定義在圖1中有具體的描述。雖然細節內容可能會有爭議，但數據科學確實是幾個學科的交叉，數據科學傢不一定是任何一個領域的專傢。據JeffHammerbacher（Cloudera的創始人，Facebook的早期員工）介紹，第一位數據科學傢工作於Facebook。Facebook需要跨學科的技能，以便從當時大量的社交數據中提取有價值的信息。雖然我自稱是一個大數據科學傢，但我已經關注這個交叉領域很久瞭，以至於有太多知識齣現混淆。寫這本書就是想使用機器學習的術語來保持對這些領域的關注度。

　　圖1數據科學傢的一種可能定義最近，在機器學習領域齣現瞭另一個被廣泛討論的話題，即數據量擊敗模型的復雜度。在本書中可以看到一些SparkMLlib實現的例子，特彆是NLP的word2vec。機器學習模型可以更快地遷移到新環境，也經常擊敗需要數小時纔能構建的更復雜的模型。因此，機器學習和大數據能夠很好地結閤在一起。

　　最後也很重要的一點是微服務的齣現。作者在本書中花瞭大量的篇幅介紹機器和應用程序通信，所以會很自然地提及Scala與Akkaactor模型。

　　對於大多數程序員而言，函數式編程更多是關於編程風格的變化，而不是編程語言本身。雖然Java8開始有來自函數式編程的lambda錶達式和流，但是人們仍然可以在沒有這些機製的情況下編寫函數式代碼，甚至可以用Scala編寫Java風格的代碼。使得Scala在大數據世界中名聲鵲起的兩個重要思想是惰性求值和不可變性，其中惰性求值可大大簡化多綫程或分布式領域中的數據處理。Scala有一個可變集閤庫和一個不可變集閤庫。雖然從用戶的角度來看它們的區彆很小，但從編譯器的角度來看，不變性大大增加瞭靈活性，並且惰性求值能更好地與大數據相結閤，因為REPL將大多數信息推遲到管道的後期處理，從而增加瞭交互性。

　　大數據一直備受關注，其主要原因是機器産生的數據量大大超越瞭人類在沒有使用計算機以前的數量。Facebook、Google、Twitter等社交網絡公司已經證明專門用於處理大數據的工具（如Hadoop、MapReduce和Spark）可以從這些數據塊中提取豐富的信息。

　　本書後麵將介紹關於Hadoop的內容。最初它能在廉價硬件上處理大量的信息，因為當時傳統的關係數據庫不能處理這樣的信息（或能處理，但是代價過高）。大數據這個話題太大瞭，而Spark纔是本書的重點，它是HadoopMapReduce的另一個實現，Spark提高瞭磁盤上持久化保存數據的效率。通常認為使用Spark有點貴，因為它消耗更多的內存，要求硬件必須更可靠，但它也更具交互性。此外，Spark使用Scala工作（也可以使用Java和Python等），但Scala是主要的API語言。因此Spark用Scala在數據管道的錶達方麵有一定的協同性。

　　本書主要內容第1章介紹數據分析師如何開始數據分析。除瞭允許用戶使用新工具查看更大的數據集以外，該章並沒有什麼新東西。這些數據集可能分布在多颱計算機上，但查看它們就像在本地機器上一樣簡單。當然，不會阻止用戶在單個機器上順序執行程序。但即使如此，作者寫作的這個筆記本電腦也有四個核，可同時運行1377個綫程。Spark和Scala（並行集閤）允許用戶透明地使用整個設備，有時並沒有顯式指定需要並行運行。現代服務器可對OS服務使用多達128個超綫程。該章將展示如何使用新工具來進行數據分析，並用它來研究以前的數據集。

　　第2章介紹在Scala/Spark之前一直存在的數據驅動過程，也會介紹完全數據驅動的企業，這類企業通過多颱數據生成機器的反饋來優化業務。大數據需要新的技術和架構來適應新的決策過程。該章藉鑒瞭一些學術資料來闡述數據驅動型業務的通用架構。在這種架構下，大多數工人的任務是監控和調整數據管道。

　　第3章重點介紹Spark的體係結構，它是前麵提及的HadoopMapReduce的替代者（或補充）。該章還將特彆介紹MLlib所支持的幾個算法。雖然這是一個嶄新的話題，但許多算法都對應著各種實現。該章將給齣一些例子，比如怎樣運行org.apache.spark.mllib包中標準的機器學習算法。最後介紹Spark的運行模式及性能調整。

　　第4章介紹機器學習的原理，雖然SparkMLlib的內容可能會不斷變化，但這些原理是不會變的。監督學習和無監

　　TheTranslator'sWords譯者序大數據是當前熱門的話題，其特點為數據量巨大，增長速度快，擁有各種類型。分布式機器學習是一種高效處理大數據的方法，其目的是從大數據中找到有價值的信息。目前各大互聯網公司都投入巨資研究分布式機器學習。

　　在實現分布式機器學習算法時，函數式編程有天生的優勢。這是因為函數式編程不會共享狀態，也不會造成資源競爭。Scala是一種優秀的函數式編程語言，同時它也是基於Java虛擬機的麵嚮對象的編程語言。使用Scala編程非常方便快捷。

　　Spark是2009年齣現的一種基於內存的分布式計算框架，它的處理速度比經典的分布式計算框架Hadoop快得多。Spark的核心部分是由Scala實現的。Spark對於處理迭代運算非常有效，而分布式機器學習算法經常需要迭代運算，因此Spark能很好地與機器學習結閤在一起。

　　本書共10章，介紹瞭如何使用Scala在Spark平颱上實現機器學習算法，其中Scala的版本為2.11.7，Spark采用基於Hadoop2.6的版本，這些都是比較新的版本。本書從數據分析師怎麼開始數據分析入手，介紹瞭數據驅動過程和Spark的體係結構；通過操作SparkMLlib庫，介紹瞭機器學習的基本原理及MLlib所支持的幾個算法；接著介紹瞭Scala如何錶示和使用非結構化數據，以及與圖相關的話題；再接著介紹瞭Scala與R和Python的集成；最後介紹瞭一些特彆適閤Scala編程的NLP常用算法及現有的Scala監控解決方案。總之，本書非常適閤從事分布式機器學習的數據工作者，使用書中提供的大量針對性編程例子，可提高工程實戰能力。

　　本書的第1～3章和第7章由重慶工商大學計算機科學與信息工程學院劉波博士翻譯；第4～6章和第8～10章由重慶工商大學計算機科學與信息工程學院羅棻翻譯。同時，劉波博士負責全書的技術審校工作。

　　翻譯本書的過程也是譯者不斷學習的過程。為瞭保證專業詞匯翻譯的準確性，我們在翻譯過程中查閱瞭大量相關資料。但由於時間和能力有限，書中內容難免齣現差錯。若有問題，讀者可通過電子郵件（liubo7971@163.com;luofcn@163.com）與我們聯係，歡迎一起探討，共同進步。並且，我們也會將最終的勘誤信息公布在http://www.cnblogs.com/mlcv/上。

　　本書的順利齣版還要特彆感謝機械工業齣版社華章公司的編輯在翻譯過程中給予的幫助！

　　本書的翻譯也得到如下項目資助：（1）國傢自然科學基金一般項目，非同步脈衝神經膜係統研究，項目號：61502063；（2）重慶市檢測控製集成係統工程實驗室新技術新産品開放課題，基於圖像內容的目標檢測算法及應用研究，項目號：KFJJ2016042。

Scala機器學習：智能時代的強大引擎在數據爆炸式增長的今天，如何從海量信息中挖掘價值，讓機器擁有理解、學習和決策的能力，已經成為各行各業關注的焦點。機器學習，作為人工智能的核心驅動力，正在以前所未有的速度改變著我們的世界。而Scala，憑藉其優雅的語法、強大的錶達能力以及與Java虛擬機（JVM）的無縫集成，正逐漸成為構建高性能、可擴展機器學習解決方案的理想選擇。本書，《Scala機器學習》，將帶您深入探索Scala在機器學習領域的無限可能。我們並非聚焦於某個特定的算法或模型，而是著眼於構建一套完整的Scala機器學習生態係統，幫助您掌握在Scala環境下進行數據處理、模型訓練、評估與部署的各項核心技能。無論您是初次接觸機器學習的開發者，還是尋求更高效工具的資深工程師，抑或是希望在數據科學領域拓展技能的學者，本書都將是您不可或缺的指南。為什麼選擇Scala進行機器學習？在探討Scala機器學習的實戰細節之前，讓我們先來理解為什麼Scala能夠成為機器學習的有力武器。函數式編程的優勢： Scala融閤瞭麵嚮對象和函數式編程的範式。函數式編程的不可變性、無副作用等特性，能夠極大地簡化並發編程，減少潛在的bug，使代碼更易於測試和維護。在處理大規模數據集和復雜的計算任務時，這一點尤為重要。錶達力強，代碼簡潔： Scala的語法簡潔而富有錶現力，能夠用更少的代碼實現更復雜的功能。這不僅提高瞭開發效率，也使得代碼更容易理解和復用。 JVM生態係統的強大支撐： Scala運行在Java虛擬機上，這意味著您可以充分利用JVM龐大而成熟的生態係統，包括大量的Java庫和框架。這為機器學習提供瞭豐富的工具箱，例如用於數據處理的Apache Spark、用於大規模計算的Akka等。類型安全： Scala強大的靜態類型係統可以在編譯時捕獲許多潛在的錯誤，從而提高瞭代碼的健壯性。這對於需要處理各種數據類型和復雜計算的機器學習任務來說，是至關重要的。與其他數據處理框架的協同： Scala與Spark等分布式計算框架的天然契閤，使得構建可擴展的機器學習管道變得更加容易。本書內容概覽：構建您的Scala機器學習能力本書的結構設計旨在循序漸進地引導您掌握Scala機器學習的各項技術。我們將從基礎的Scala編程概念開始，逐步深入到各種機器學習算法的實現與應用。第一部分：Scala基礎與數據科學準備在正式進入機器學習的核心之前，紮實的基礎是必不可少的。我們將從Scala語言的關鍵特性入手，為您的機器學習之旅打下堅實基礎。 Scala語言概覽：簡要迴顧Scala的核心概念，包括變量、數據類型、控製結構、函數、類、特質（Traits）等。重點在於理解Scala函數式編程的精髓，如高階函數、匿名函數、模式匹配等。集閤操作與函數式數據處理：深入講解Scala集閤（List, Vector, Map, Set等）的強大功能，學習如何利用函數式編程風格高效地進行數據轉換、過濾、映射和聚閤。這將是後續數據預處理的基礎。 Scala的麵嚮對象特性：瞭解Scala是如何將麵嚮對象與函數式編程結閤的，包括類、繼承、多態、抽象類、特質等，理解它們在構建模塊化、可復用代碼中的作用。並發與並行編程基礎：介紹Scala的並發模型，包括Actor模型（通過Akka庫）和Futures，為處理大規模計算和提升模型訓練效率奠定基礎。構建工具與項目管理：熟悉使用SBT (Simple Build Tool) 進行Scala項目的構建、依賴管理和測試，確保您的項目能夠順利運行和部署。第二部分：數據預處理與特徵工程高質量的數據是成功機器學習的關鍵。本部分將專注於如何使用Scala有效地處理和轉換數據，為模型訓練做好準備。數據讀取與寫入：學習如何使用Scala讀取和寫入各種格式的數據，包括CSV, JSON, Parquet等，以及與文件係統的交互。數據清洗與處理：掌握Scala進行數據清洗的技巧，包括處理缺失值、異常值、重復值，以及數據格式統一等。特徵提取與構建：探索如何從原始數據中提取有用的特徵，例如文本數據的詞袋模型、TF-IDF，以及數值數據的標準化、歸一化等。數據轉換與編碼：學習將分類特徵轉換為數值特徵（如獨熱編碼、標簽編碼），以及處理日期、時間等特殊數據類型。數據可視化基礎：介紹如何在Scala中進行基本的數據可視化，以便更好地理解數據分布和特徵關係。我們將探索一些常用的Scala數據可視化庫。第三部分：核心機器學習算法的Scala實現本書將深入講解多種經典且實用的機器學習算法，並以Scala語言進行實現。我們將不僅關注算法的原理，更注重如何在Scala環境中高效地實現和應用它們。監督學習：綫性迴歸與邏輯迴歸：理解這些基礎模型的原理，並在Scala中實現它們，學習如何進行參數估計和模型評估。支持嚮量機 (SVM)：探索SVM的核函數和優化原理，並學習在Scala中構建和訓練SVM模型。決策樹與隨機森林：深入理解樹形模型的構建過程，以及如何通過集成學習（隨機森林）來提升模型的魯棒性和準確性。梯度提升樹 (Gradient Boosting Trees)：學習XGBoost、LightGBM等先進的梯度提升算法，並在Scala中展示如何使用它們。樸素貝葉斯：瞭解其概率模型，並在文本分類等場景下進行應用。無監督學習： K-Means聚類：學習如何使用Scala實現K-Means算法，對數據進行分組。層次聚類：探索不同的層次聚類方法，並學習其在Scala中的應用。主成分分析 (PCA)：理解降維技術，並在Scala中進行PCA的實現和應用。關聯規則挖掘 (Apriori)：學習如何發現數據中的潛在關聯性。模型評估與選擇：評估指標：詳細講解各種評估指標，如準確率、精確率、召迴率、F1分數、AUC等，以及如何使用Scala進行計算。交叉驗證：學習如何使用交叉驗證來評估模型的泛化能力，避免過擬閤。超參數調優：介紹網格搜索、隨機搜索等超參數調優技術，並展示如何在Scala中實現。第四部分：集成與部署模型訓練完成後，如何將其集成到實際應用中並進行高效部署，是機器學習項目成功的關鍵。與Apache Spark集成：深入講解如何利用Spark MLlib庫，在Scala中構建分布式機器學習管道，處理大規模數據集。我們將展示如何利用Spark進行數據預處理、模型訓練和預測。模型持久化：學習如何將訓練好的模型保存起來，以便在後續應用中進行加載和復用。構建機器學習服務：介紹如何將Scala機器學習模型封裝成RESTful API，方便其他應用程序進行調用。性能優化與擴展性：探討在Scala中進行機器學習模型性能優化的策略，以及如何構建可擴展的機器學習係統。實際案例分析：通過具體的應用場景，例如推薦係統、圖像識彆、自然語言處理中的機器學習任務，來展示Scala在實際項目中的應用。誰應該閱讀本書？ Scala開發者：希望將Scala技能擴展到機器學習領域的開發者。數據科學傢：尋求一種更強大、更具錶達力語言來構建和部署機器學習模型的專業人士。 Java開發者：希望遷移到Scala並利用其在數據科學領域的優勢的開發者。計算機科學專業的學生和研究人員：希望深入理解Scala在機器學習領域的應用和實現。任何對使用Scala進行智能係統構建感興趣的工程師。《Scala機器學習》並非一本僅僅羅列算法概念的書籍，它更側重於通過Scala這一強大工具，賦予您構建、訓練、優化和部署實際機器學習解決方案的能力。我們相信，通過本書的學習，您將能夠自信地駕馭Scala，在智能時代浪潮中，開闢齣屬於自己的一片天地。準備好迎接這場激動人心的技術之旅吧！

用户评价

评分☆☆☆☆☆

這本書的排版和印刷質量都令人印象深刻。書頁紙張厚實，觸感溫潤，墨跡清晰，長時間閱讀也不會感到眼睛疲勞。我最看重一本技術書籍的易讀性，而《Scala機器學習》在這一點上做得非常齣色。目錄清晰明瞭，章節劃分閤理，每一章的標題都能夠準確地反映其內容，便於讀者快速定位感興趣的主題。我尤其欣賞書中對概念的講解方式，據說能夠深入淺齣，將復雜的機器學習原理用通俗易懂的語言闡述清楚，並輔以豐富的圖示和流程圖，幫助讀者建立直觀的理解。對於像我這樣需要將理論知識與實踐相結閤的學習者來說，這一點至關重要。我非常期待書中能夠包含大量實用的代碼示例，並且這些代碼能夠清晰地展示如何在Scala環境中實現各種機器學習算法，包括數據預處理、模型訓練、參數調優以及模型評估等關鍵環節。

评分☆☆☆☆☆

這本書的包裝很精美，拿到手裏就覺得很有質感，封麵設計簡潔大方，字體清晰，讓人一眼就能感受到其專業性。我本來對機器學習這個領域瞭解不多，隻是聽說它在人工智能方麵有著舉足輕重的地位，所以一直想找一本閤適的入門書來學習。在眾多選擇中，我被《Scala機器學習》這個書名吸引瞭。Scala這個語言我平時工作中接觸得不多，但聽說它在大數據和分布式計算領域非常流行，而且與機器學習結閤也是一個很熱門的方嚮。我期待這本書能帶我領略Scala在機器學習領域的魅力，學習如何運用這門語言來構建強大的機器學習模型，解決實際問題。當然，我更看重的是這本書的實用性，希望它能提供清晰易懂的講解，豐富的代碼示例，以及對實際應用場景的深入分析，幫助我從零開始掌握Scala機器學習的核心技術。

评分☆☆☆☆☆

這本書的作者在 Scala 和機器學習領域都擁有深厚的造詣，這讓我對其內容充滿瞭信心。我一直認為，一本優秀的機器學習書籍，不僅要講解算法原理，更要提供實際可行的實現方法，並能結閤實際應用場景進行深入分析。《Scala機器學習》這本書，據說是完美地結閤瞭這幾點。我特彆期待書中能夠深入剖析 Scala 語言在機器學習中的獨特優勢，例如其函數式編程的特性如何幫助我們編寫齣更簡潔、更易於維護的代碼，以及如何利用 Scala 的並發和分布式計算能力來處理大規模數據集。此外，我希望能看到書中提供大量的代碼示例，並且這些示例都經過精心設計，能夠清晰地展示如何一步步構建和訓練機器學習模型，並且能夠解釋每一步背後的原理。我希望這本書能成為我學習 Scala 機器學習的有力助手，幫助我快速掌握這項前沿技術。

评分☆☆☆☆☆

這本書的序言部分寫得相當有吸引力，它不僅點齣瞭Scala在現代數據科學和機器學習領域日益增長的重要性，還強調瞭其函數式編程的特性如何為構建健壯、可擴展的機器學習係統提供瞭獨特的優勢。讀完序言，我感覺自己仿佛置身於一個充滿挑戰和機遇的領域，迫不及待地想要深入探索。我尤其好奇的是，這本書將如何將Scala的語言特性與經典的機器學習算法相結閤。是會從Scala的基礎語法入手，逐步過渡到具體的算法實現，還是會直接講解算法，然後展示如何在Scala中高效地實現它們？我希望作者能夠提供一種循序漸進的學習路徑，讓像我這樣對Scala不太熟悉的讀者也能輕鬆上手。同時，我也對書中可能包含的案例研究非常感興趣，期待看到Scala機器學習在實際業務場景中的應用，例如在金融風控、推薦係統或者自然語言處理等方麵的解決方案。

评分☆☆☆☆☆

我是一名正在探索機器學習領域的初學者，一直對如何將Scala這門強大且富有錶現力的語言應用於機器學習感到好奇。在網上搜索相關資源時，《Scala機器學習》這本書引起瞭我的注意。從書名來看，它似乎能夠填補我在這方麵的知識空白。我希望這本書能為我提供一個堅實的理論基礎，讓我理解機器學習的核心概念，並在此基礎上，學習如何利用Scala的語法優勢和強大的庫生態係統來構建和實現各種機器學習模型。我特彆期待書中能夠詳細介紹Scala在數據處理、特徵工程以及算法實現方麵的最佳實踐，或許還會涉及到一些分布式計算框架，如Spark，因為我知道Scala在這方麵有著卓越的錶現。我希望能通過這本書，不僅掌握機器學習的理論，更能學會用Scala來解決實際問題，為我的數據科學之路奠定堅實的基礎。

评分☆☆☆☆☆

送货杠杠的，周五买的，要求下周一送到，没毛病，书是科普书，趣味性性很强，准备快速看完。

评分☆☆☆☆☆

看着美观大气上档次。一直信任京东。质量不错，送货很快，服务很好！太漂亮，大气，档次高，超喜欢。货比三家，选的也好是辛苦啊?现在除了一碗热气腾腾的拉面，在强哥这里买不到其他的，只有你想不到没有买不到? 上午下单，下午到家速度啊！看着还行货品不错，装了实用。质量可以。是值得购买不错不错不错！！！！！！用了还可以，刚开始用有点涩。很干净，质感也不错，价位适中，性价比一般吧。不错物流一天就到了整体感觉很不错，收到就用了，挺喜欢的，这个用的好，还要买多几个。物美价廉，用着看看吧，免去市场购物之劳，推荐答案我为什么喜欢在京东买东西，因为今天买明天就可以送到。我为什么每个商品的评价都一样，因为在京东买的东西太多太多了，导致积累了很多未评价的订单，所以我统一用段话作为评价内容。京东购物这么久，有买到很好的产品，也有买到比较坑的产品，如果我用这段话来评价，说明这款产品没问题，宝贝收到了，非常喜欢，质量很好，卖家热情，物流给力，非常愉快的一次购物，好评！

评分☆☆☆☆☆

人工智能时代已经开启，要跟上时代的步伐呀！目录体例不错，就是书薄了点儿。。。

评分☆☆☆☆☆

深度学习和机器视觉相结合，内容较完整，但是不是很深入

评分☆☆☆☆☆

时，配送员也非常的热情，有时候不方便收件的时

评分☆☆☆☆☆

书非常不错，要好好看看，尤其书中程序和图解较多，适合我看。

评分☆☆☆☆☆

就讲了点传统机器学习的简单算法，即便原理都非常概括，实操基本都没有，比如如何解决spark-oom问题、优化问题、运筹学、信息熵、交叉熵、相对熵等等。打着机器学习的名称骗人；看了下几个联合作者，还不如我呢，买的十分后悔。当是儿童读物了

评分☆☆☆☆☆

品牌的价值，还不错，值得购买。