計算機科學叢書：數據挖掘與R語言 pdf epub mobi txt 电子书下载 2026

☆☆☆☆☆

[葡] Luís Torgo 著，李洪成，陳道輪，吳立明譯

圖書標籤:

數據挖掘
R語言
計算機科學
統計學習
機器學習
數據分析
算法
數據可視化
模式識彆
人工智能

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到求知書站

tushu.tinynews.org

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

出版社：机械工业出版社

ISBN：9787111407003

版次：1

商品编码：11221177

品牌：机工出版

包装：平装

丛书名：计算机科学丛书

开本：16开

出版时间：2013-04-01

用纸：胶版纸

页数：216

正文语种：中文

具体描述

編輯推薦

　　《計算機科學叢書：數據挖掘與R語言》的支持網站給齣瞭案例研究的所有代碼、數據集以及R函數包
　　不要求讀者具有R、數據挖掘或統計技術的基礎知識
　　《計算機科學叢書：數據挖掘與R語言》利用大量給齣必要步驟、代碼和數據的具體案例，詳細描述瞭數據挖掘的主要過程和技術

內容簡介

　　《計算機科學叢書：數據挖掘與R語言》首先簡要介紹瞭R軟件的基礎知識（安裝、R數據結構、R編程、R的輸入和輸齣等）。然後通過四個數據挖掘的實際案例（藻類頻率的預測、證券趨勢預測和交易係統仿真、交易欺詐預測、微陣列數據分類）介紹數據挖掘技術。這四個案例基本覆蓋瞭常見的數據挖掘技術，從無監督的數據挖掘技術、有監督的數據挖掘技術到半監督的數據挖掘技術。全書以實際問題、解決方案和對解決方案的討論為主綫來組織內容，脈絡清晰，並且各章自成體係。讀者可以從頭至尾逐章學習，也可以根據自己的需要進行學習，找到自己實際問題的解決方案。
　　《計算機科學叢書：數據挖掘與R語言》不需要讀者具備R和數據挖掘的基礎知識。不管是R初學者，還是熟練的R用戶都能從書中找到對自己有用的內容。讀者既可以把本書作為學習如何應用R的一本優秀教材，也可以作為數據挖掘的工具書。

作者簡介

　　Luís Torgo，葡萄牙波爾圖大學計算機科學係副教授，現在在LIAAD實驗室從事研究工作。他是APPIA會員，同時還是OBEGEF的創辦會員。

內頁插圖

齣版者的話
推薦序
中文版序
譯者序
前言
緻謝
第1章簡介
1.1如何閱讀本書
1.2R簡介
1.2.1R起步
1.2.2R對象
1.2.3嚮量
1.2.4嚮量化
1.2.5因子
1.2.6生成序列
1.2.7數據子集
1.2.8矩陣和數組
1.2.9列錶
1.2.10數據框
1.2.11構建新函數
1.2.12對象、類和方法
1.2.13管理R會話
1.3MySQL簡介

第2章預測海藻數量
2.1問題描述與目標
2.2數據說明
2.3數據加載到R
2.4數據可視化和摘要
2.5數據缺失
2.5.1將缺失部分剔除
2.5.2用最高頻率值來填補缺失值
2.5.3通過變量的相關關係來填補缺失值
2.5.4通過探索案例之間的相似性來填補缺失值
2.6獲取預測模型
2.6.1多元綫性迴歸
2.6.2迴歸樹
2.7模型的評價和選擇
2.8預測7類海藻的頻率
2.9小結

第3章預測股票市場收益
3.1問題描述與目標
3.2可用的數據
3.2.1在R中處理與時間有關的數據
3.2.2從CSV文件讀取數據
3.2.3從網站上獲取數據
3.2.4從MySQL數據庫讀取數據
3.3定義預測任務
3.3.1預測什麼
3.3.2預測變量是什麼
3.3.3預測任務
3.3.4模型評價準則
3.4預測模型
3.4.1如何應用訓練集數據來建模
3.4.2建模工具
3.5從預測到實踐
3.5.1如何應用預測模型
3.5.2與交易相關的評價準則
3.5.3模型集成：仿真交易
3.6模型評價和選擇
3.6.1濛特卡羅估計
3.6.2實驗比較
3.6.3結果分析
3.7交易係統
3.7.1評估最終測試數據
3.7.2在綫交易係統
3.8小結

第4章偵測欺詐交易
4.1問題描述與目標
4.2可用的數據
4.2.1加載數據至R
4.2.2探索數據集
4.2.3數據問題
4.3定義數據挖掘任務
4.3.1問題的不同解決方法
4.3.2評價準則
4.3.3實驗方法
4.4計算離群值的排序
4.4.1無監督方法
4.4.2有監督方法
4.4.3半監督方法
4.5小結

第5章微陣列樣本分類
5.1問題描述與目標
5.1.1微陣列實驗背景簡介
5.1.2數據集ALL
5.2可用的數據
5.3基因（特徵）選擇
5.3.1基於分布特徵的簡單過濾方法
5.3.2ANOVA過濾
5.3.3用隨機森林進行過濾
5.3.4用特徵聚類的組閤進行過濾
5.4遺傳學異常的預測
5.4.1定義預測任務
5.4.2模型評價標準
5.4.3實驗過程
5.4.4建模技術
5.4.5模型比較
5.5小結
參考文獻
主題索引
數據挖掘術語索引
R函數索引

精彩書摘

注意，數字2（實際上是嚮量c（2）！）被循環，導緻v1的所有元素乘以2。正如我們將看到的，這種循環規則也適用於其他的對象，如數組和矩陣。
1.2.5 因子
因子提供瞭一個簡單而又緊湊的形式來處理分類（名義）數據。因子用水平來錶示所有可能的取值。如果數據集有取值個數固定的名義變量，因子就特彆有用。下麵的章節將要學習的多個圖形函數和匯總函數就應用瞭因子的這種優點。對用戶來說，這種使用和顯示因子數據的方式顯然是易於理解的，而R軟件內部以數值編碼方式來存儲因子值，這將大大提高內存的利用效率。
下麵舉例說明如何在R中創建因子。假設有一個10個人的性彆嚮量：
>g<—c（“f”，“m”，“m”，“m”，“f”，“m”，“f”，“m”，“f”，“f”）
>g
[1] “f” “m” “m” “m” “f” “m” “f” “m” “f” “f”
你可以把這個嚮量轉換為一個因子：
）g<—factor（g）
>g
[1]f m m m f m f m f f
Levels：f m
注意，得到的不再是一個字符嚮量。上麵提到，實際上這些因子在R內部錶示為數值嚮量@。
在這個例子中，因子有兩個水平，‘f’和‘m’，在R內部分彆錶示為1和2。然而，你不需要關心這個內部錶示，因為你可以使用“原始的”字符值，R在顯示因子時也使用這種字符方式。因此，齣於效率的考慮，R因子的編碼轉換是用戶透明的。
假設有另外5個人，需要把他們的性彆信息存儲在另一個因子對象中。假設他們都是男性。

前言/序言

【前言】
Data Mining with R：Learning with Case Studies
　　本書的主要目的是嚮讀者介紹如何用R進行數據挖掘。R是一個可以自由下載的語言，它提供統計計算和繪圖環境，其功能和大量的添加包使它成為一款優秀的、多個已有（昂貴）數據挖掘工具的替代軟件。
�∠略贋�址：http://www�眗�瞤roject�眔rg。 ��

　　數據挖掘的一個關鍵問題是數據量。典型的數據挖掘問題包括一個大的數據庫，需要從中提取有用的信息。在本書中，我們用MySQL作為核心數據庫管理係統。對多個計算機平颱，MySQL也是免費的。這意味著，我們可以不用付任何費用就可以進行“重要的”數據挖掘任務。同時，我們希望說明解決方案質量上並沒有任何損失。昂貴的工具並不意味著一定更好！隻要你願意花時間來學習如何應用它們，R和MySQL就是一對很難超越的工具。我們認為這是值得的，希望在讀完本書之後，你也相信這點。
�� 下載網址：http://www�眒ysql�眂om。 ��
　　本書的目的不是介紹數據挖掘的各個方麵。許多已有的書籍覆蓋瞭數據挖掘領域。我們用幾個案例來嚮讀者介紹R的數據挖掘能力。顯然，這幾個案例不能代錶我們在現實世界中碰到的所有數據挖掘問題。同時，我們給齣的解決方案也不是最完全的方案。我們的目的是通過這些實際案例嚮讀者介紹如何用R進行數據挖掘。因此，我們案例分析的目的是展示用R進行信息提取的例子，而不是提供數據挖掘案例的完整分析報告。它們可以作為任何數據挖掘項目的可能思路，或者作為開發數據挖掘項目解決方案的基礎。盡管如此，我們盡力嘗試覆蓋多方麵的問題，展示數據大小、不同數據類型、分析目標和進行分析所必需的工具所帶來的挑戰。然而，這裏的實踐方式也是有代價的。實際上，作為具體案例研究的一種形式，為瞭讓讀者在自己的計算機上執行我們所描述的步驟，我們也做瞭某些妥協。也就是說，我們不能處理太大的問題，這些問題要求的計算機資源不是每個人都具備的。盡管這樣，我們認為本書涵蓋的問題也不算小，並對不同的數據類型和維度給齣瞭解決方案。
　　這裏並不要求讀者具有R的先驗知識。沒有學過R和數據挖掘的讀者應該可以學習書中的案例。書中的各個案例相互獨立，讀者可以從書中任何一個案例開始。在第一個簡單案例中，給齣瞭一些基本的R知識。這意味著，如果你沒有學過R，至少應該從第一個案例開始學習。而且，第1章給齣瞭R和MySQL的簡介，它可以幫助你理解後麵的章節。我們也沒有假設你熟悉數據挖掘和統計技術。在每個案例的必要地方，都對不同的數據挖掘技術進行瞭介紹。本書的目的不是嚮讀者介紹這些技術的理論細節和全麵知識，我們對這些工具的描述包括瞭它們的基本性質、缺點和分析目標。如果需要進一步瞭解技術細節，可以參考其他書籍。在某些節的末尾，我們提供瞭“參考資料”，如果需要，可以參考它們。總之，本書的讀者應該是數據分析工具的用戶，而不是研究人員或者開發人員。同時，我們希望後者把本書作為進入R和數據挖掘“世界”的一種方式，從而發現本書的用途。
　　本書有一個免費的R代碼集，可以從本書網站下載。其中含有案例研究中的所有代碼，這可以幫助你的實踐學習。我們強烈建議讀者在閱讀本書時安裝R並實驗書中的代碼。而且，我們創建瞭一個名為DMwR的R添加包，它包含本書用到的多個函數和以R格式保存的案例數據集。你應該按照本書的指示，安裝並加載該添加包（第1章給齣瞭細節）。
�� 下載網址：http://www�眑iaad�眜p�眕t/~ltorgo/DataMiningWithR/。

《深度解析：智能數據驅動的商業決策》在信息爆炸的時代，數據已成為企業最寶貴的資産。然而，海量數據的背後隱藏著巨大的價值，也伴隨著前所未有的挑戰。如何從紛繁復雜的數據洪流中提取洞察，將其轉化為驅動商業成功的戰略，是每一個現代企業都必須麵對的核心議題。《深度解析：智能數據驅動的商業決策》是一本旨在賦能您駕馭數據力量、做齣更明智、更具前瞻性商業決策的權威指南。本書並非僅僅聚焦於某種特定技術或工具，而是緻力於構建一個全麵、係統化的數據驅動決策框架，幫助讀者理解數據在商業運作各個環節的潛能，並掌握將其轉化為實際價值的方法。本書的獨特之處在於其高度的實踐導嚮和前瞻性視野。我們深知，理論的海洋固然廣闊，但真正能夠改變商業格局的是那些能夠落地執行的策略和方法。因此，本書內容緊密圍繞商業實際需求展開，從戰略層麵到戰術執行，層層遞進，力求為讀者提供一套可操作、可復製的解決方案。第一部分：構建數據驅動的商業思維在踏上數據驅動之旅的起點，我們首先需要革新的是思維模式。本部分將深入探討：數據驅動的本質與演進：剖析數據驅動決策的核心理念，追溯其在商業發展曆程中的演變軌跡，理解數據如何從簡單的記錄工具升華為戰略製勝的關鍵。我們將討論從描述性統計到預測性分析，再到規範性建議的分析能力躍升，以及這種躍升對企業運營模式帶來的顛覆性影響。智能數據決策的戰略意義：闡釋為何在當今競爭激烈的市場環境中，數據驅動已不再是“可選項”，而是“必選項”。我們將分析企業在各個層麵，如産品研發、市場營銷、客戶服務、運營管理、風險控製等方麵，如何通過數據洞察實現差異化競爭優勢。數據價值鏈的構建與優化：詳細解讀企業如何係統性地構建從數據采集、清洗、存儲、分析到應用的全生命周期價值鏈。本書將提供一套評估和優化現有數據基礎設施的實用方法，確保數據能夠高效、安全地流動，並最終服務於商業目標。數據倫理與閤規性：在享受數據紅利的同時，我們必須正視數據安全、隱私保護以及閤規性問題。本部分將深入探討相關法律法規，並提供切實可行的操作指南，幫助企業在閤法閤規的框架內，最大化數據的使用價值。第二部分：數據洞察的獲取與解讀有瞭正確的心態和框架，接下來便是掌握獲取和解讀數據洞察的關鍵技能。本部分將聚焦於：商業問題導嚮的數據分析：強調分析的起點始終是清晰的商業問題。本書將引導讀者學習如何將模糊的商業挑戰轉化為可執行的數據分析任務，並選擇最恰當的分析方法。主流數據分析方法論詳解：詳細介紹支撐智能數據決策的各類分析方法，包括但不限於：描述性分析：如何通過可視化和統計手段，清晰呈現現狀，識彆趨勢和模式。例如，通過用戶畫像分析，描繪目標客戶群體的特徵。診斷性分析：深入挖掘問題根源，理解“為什麼會發生”。例如，分析銷售額下降的原因，找齣是營銷活動失效還是産品缺陷。預測性分析：利用曆史數據和算法，預判未來趨勢和結果。例如，預測客戶流失的可能性，提前進行挽留。規範性分析：基於預測結果，提齣最優的行動建議，實現“應該怎麼做”。例如，為不同客戶群體推薦個性化的産品或服務。數據可視化：溝通洞察的關鍵橋梁：深入講解數據可視化的原則和技巧，如何選擇閤適的圖錶類型，如何設計直觀、易懂的可視化界麵，將復雜的數據關係轉化為清晰的商業洞察，有效地傳達給決策者。解讀分析結果的藝術：分析的最終目標是指導決策。本部分將教授讀者如何批判性地審視分析結果，識彆潛在偏差，並將其與商業情境相結閤，做齣有價值的解讀。第三部分：智能數據驅動的商業實踐理論的意義在於指導實踐，本部分將把前兩部分的內容融會貫通，聚焦於如何在具體的商業場景中落地數據驅動的決策。營銷與銷售的智能化升級：精準營銷與客戶細分：如何利用客戶數據進行精細化分群，實現個性化的産品推薦、廣告投放和溝通策略，大幅提升營銷 ROI。銷售預測與機會管理：基於銷售數據和市場趨勢，準確預測銷售額，識彆高潛力銷售綫索，優化銷售流程。客戶生命周期價值（CLV）最大化：理解並應用 CLV 模型，製定針對性的客戶留存和增值策略。産品開發與創新的數據賦能：用戶行為分析與産品優化：通過分析用戶在産品中的交互數據，發現用戶痛點和潛在需求，指導産品迭代和功能改進。市場趨勢預測與新産品機會識彆：利用行業數據、社交媒體信息等，洞察市場趨勢，發現尚未被滿足的需求，孵化創新産品。 A/B 測試與精益化産品發布：係統性地進行 A/B 測試，以數據為依據，科學地評估和選擇産品方案，降低試錯成本。運營效率的精益化提升：供應鏈與物流優化：基於實時數據，優化庫存管理、配送路綫，降低運營成本，提升響應速度。生産製造的智能監控與預測性維護：通過傳感器數據和機器學習，實現生産過程的實時監控，預測設備故障，提前進行維護，避免停機損失。人力資源管理的優化：基於員工數據，優化招聘流程，提升培訓效果，預測人纔流失風險，構建高績效團隊。風險管理與欺詐檢測的智能化：信用風險評估：利用多維度數據，構建精準的信用評分模型，有效規避信貸風險。欺詐行為識彆與預防：通過模式識彆和異常檢測，實時發現和阻止潛在的欺詐行為，保護企業和客戶的利益。第四部分：數據驅動決策的未來展望隨著人工智能、大數據技術的飛速發展，數據驅動的商業決策正迎來前所未有的機遇。本部分將帶領讀者展望未來：人工智能與機器學習在決策中的應用深化：探索更高級的 AI 模型，如深度學習、強化學習等，如何在更復雜的商業場景中提供更智能的洞察和自動化決策。自動化決策引擎與實時響應：討論如何構建能夠實時響應市場變化、自動執行決策的係統，實現“秒級”商業反應。數據驅動的組織變革與人纔培養：分析在數據驅動轉型過程中，組織架構、企業文化以及人纔培養所麵臨的挑戰與機遇，以及如何構建數據素養更高的團隊。倫理、治理與可持續發展：再次強調數據倫理和治理的重要性，並探討如何在數據驅動的商業模式中融入可持續發展的理念，實現經濟效益和社會效益的雙贏。《深度解析：智能數據驅動的商業決策》不僅僅是一本書，更是一張通往未來商業新世界的導航圖。無論您是企業管理者、數據分析師、産品經理、營銷專傢，還是對數據驅動的商業模式充滿興趣的探索者，本書都將為您提供寶貴的知識、實用的工具和開闊的視野。本書力求通過嚴謹的邏輯、豐富的案例和易於理解的語言，幫助您：理解數據在現代商業中的核心價值。掌握構建和實施數據驅動決策框架的關鍵步驟。學習如何從數據中提取有價值的洞察。將數據洞察轉化為切實的商業策略和行動。在快速變化的商業環境中，保持領先地位，做齣更明智、更具競爭力的決策。翻開本書，您將開啓一段探索數據力量、驅動商業革新的精彩旅程。

用户评价

评分☆☆☆☆☆

這本書就像一個全能工具箱，裏麵塞滿瞭解決數據問題所需要的一切。我一直對數據可視化情有獨鍾，因為我覺得好的可視化能夠讓復雜的數據瞬間變得清晰明瞭。這本書在這方麵做得尤為齣色，它不僅介紹瞭R語言中強大的可視化包，如ggplot2，還通過大量的實例展示瞭如何繪製各種類型的圖錶，從簡單的柱狀圖、摺綫圖，到更復雜的網絡圖、熱力圖，應有盡有。更讓我驚喜的是，書中還講解瞭如何根據不同的數據類型和分析目的來選擇最閤適的可視化方法。比如，在講解關聯規則挖掘時，作者就展示瞭如何用網絡圖來清晰地展示産品之間的關聯性，這比單純的數字列錶要直觀太多瞭。此外，這本書還涵蓋瞭文本挖掘、時間序列分析等多個重要領域，每一個領域都進行瞭深入淺齣的講解，並且都與R語言的實際操作緊密結閤。我感覺通過這本書的學習，我不僅掌握瞭數據挖掘的基本技術，更重要的是學會瞭如何用R語言這個強大的工具來解決現實世界中的各種數據難題。

评分☆☆☆☆☆

這本書簡直是一扇新世界的大門！作為一個對數據分析領域一直充滿好奇但又無從下手的小白，我常常在網上看到各種關於數據挖掘的炫酷應用，從預測用戶行為到識彆欺詐，都讓我覺得神乎其技。但一來二去，接觸到的資料要麼過於理論化，要麼代碼晦澀難懂，總感覺隔著一層窗戶紙。直到我翻開這本《計算機科學叢書：數據挖掘與R語言》，那種“原來如此”的感覺瞬間湧上心頭。作者並沒有一開始就拋齣一堆復雜的數學公式，而是循序漸進地從數據挖掘的基本概念講起，並且非常巧妙地將每一個概念都與R語言中的具體實現結閤起來。比如，在講解數據預處理時，書中不是簡單羅列各種清洗方法，而是通過一個真實的案例，一步步展示如何用R的函數來處理缺失值、異常值，如何進行特徵編碼，看得我躍躍欲試。更重要的是，它強調瞭“理解”而非“記憶”，讓我明白為什麼要做這些步驟，它們背後的邏輯是什麼。這比我之前囫圇吞棗地學習要有效得多，感覺我真的在學習如何“思考”如何解決數據問題，而不是簡單地復製代碼。

评分☆☆☆☆☆

要說這本書的亮點，那絕對是它將理論與實踐的結閤做得非常齣色。我之前也看過一些關於數據挖掘的書籍，但很多都偏重理論，學完感覺好像什麼都懂瞭，但真要動手做的時候就傻眼瞭。這本書完全不一樣，它以R語言為載體，幾乎所有的概念講解都伴隨著清晰的代碼示例，而且這些代碼都是可以直接運行的，非常方便。我尤其喜歡它對不同算法的比較分析，比如在講到分類算法時，它就對比瞭決策樹、支持嚮量機和邏輯迴歸的優缺點，以及在什麼情況下選擇哪種算法更閤適。這種深度的分析讓我對各種算法有瞭更全麵的認識，而不僅僅是停留在“知道有這個算法”的層麵。書中還提到瞭一些關於模型評估和優化的方法，這些都是在實際項目中非常重要的環節，能讓我避免一些常見的誤區。總而言之，這本書為我打開瞭數據挖掘的大門，讓我有信心去嘗試解決一些實際的數據問題。

评分☆☆☆☆☆

我之前一直認為數據挖掘是那種隻有資深數據科學傢纔能玩轉的“高科技”，對普通人來說遙不可及。但是，這本書徹底顛覆瞭我的認知。它的語言風格非常親切，就像一位經驗豐富的朋友在手把手教你一樣。我特彆喜歡書中大量的圖錶和代碼示例，它們直觀易懂，能幫助我快速理解抽象的概念。比如，在介紹聚類算法的時候，作者不僅解釋瞭K-means的原理，還用R語言繪製瞭非常生動的散點圖，讓我能夠清晰地看到數據點是如何被劃分到不同的簇中的。這比純粹的文字描述要形象得多。而且，書中還穿插瞭一些“陷阱”提示和“進階”探討，讓我知道在實際操作中可能會遇到哪些問題，以及如何進一步深化理解。我最欣賞的一點是，它並沒有停留在理論層麵，而是非常注重實戰。每一章的最後都有練習題，我都會認真去做，即使遇到睏難，也能在隨後的解答和講解中找到思路。這讓我感覺我不僅僅是在讀書，而是在真正地學習一門技能。

评分☆☆☆☆☆

作為一名非計算機專業的學生，我一直對數據分析充滿興趣，但苦於缺乏係統的學習路徑。這本書的齣現，無疑是我在學習道路上遇到的一個寶藏。它摒棄瞭枯燥的理論堆砌，而是從實際應用齣發，逐步引入數據挖掘的概念和R語言的工具。我特彆喜歡它在講解模型構建時，那種邏輯清晰的思路。書中詳細介紹瞭從數據收集、清洗、探索性分析，到特徵工程、模型選擇、評估和部署的整個流程。每一個環節都給瞭我深入的指導。例如，在數據探索性分析的部分，作者通過各種可視化手段，如直方圖、箱綫圖、散點圖矩陣等，展示瞭如何發現數據中的模式和關聯，這讓我大開眼界。而且，R語言的強大之處也在書中得到瞭充分的體現，各種包的介紹和使用都非常到位，讓我能夠快速上手。這本書不僅傳授知識，更重要的是培養瞭一種解決問題的思維方式，讓我覺得數據挖掘不再是遙不可及的科學，而是人人都可以掌握的實用技能。

评分☆☆☆☆☆

很好的书，很专业，也很有内容

评分☆☆☆☆☆

凑字数凑字数凑字数.....

评分☆☆☆☆☆

内容比较全面，整合了很多论文成果

评分☆☆☆☆☆

R是统计学专用的软件，但今年在大数据处理方面有了新的拓展，关键的是他有很多统计学安装包，对于不善于编程但又想搞研发的人很有用。这本书讲的不怎么全面，只是几个案例，就当做课外拓展吧。

评分☆☆☆☆☆

好评，赚京豆好评，赚京豆。。。。。。。。

评分☆☆☆☆☆

不错