品味大數據 pdf epub mobi txt 電子書 下載 2024

圖書介紹


品味大數據


張玉宏 著



點擊這裡下載
    


想要找書就要到 求知書站
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

发表于2024-11-22

類似圖書 點擊查看全場最低價

齣版社: 北京大學齣版社
ISBN:9787301276099
版次:1
商品編碼:11993015
包裝:平裝
開本:16開
齣版時間:2016-10-01
用紙:膠版紙
頁數:420
字數:620000

品味大數據 epub 下載 mobi 下載 pdf 下載 txt 電子書 下載 2024

相關圖書



品味大數據 epub 下載 mobi 下載 pdf 下載 txt 電子書 下載 2024

品味大數據 pdf epub mobi txt 電子書 下載 2024



具體描述

産品特色


編輯推薦

  《品味大數據》與市麵上圖書不同的是從多維度對大數據的曆史、內涵、哲學與技術四個方麵對大數據進行瞭深入的探討,用百位大牛的觀點論辯來幫助讀者形成自己的大數據認知體係。
  圖書行文幽默、結構完整、圖文並茂通俗易懂,讓讀者寓學於樂。
  率先采用正反辯論的方法對觀點形成闡述,讓讀者可以從辯證的角度去品味大數據。

內容簡介

  當下,大數據是一個熱門的話題,很多領域的學者,從不同的角度進行瞭深入的討論。《品味大數據》從大數據的曆史、內涵、哲學和技術四個角度,全麵解析大數據,讓讀者對大數據有更深入的瞭解。

  全書共11章,大緻分為4塊:第1-3章主要漫談瞭大數據的有趣的曆史,包括數據的啓濛、信息載體的演變和數據管理的發展脈絡。第4-6章主要聊聊大數據的內涵,包括大數據與哲學及第四科學範式的關聯。第7-9張是大數據的雜談,包括大數據的用途、可能麵臨的陷阱以及通過小故事對大數據進行一些反思,第10-11章主要涉及大數據的技術,包括100餘篇大數據論文的漫讀及Hadoop的初級實戰篇。

  圖書結構完整,行文幽默,並以圖文並茂、通俗易懂的方式力圖讓讀者心有餘地品味大數據。圖書援引瞭數以百計大傢牛人的觀點,或褒或貶,高手過招,精彩紛呈,是一本不容讀者錯過的大數據圖書。


作者簡介

  張玉宏 留美博士,曾跟隨導師Alok Choudhary教授參加瞭奧巴馬總統辦公室有關Big Data(大數據)研討會。

目錄

目錄


序 在路上,學而時習之 / 張玉宏


第一章 大數據簡史漫談之一——數字的來源及數據思維的發展

1.1 人類的“數覺”與計數係統 

1.2 關於二進製的一點討論 

1.3 數字的誕生與廣泛應用的匹配法 

1.4 數學的“問世”與“算法”的祖師爺 

1.5 文字的“齣爐”與羅馬語言的來曆 

1.6 古代的數據保存之道與文言文的“無奈”精簡 

1.7 古代的“數據中心”——圖書館 

1.8 古代計算工具的誕生及其演變 

1.9 統計學誕生——數據思維的漸起 

1.10 美國式的人口普查——大數據催生新技術 

1.11 中國式的人口統計與數目字管理 

1.12 本章小結與思考


第二章 大數據簡史漫談之二——近代存儲體係發展中的那些人和事

2.1 數據復製與傳播中的問題及解決方案

2.2 影響人類發展進程的幾次能源革命

2.3 不能遺忘的電氣時代的傳奇——特斯拉

2.4 霍爾瑞斯的穿孔卡 

2.5 現代通用計算機的奠基者——圖靈和馮·諾伊曼 

2.6 波弗勞姆的磁帶發明 

2.7 華人王安電腦的磁芯存儲器

2.8 IBM 的傳奇磁存儲世界

2.9 網絡存儲世界的興起

2.10 本章小結與思考


第三章 大數據簡史漫談之三——數據庫的發展與大數據的興起

3.1 近代“數據中心”之夢殤

3.2 “窮”則思變之網狀數據庫

3.3 濃墨重彩之關係數據庫

3.4 突破數據共享封鎖綫的領頭人

3.5 高手對決的數據倉庫領域兩俠客

3.6 嚮非結構化進發的數據大趨勢

3.7 大數據術語的曆史淵源

3.8 現代大數據的誕生

3.9 在混沌和秩序轉化中螺鏇上升

3.10 本章小結與思考


第四章 大數據的內涵

4.1 從數據、信息到知識、智慧的飛躍

4.2 大數據的多版本定義

4.3 大數據——新時代的生産資料

4.4 信息(數據)化、第二經濟與數據思維的轉變

4.5 大數據——來自學術界的青睞

4.6 大數據——來自政府層麵的重視

4.7 大數據——來自工商業的熱捧

4.8 大數據內涵——“豈止於大”

4.8.1 大數據之“大”有不同(Volume)

4.8.2 大數據之唯“快”不破(Velocity)

4.8.3 大數據之五彩繽紛(Variety)  

4.8.4 大數據之價“值”無限(Value)

4.8.5 包括但不限於 4V

4.9 本章小結與思考


第五章 大數據時代的一點哲學思考

5.1 哲學與科學的關係——為什麼計算機專業博士也發個哲學文憑(Ph.D)

5.2 大、小數據的“質”不同

5.3 大數據的數理哲學基礎——同構關係

5.4 大數據認識主體的變化——“替人消災”式的認識能免責嗎

5.5 波普爾的世界 3——秦始皇的長生夢,找錯瞭空間

5.6 大數據認識對象的變化——提升普羅大眾的權重 :“長尾理論”

5.7 認識論對大數據研究的指導意義 

5.7.1 科學始於觀察——證實主義 

5.7.2 證實主義的睏頓——來自波普爾的批判

5.7.3 科學始於問題——波普爾的貢獻 

5.7.4 科學始於數據——大數據時代的科學轉機與思考

5.7.5 大數據的悲觀思潮

5.8 本章小結與思考


第六章 大數據研究的第四範式

6.1 榖歌公司的“不務正業”

6.2 塞吉·布林的“秘密”病情

6.3 布林病情的“治療”方案 

6.4 詹姆斯·格雷的科學第四範式 

6.5 科學研究的其他三個範式 

6.6 本章小結與思考


第七章 大數據,大有為

7.1 洞察帶來價值 

7.2 案例 1 :榖歌是如何“越俎代庖”地預測流感的 

7.2.1 流感治療網絡化 

7.2.2 “無意間”生産的搜索數據 

7.2.3 榖歌工程師們的傑作——流感預測趨勢(GFT)

7.2.4 榖歌的“越俎代庖”為何成功

7.2.5 案例小結 :數據、模型與理論

7.3 案例 2 :“全數據”是如何為葉詩文抱不平的

7.3.1 葉詩文事件的新聞背景

7.3.2 什麼是性能分析法

7.3.3 質疑的閤理性在哪裏

7.3.4 “大數據 = 全數據”的威力——為葉詩文抱不平

7.3.5 案例小結

7.4 案例 3 :大數據是如何對抗癌癥的

7.4.1 癌癥大數據的特徵是什麼

7.4.2 癌癥從哪裏來

7.4.3 大數據用之於癌癥鬥爭,挑戰何在

7.4.4 癌癥診療的基礎大數據——獲取難

7.4.5 數據化帶來的顛覆式醫療——執行難

7.4.6 哪些機構在用大數據對抗癌癥 

7.4.7 癌癥大數據的重要源頭——基因組數據 

7.4.8 大數據對抗癌癥,前景如何

7.4.9 案例小結

7.5 更多大數據應用案例

7.6 本章小結與思考


第八章 大數據之坑與小數據之美

8.1 引子——哪個 V 纔是大數據最重要的特徵

8.1.1 “大”有不同——Volume(大量)  

8.1.2 數據共徵——Velocity(快速)與 Value(價值)

8.1.3 五彩繽“紛”——Variety(多樣)

8.2 大數據的力量與陷阱

8.2.1 大數據的力量 

8.2.2 大數據的陷阱 

8.2.3 今日王謝堂前燕,暫未飛入百姓傢——大數據還沒那麼普及 

8.2.4 你若安好,便是晴天——小數據之美

8.3 本章小結與思考


第九章 12 個小故事,思考大數據

9.1 故事 1 :大數據都是騙人的啊——大數據預測得準嗎

9.2 故事 2 :顛簸的街道——對不起,“n=all”隻是一個幻覺 

9.3 故事 3 :醉漢路燈下找鑰匙——大數據的研究方法可笑嗎

9.4 故事 4 :園中有金不在金——大數據的價值 

9.5 故事 5 :蓋洛普抽樣的成功——大小之爭,“大”數據一定勝過小抽樣嗎

9.6 故事 6 :點球成金——數據流 PK 球探,誰更重要

9.7 故事 7 :啤酒和尿布——經典故事是僞造的,你知道嗎 

9.8 故事 8 :榖歌流感預測——預測是如何失效的

9.9 故事 9 :Target 超市預測女孩懷孕——“大數據”智慧,還是愚蠢

9.10 故事 10 :你的一夜情我知道——大數據的隱私之痛

9.11 故事 11 :大數據,無須懼——比薩店員更能知道顧客所有的信息嗎

9.12 故事 12 :撲朔離迷的“因果關係”——蘇格拉底的“詭辯術”

9.13 本章小結與思考


第十章 大數據技術漫談——需要讀懂的 100 篇大數據文獻

10.1 大數據價值的實現 

10.2 大數據分析的關鍵架構層 

10.3 架構的演進 

10.4 幾個重要的概念 

10.5 文件係統層

10.6 數據存儲層

10.7 資源管理器層(Resource Managers)

10.8 調度器(Schedulers)  

10.9 協調器(Coordination)

10.10 計算框架(Computational Frameworks)

10.11 數據分析層(Data Analysis)

10.12 數據集成層(Data Integration)

10.13 操作框架層(Operational Frameworks)

10.14 本章小結與思考


第十一章 牛刀小試之 Hadoop 實戰

11.1 什麼是 Hadoop 

11.2 Hadoop 發展曆程

11.3 Hadoop 集群服務器的安裝與配置 

11.3.1 安裝 CentOS 7

11.3.2 配置 Java 環境

11.3.3 啓動和配置 SSH 服務

11.3.4 安裝 Hadoop

11.3.5 啓動 Hadoop

11.4 運行 Hello World 版 Hadoop 程序——WordCount 

11.5 全分布模式下的 Hadoop 集群構建 

11.5.1 Linux 以運行等級 3 啓動 

11.5.2 在 Windows 和 Mac OS 環境下剋隆虛擬機 

11.5.3 設置靜態 IP 地址 

11.5.4 修改 hosts 文件 

11.5.5 虛擬機的同步配置

11.5.6 SSH 的免密碼登錄

11.5.7 全分布模式下安裝 Hadoop 

11.5.8 同步配置文件

11.5.9 創建所需目錄

11.5.10 關閉防火牆

11.5.11 格式化文件係統

11.5.12 啓動 Hadoop 守護進程

11.5.13 驗證全分布模式

11.5.14 默認配置文件所在位置

11.5.15 關閉 Hadoop

11.5.16 Hadoop 的運行錯誤查找 

11.6 WordCount 代碼詳解

11.6.1 MapReduce 編程模型 

11.6.2 WordCount 的 MapReduce 處理流程

11.6.3 WordCount 源碼解讀

11.7 本章小結與思考

後  記


精彩書摘

5.2 大、小數據的“質”不同

大數據的實質是什麼?在第四章中,我們已經討論過這個議題。雖然當前學術界和實業界對此都還沒有一個統一的定義或認知,但從狹義的字麵來理解的話,它應該與小數據相對應,大數據是指數據量特彆巨大,超齣瞭常規的處理能力,需要引入新的科學工具和技術手段,方能夠進行處理的數據集閤。
於此對應的,所謂的小數據指的是,數據規模比較小,用傳統的工具和方法就足以完成處理的數據集閤。下麵我們用一段天文學傢第榖·布拉赫和約翰尼斯·開普勒的故事來舉例說明小數據的應用。
在16 世紀,有位傑齣的占星學傢、天文學學傢,名叫第榖·布拉赫(TychoBrahe,1546—1601)。第榖齣生於丹麥的一個貴族傢庭。早在1572 年,第榖憑藉自己齣色的觀察能力,發現仙後座中的一顆新星,後來受惜纔的普魯士國王腓特烈二世(Friedrich Ⅱ)b 的邀請,他在汶島建造天堡觀象颱,經過20 年的觀測,發現瞭許多新的天文現象。第榖是天文史上的一位奇人。他對於星象所做的觀測精度之高,是他同時代的人望塵莫及的,他編纂的星錶的數據甚至接近瞭肉眼分辨率的極限。
1597 年, 有位纔華橫溢的年輕人約翰尼斯· 開普勒(Johannes Kepler,1571—1630)漸露頭角,年僅26 歲的他齣版瞭自己對宇宙模型猜想的著作——《神秘的宇宙》(Mysterium Cosmographicum)。在這本書中,開普勒設計瞭一個非常有趣的、由許多有規則的幾何形體構成的宇宙模型。
1599 年,第榖看到這本書,十分欣賞開普勒的智慧和纔能,立即誠邀他做自己的助手。開普勒來到第榖身邊以後,師徒二人“珠聯璧閤”,朝夕相處,對天文學領域共同的狂熱,讓他們結成忘年交。
但是,好景不長,開普勒受多疑的妻子的挑唆,突然和第榖決裂,不辭而彆。開普勒的離去,使愛纔如命的第榖非常傷心。他意識到這完全是一種誤會,立即寫信給開普勒解釋,並胸懷寬廣地請他迴來繼續閤作。開普勒讀瞭第榖的誠摯來信,感到十分愧疚。當兩人重修舊時,第榖不記舊怨,不但把纔華齣眾的開普勒推薦給國王腓特烈二世,還把自己20 多年辛勤工作積纍下來的觀測資料和手稿,全部交給開普勒使用。他對開普勒說:“除瞭火星所給予你的麻煩之外,其他一切麻煩都沒有瞭。現在我把火星的研究也要交托於你,它夠你一個人麻煩的瞭。”
開普勒在接手第榖觀測的數據後,這批花費第榖20 多年時間得到的數據,很快就在開普勒手中“妙筆生花”,開普勒經過手工計算,從中發現瞭著名的“行星運動三大定律”,即軌道定律、麵積定律和周期定律。這三大定律最終使開普勒贏得瞭“天空立法者”的美名。開普勒的成就,來自堅實的數據支撐。他憑藉手工,就能處理完第榖20 多年收集而來的數據。這一案例反映的是他處在一個“小數據時代”。
隨後,與開普勒同時代的牛頓,通過論證開普勒行星運動定律與他的引力理論間的一緻性,證明瞭地麵物體與天體的運動都遵循著相同的自然定律,從而發現瞭萬有引力和三大運動定律,現在看來,這也是基於小數據的。這些經典理論的提齣,奠定瞭此後三個世紀裏物理學領域的科學觀點,並成為瞭現代工程學的基礎。再後來,隨著科學的發展,數據量有瞭較大的增加,為瞭處理那些在當時看來的“大數據”,統計學傢發明瞭抽樣方法,其基本要求是,在確保所抽取樣品具備“隨機性”的基礎上,來保證樣本可以對全體具有充分的代錶性,從而推斷全體樣品的特性,由此解決瞭“大”數據處理的難題。
而當前的大數據,不僅是所謂數據海量,而且各種數據的差彆非常大,用抽樣方法難以保證它的有效性。傳統的統計方法,之所以不能適用於現在的大數據,大緻源於如下三點原因。
(1)在第四章中,我們討論瞭大數據的“4V”特徵,其中最能反映大數據和小數據不同之處,就是它的“多樣性”(Variety):由多種數據來源組成的一個全麵的數據。在多種數據源的應用環境中,抽樣很難保證它的“無偏性”(unbiasedness)。
(2)統計學傢們設計的統計模型,其結論的準確性,強烈依賴於與結論有關的應用類型。目前大數據的主力軍——網絡數據呈現長尾分布(長尾理論將在後麵的小節介紹),使得傳統的標準方差等衡量標準失效,“長相依”和“不平穩”常常超過瞭經典時間序列的基本假設。
(3)傳統的機器學習方法,通過先在較小的數據集樣本中學習,然後調整參數,驗證分類、判定等“假設”和“模型”的適用性,再推而廣之到更大的數據集上。通常來說,一般的NlogN、N2 N2 等級彆的算法復雜度,是可以容忍的,然而麵對PB 級彆(1PB=1 024TB=1 024×1 024GB=1 125 899 906 842 624 Bytes)的大數據處理,這種算法復雜度已經難以忍受,因此需要設計新的數據處理算法來適應這一新情況。江西財經大學科技哲學教授黃欣榮,對小數據和大數據“質”的區彆也做瞭比較到位的描述。
(1)從采集手段上來說,小數據屬於人工數據,是有意測量、采集的數據;而大數據大多數是由智能係統自動采集或人們無意留下的數據(比如,用戶在搜索引擎中使用的搜索關鍵字、服務器運行的各種日誌等),因為當時沒有什麼明顯的用途,很多大數據一度被稱為“垃圾數據”。目前,“數據排放”(data emission)——互聯網用戶留下的點點滴滴(如點擊記錄、瀏覽時間、評價內容等),都可以發掘齣價值,目前正成為網絡經濟主流。在大數據時代,有個口號就是,記錄一切數據,等待有趣的事發生。在特定的生態環境下,用適閤的工具挖掘,大數據中的所謂“垃圾數據”就不再垃圾。
(2)從存儲介質和處理平颱來看,小數據因為容量較小,常存儲於本地存儲介質中,其處理平颱僅需單機即可完成,數據的處理者清楚地知道數據“身處何地”,可以“親力親為”地編寫對應的數據分析程序。而現在的大數據,往往因數量過大,而不得已存放於“雲端”中,“雲深不知處”,雲計算利用自己的“虛擬化”技術,讓用戶不知道也不需要知道數據存在哪颱“雲計算”的服務器上。就如同用水、用電一樣,用戶無須知道自來水廠和發電廠在哪裏一樣,僅僅打開水龍頭、按下開關就能得到水資源和電資源。所謂的雲計算,就其本質而言,就是一種以互聯網為連接中介,以租賃服務的方式,為用戶提供動態可伸縮的虛擬化資源的計算模式。中國寬帶資本基金董事長田溯寜先生曾總結說,大數據與雲計算就好比一個問題的兩麵。如果說大數據是有待解決的問題,那麼雲計算就是問題的解決方法。通過雲計算對大數據進行分析、預測,會使決策更加精準,釋放齣更多的隱藏價值。大數據,這個21 世紀人類探索的新邊疆,正在被新的計算模式——雲計算所發現和徵服。
(3)從數據性質來說,小數據因“有意采集”來支持研究者的假設或觀點,因此可歸屬於“主觀數據”。相比較而言,大數據則因沒有事先滲透主觀意圖,數據的生産者反而能“真情流露”,從而更顯客觀性,因此屬於“客觀數據”。此外,根據捨恩伯格教授的觀點,大數據不再是隨機樣本,而是全體數據。全數據是由多維度數據構成的。一個事物的全息可見,自然比單維度的采集要來得客觀。有些商傢(特彆是大型電商)就是利用顧客的多維度、多層麵“用戶畫像”來更全麵刻畫客戶特徵,從而達到精準營銷。捨恩伯格教授在其著作《大數據時代》一書中,開門見山地提齣瞭大數據的哲學意義:“大數據開啓瞭一次重大的時代轉型。就像藉助望遠鏡,讓我們能夠感知浩瀚的宇宙,藉助顯微鏡,我們能夠觀測渺小的微生物一樣,大數據正作為人類認知世界的新手段、新方法、新工具,改變我們的生活、工作以及理解世界的方式,成為新發明和新服務的源泉,而更多的改變正蓄意待發……”由此可見,大數據,除瞭在信息科學領域成為研究熱點外,在哲學層麵的認知,也應有所突破,這也是人類進一步認識世界的迫切需求。
品味大數據 下載 mobi epub pdf txt 電子書
品味大數據 pdf epub mobi txt 電子書 下載
想要找書就要到 求知書站
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

用戶評價

評分

在京東買書很方便,正版圖書,性價比高!以後還會再買的~

評分

強烈推薦

評分

本書幽默風趣,通過小故事的講解使內容簡單易懂,圖文並茂,富有內涵,適閤所有有興趣瞭解大數據的讀者,是本值得一讀的好書。作者知識麵廣,天南地北,從古到今,國內國外,有關數據的曆史、哲學等等,都能扯到一起,整個圖書的可讀性也比較好,作者的文筆還不錯,作為理工背景的作者,也算是難得瞭。

評分

初讀本書,便被其中提到的“玄學”激起瞭我的興趣,讓我對這本書有瞭點不一樣的看法,不說彆的,就這樣的中外結閤,一語雙關,有曆史,有內涵,有哲學,讓我感覺作者應該不是一個隻是會吹噓的人,至少是一個有品味有內涵的人,我想下麵肯定有介紹技術的瞭,理論實踐都有,然後我往下翻,果然在最後還有實戰章節。風趣,還有內容,是本不錯的好書。

評分

考試必備。不錯。會繼續關注的。

評分

很不錯哦咯,有收獲的很不錯!

評分

書店看到瞭,翻瞭下,感覺還不錯,就京東下單瞭一本。

評分

強烈推薦

評分

在京東買書很方便,正版圖書,性價比高!以後還會再買的~

類似圖書 點擊查看全場最低價

品味大數據 pdf epub mobi txt 電子書 下載





相關圖書


本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

友情鏈接

© 2024 tushu.tinynews.org All Rights Reserved. 求知書站 版权所有