品味大數據 pdf epub mobi txt 电子书下载 2025

☆☆☆☆☆

張玉宏著

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到求知書站

tushu.tinynews.org

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

齣版社：北京大學齣版社

ISBN：9787301276099

版次：1

商品編碼：11993015

包裝：平裝

開本：16開

齣版時間：2016-10-01

用紙：膠版紙

頁數：420

字數：620000

具体描述

産品特色

編輯推薦

　　《品味大數據》與市麵上圖書不同的是從多維度對大數據的曆史、內涵、哲學與技術四個方麵對大數據進行瞭深入的探討，用百位大牛的觀點論辯來幫助讀者形成自己的大數據認知體係。
　　圖書行文幽默、結構完整、圖文並茂通俗易懂，讓讀者寓學於樂。
　　率先采用正反辯論的方法對觀點形成闡述，讓讀者可以從辯證的角度去品味大數據。

內容簡介

　　當下，大數據是一個熱門的話題，很多領域的學者，從不同的角度進行瞭深入的討論。《品味大數據》從大數據的曆史、內涵、哲學和技術四個角度，全麵解析大數據，讓讀者對大數據有更深入的瞭解。

　　全書共11章，大緻分為4塊：第1-3章主要漫談瞭大數據的有趣的曆史，包括數據的啓濛、信息載體的演變和數據管理的發展脈絡。第4-6章主要聊聊大數據的內涵，包括大數據與哲學及第四科學範式的關聯。第7-9張是大數據的雜談，包括大數據的用途、可能麵臨的陷阱以及通過小故事對大數據進行一些反思，第10-11章主要涉及大數據的技術，包括100餘篇大數據論文的漫讀及Hadoop的初級實戰篇。

　　圖書結構完整，行文幽默，並以圖文並茂、通俗易懂的方式力圖讓讀者心有餘地品味大數據。圖書援引瞭數以百計大傢牛人的觀點，或褒或貶，高手過招，精彩紛呈，是一本不容讀者錯過的大數據圖書。

作者簡介

　　張玉宏留美博士，曾跟隨導師Alok Choudhary教授參加瞭奧巴馬總統辦公室有關Big Data（大數據）研討會。

精彩書摘

5.2 大、小數據的“質”不同

大數據的實質是什麼？在第四章中，我們已經討論過這個議題。雖然當前學術界和實業界對此都還沒有一個統一的定義或認知，但從狹義的字麵來理解的話，它應該與小數據相對應，大數據是指數據量特彆巨大，超齣瞭常規的處理能力，需要引入新的科學工具和技術手段，方能夠進行處理的數據集閤。
於此對應的，所謂的小數據指的是，數據規模比較小，用傳統的工具和方法就足以完成處理的數據集閤。下麵我們用一段天文學傢第榖·布拉赫和約翰尼斯·開普勒的故事來舉例說明小數據的應用。
在16 世紀，有位傑齣的占星學傢、天文學學傢，名叫第榖·布拉赫（TychoBrahe，1546—1601）。第榖齣生於丹麥的一個貴族傢庭。早在1572 年，第榖憑藉自己齣色的觀察能力，發現仙後座中的一顆新星，後來受惜纔的普魯士國王腓特烈二世（Friedrich Ⅱ）b 的邀請，他在汶島建造天堡觀象颱，經過20 年的觀測，發現瞭許多新的天文現象。第榖是天文史上的一位奇人。他對於星象所做的觀測精度之高，是他同時代的人望塵莫及的，他編纂的星錶的數據甚至接近瞭肉眼分辨率的極限。
1597 年，有位纔華橫溢的年輕人約翰尼斯· 開普勒（Johannes Kepler，1571—1630）漸露頭角，年僅26 歲的他齣版瞭自己對宇宙模型猜想的著作——《神秘的宇宙》（Mysterium Cosmographicum）。在這本書中，開普勒設計瞭一個非常有趣的、由許多有規則的幾何形體構成的宇宙模型。
1599 年，第榖看到這本書，十分欣賞開普勒的智慧和纔能，立即誠邀他做自己的助手。開普勒來到第榖身邊以後，師徒二人“珠聯璧閤”，朝夕相處，對天文學領域共同的狂熱，讓他們結成忘年交。
但是，好景不長，開普勒受多疑的妻子的挑唆，突然和第榖決裂，不辭而彆。開普勒的離去，使愛纔如命的第榖非常傷心。他意識到這完全是一種誤會，立即寫信給開普勒解釋，並胸懷寬廣地請他迴來繼續閤作。開普勒讀瞭第榖的誠摯來信，感到十分愧疚。當兩人重修舊時，第榖不記舊怨，不但把纔華齣眾的開普勒推薦給國王腓特烈二世，還把自己20 多年辛勤工作積纍下來的觀測資料和手稿，全部交給開普勒使用。他對開普勒說：“除瞭火星所給予你的麻煩之外，其他一切麻煩都沒有瞭。現在我把火星的研究也要交托於你，它夠你一個人麻煩的瞭。”
開普勒在接手第榖觀測的數據後，這批花費第榖20 多年時間得到的數據，很快就在開普勒手中“妙筆生花”，開普勒經過手工計算，從中發現瞭著名的“行星運動三大定律”，即軌道定律、麵積定律和周期定律。這三大定律最終使開普勒贏得瞭“天空立法者”的美名。開普勒的成就，來自堅實的數據支撐。他憑藉手工，就能處理完第榖20 多年收集而來的數據。這一案例反映的是他處在一個“小數據時代”。
隨後，與開普勒同時代的牛頓，通過論證開普勒行星運動定律與他的引力理論間的一緻性，證明瞭地麵物體與天體的運動都遵循著相同的自然定律，從而發現瞭萬有引力和三大運動定律，現在看來，這也是基於小數據的。這些經典理論的提齣，奠定瞭此後三個世紀裏物理學領域的科學觀點，並成為瞭現代工程學的基礎。再後來，隨著科學的發展，數據量有瞭較大的增加，為瞭處理那些在當時看來的“大數據”，統計學傢發明瞭抽樣方法，其基本要求是，在確保所抽取樣品具備“隨機性”的基礎上，來保證樣本可以對全體具有充分的代錶性，從而推斷全體樣品的特性，由此解決瞭“大”數據處理的難題。
而當前的大數據，不僅是所謂數據海量，而且各種數據的差彆非常大，用抽樣方法難以保證它的有效性。傳統的統計方法，之所以不能適用於現在的大數據，大緻源於如下三點原因。
（1）在第四章中，我們討論瞭大數據的“4V”特徵，其中最能反映大數據和小數據不同之處，就是它的“多樣性”（Variety）：由多種數據來源組成的一個全麵的數據。在多種數據源的應用環境中，抽樣很難保證它的“無偏性”（unbiasedness）。
（2）統計學傢們設計的統計模型，其結論的準確性，強烈依賴於與結論有關的應用類型。目前大數據的主力軍——網絡數據呈現長尾分布（長尾理論將在後麵的小節介紹），使得傳統的標準方差等衡量標準失效，“長相依”和“不平穩”常常超過瞭經典時間序列的基本假設。
（3）傳統的機器學習方法，通過先在較小的數據集樣本中學習，然後調整參數，驗證分類、判定等“假設”和“模型”的適用性，再推而廣之到更大的數據集上。通常來說，一般的NlogN、N2 N2 等級彆的算法復雜度，是可以容忍的，然而麵對PB 級彆（1PB=1 024TB=1 024×1 024GB=1 125 899 906 842 624 Bytes）的大數據處理，這種算法復雜度已經難以忍受，因此需要設計新的數據處理算法來適應這一新情況。江西財經大學科技哲學教授黃欣榮，對小數據和大數據“質”的區彆也做瞭比較到位的描述。
（1）從采集手段上來說，小數據屬於人工數據，是有意測量、采集的數據；而大數據大多數是由智能係統自動采集或人們無意留下的數據（比如，用戶在搜索引擎中使用的搜索關鍵字、服務器運行的各種日誌等），因為當時沒有什麼明顯的用途，很多大數據一度被稱為“垃圾數據”。目前，“數據排放”（data emission）——互聯網用戶留下的點點滴滴（如點擊記錄、瀏覽時間、評價內容等），都可以發掘齣價值，目前正成為網絡經濟主流。在大數據時代，有個口號就是，記錄一切數據，等待有趣的事發生。在特定的生態環境下，用適閤的工具挖掘，大數據中的所謂“垃圾數據”就不再垃圾。
（2）從存儲介質和處理平颱來看，小數據因為容量較小，常存儲於本地存儲介質中，其處理平颱僅需單機即可完成，數據的處理者清楚地知道數據“身處何地”，可以“親力親為”地編寫對應的數據分析程序。而現在的大數據，往往因數量過大，而不得已存放於“雲端”中，“雲深不知處”，雲計算利用自己的“虛擬化”技術，讓用戶不知道也不需要知道數據存在哪颱“雲計算”的服務器上。就如同用水、用電一樣，用戶無須知道自來水廠和發電廠在哪裏一樣，僅僅打開水龍頭、按下開關就能得到水資源和電資源。所謂的雲計算，就其本質而言，就是一種以互聯網為連接中介，以租賃服務的方式，為用戶提供動態可伸縮的虛擬化資源的計算模式。中國寬帶資本基金董事長田溯寜先生曾總結說，大數據與雲計算就好比一個問題的兩麵。如果說大數據是有待解決的問題，那麼雲計算就是問題的解決方法。通過雲計算對大數據進行分析、預測，會使決策更加精準，釋放齣更多的隱藏價值。大數據，這個21 世紀人類探索的新邊疆，正在被新的計算模式——雲計算所發現和徵服。
（3）從數據性質來說，小數據因“有意采集”來支持研究者的假設或觀點，因此可歸屬於“主觀數據”。相比較而言，大數據則因沒有事先滲透主觀意圖，數據的生産者反而能“真情流露”，從而更顯客觀性，因此屬於“客觀數據”。此外，根據捨恩伯格教授的觀點，大數據不再是隨機樣本，而是全體數據。全數據是由多維度數據構成的。一個事物的全息可見，自然比單維度的采集要來得客觀。有些商傢（特彆是大型電商）就是利用顧客的多維度、多層麵“用戶畫像”來更全麵刻畫客戶特徵，從而達到精準營銷。捨恩伯格教授在其著作《大數據時代》一書中，開門見山地提齣瞭大數據的哲學意義：“大數據開啓瞭一次重大的時代轉型。就像藉助望遠鏡，讓我們能夠感知浩瀚的宇宙，藉助顯微鏡，我們能夠觀測渺小的微生物一樣，大數據正作為人類認知世界的新手段、新方法、新工具，改變我們的生活、工作以及理解世界的方式，成為新發明和新服務的源泉，而更多的改變正蓄意待發……”由此可見，大數據，除瞭在信息科學領域成為研究熱點外，在哲學層麵的認知，也應有所突破，這也是人類進一步認識世界的迫切需求。