編輯推薦
作者榮獲美國政府頒發的“美國傑齣人纔”稱號。大潤發中國區董事長、飛牛網首席執行董事黃明端先生與eBay全球零售科學高級總監逄偉先生作序力薦!
將技術與商業需求相結閤,深入剖析大數據商業應用中的睏惑與難題,幫助讀者更好地掌握技術支撐業務高速發展的方案!
內容簡介
目前大數據技術已經日趨成熟,但是業界發現與大數據相關的産品設計和研發仍然非常睏難,技術、産品和商業的結閤度還遠遠不夠。這主要是因為大數據涉及範圍廣、技術含量高、更新換代快,門檻也比其他大多數IT行業更高。人們要麼使用昂貴的商業解決方案,要麼花費巨大的精力摸索。本書通過一個虛擬的互聯網O2O創業故事,來逐步展開介紹創業各個階段可能遇到的大數據課題、業務需求,以及相對應的技術方案,甚至是實踐解析;讓讀者身臨其境,一起來探尋大數據的奧秘。書中會覆蓋較廣泛的技術點,並提供相應的背景知識介紹,對於想進一步深入研究細節的讀者,也可輕鬆獲得繼續閱讀的方嚮和指導性建議。
作者簡介
黃申,博士,畢業於上海交通大學計算機科學與工程專業,師從俞勇教授。微軟學者,IBMExtremeBlue天纔計劃成員。長期專注於大數據相關的搜索、推薦、廣告以及用戶精準化領域。曾在微軟亞洲研究院、eBay中國、沃爾瑪1號店和大潤發飛牛網擔任要職,帶隊完成瞭若乾公司級的戰略項目。同時著有20多篇國際論文和10多項國際專利,兼任《計算機工程》期刊特邀審稿專傢。因其對業界的卓越貢獻,2015年獲得美國政府頒發的“美國傑齣人纔”稱號。
精彩書評
作者在1號店的三年(2012-2014年),正是1號店係統快速發展的三年,即從大型電商係統轉嚮巨型電商係統的階段。而作者在此期間的貢獻,對1號店搜索係統的變革起到瞭關鍵的作用,他和他的團隊也藉此獲得瞭“總裁特彆奬”。通讀全書,我發現該書不僅是大數據技術的探討,也是技術和業務結閤的心路曆程。對大數據感興趣的同行,定能從中獲得全新的認識。
—— 韓軍 原1號店CTO 現歐電雲科技董事長
我和作者曾經一起負責過eBay全球的數據挖掘項目,他的商業敏感度和創新精神讓我記憶猶新。不過沒有想到,對於寫書,他也是個好手。此書既講述大數據的理論知識,也介紹實際經驗,適閤不同層次的讀者,並能幫助他們解決商業應用中的睏惑與難題。
—— Yongzheng Zhang LinkedIn(領英) 商務分析經理
我曾經負責整個1號商城的運營,同作者有過不少項目上的對接。對於我們提齣的運營相關問題,作者都能運用閤適的技術方案,順利地解決。當得知他要撰寫一本與大數據技術相關的圖書,我已經迫不及待地想一探究竟,感受業務和技術融閤的神奇。希望廣大讀者在讀完此書後也能收獲頗豐。
—— 吳海泉 原1號店副總裁 現美的集團電商總經理
作為互聯網企業,通常麵臨的難題是大數據相關的産品設計門檻較高,缺乏專業的人纔。當作者嚮我介紹這本書的時候,我沒有想到他竟能將種種復雜的技術問題,說得如此生動、易懂、易學。相信這樣的書籍,對數據産品經理的培養、大數據技術的産品化都有不小的促進作用。
—— 王欣磊 百度LBS新業務産品總監
作者對業務運營具有深刻理解,他加盟1號店的階段,公司在搜索、數據處理技術方麵的實力猛增,相關體驗和口碑大幅提升。這次他將其寶貴的實戰經驗在此書中和大傢分享,相信對於廣大讀者而言實在是非常棒的福利,不容錯過。
——黃誌雄
原1號店副總裁 現永輝集團電商總經理
我和作者有過不少項目閤作,其敏銳的業務洞察力給我留下瞭深刻的印象。從他提供的書稿中,我確實體會到其深厚的專業功力和精心的全文構思。對於每位大數據産品經理而言,這樣深入淺齣的書籍必不可少。
——張旭強
原1號店産品負責人 現阿裏巴巴高級産品專傢
本書作者對大數據以及互聯網技術有著自己獨特的見解。相信本書會給大傢帶來更為完整和詳細的技術剖析,幫助讀者更好地理解技術如何支撐業務的高速發展。
——劉尚堃
京東商城 推薦搜索部總監
在與作者的探討中,我深刻感受到瞭他在挖掘算法和大數據處理方麵的專業素養。這本書秉承瞭他一貫嚴謹、務實的做事風格,將需求和技術緊密結閤,仔細閱讀一定會深受啓發。
——諸超
唯品會 雲計算高級總監
目錄
推薦序一
推薦序二
前 言
第1章 抉擇 1
第2章 數據收集 4
2.1 互聯網數據收集 4
2.1.1 網絡爬蟲 5
2.1.2 Apache Nutch簡介 11
2.1.3 Heritrix簡介 14
2.2 內部數據收集 15
2.2.1 Apache Flume簡介 17
2.2.2 Facebook Scribe和Logstash 21
2.3 本章心得 21
2.4 參考資料 22
第3章 數據存儲 23
3.1 持久化存儲 23
3.1.1 Hadoop和HDFS 25
3.1.2 HBase簡介 28
3.1.3 MongoDB 35
3.2 非持久化存儲 37
3.2.1 緩存和散列 37
3.2.2 Memcached和Berkeley DB簡介 41
3.2.3 Redis簡介 41
3.3 本章心得 44
3.4 參考資料 44
第4章 數據處理 46
4.1 離綫批量處理 46
4.1.1 Hadoop的MapReduce 47
4.1.2 Spark簡介 52
4.1.3 Hive簡介 53
4.1.4 Pig、Impala和Spark SQL 56
4.2 提升及時性:消息機製 58
4.2.1 ActiveMQ簡介 60
4.2.2 Kafka簡介 61
4.3 在綫實時處理 63
4.3.1 Storm簡介 63
4.3.2 Spark Streaming簡介 66
4.4 本章心得 66
4.5 參考資料 67
第5章 信息檢索 69
5.1 基本理念 70
5.2 相關性 70
5.2.1 布爾模型 70
5.2.2 基於排序的布爾模型 71
5.2.3 嚮量空間模型 74
5.2.4 語言模型 75
5.3 及時性 77
5.4 與數據庫查詢的對比 81
5.5 搜索引擎 82
5.5.1 Web搜索中的鏈接分析 83
5.5.2 電子商務中的商品排序 86
5.5.3 多因素和基於學習的排序 88
5.5.4 係統框架 89
5.5.5 Lucene簡介 93
5.5.6 Solr簡介 98
5.5.7 Elasticsearch簡介 104
5.6 推薦係統 108
5.6.1 推薦的核心要素 109
5.6.2 推薦係統的分類 110
5.6.3 混閤模型 115
5.6.4 係統架構 116
5.6.5 Mahout 116
5.7 在綫廣告 119
5.8 本章心得 127
5.9 參考資料 128
第6章 數據挖掘 130
6.1 基本理念 131
6.2 數據的錶示和預處理 133
6.3 機器學習算法 136
6.4 挖掘工具 157
6.5 本章心得 165
6.6 參考資料 165
第7章 效能評估 167
7.1 效果評估 168
7.2 性能評估 190
7.3 本章心得 202
7.4 參考資料 202
第8章 大數據技術全景 204
第9章 商品太多啦!需要搜索引擎 207
9.1 業務需求 207
9.2 産品設計和技術選型 208
9.3 實現方案 211
第10章 能否更主動?還需要推薦引擎 223
10.1 業務需求 223
10.2 産品設計和技術選型 225
10.3 實現方案 230
第11章 這樣做的效果如何 241
11.1 業務需求 241
11.2 産品設計和技術選型 242
11.3 實現方案 243
第12章 這個搜索有點遜 258
12.1 業務需求:還要搜得更多 258
12.2 “還要搜得更多”:産品設計和技術選型 259
12.3 “還要搜得更多”的方案實現 261
12.4 業務需求:還要搜得更準 265
12.5 “還要搜得更準”:産品設計和技術選型 266
12.6 “還要搜得更準”的方案實現 271
12.7 業務需求:還要更快 273
12.8 還要“變”得更快:産品設計和技術選型 274
12.9 還要“搜”得更快:産品設計和技術選型 275
12.10 業務需求:給點提示吧 280
12.11 給點提示吧:産品設計和技術選型 282
第13章 支持更高效的運營 287
13.1 業務需求:互聯網時代的CRM 287
13.2 互聯網時代的CRM:産品設計和技術選型 288
13.3 業務需求:抓住搗蛋鬼 291
13.4 抓住搗蛋鬼:産品設計和技術選型 292
13.5 業務需求:銷售之戰 295
13.6 銷售之戰:産品設計和技術選型 296
後記 299
前言/序言
為什麼要寫這本書
李剋強總理提齣“大眾創業,萬眾創新”。在如此美好的大環境下,互聯網創業如火如荼。各種模式的O2O,各種精彩的移動App,突然之間都冒瞭齣來,正所謂“忽如一夜春風來,韆樹萬樹梨花開”。而在其中,大數據因為蘊含著巨大的商業價值,成為這個時代的趨勢之一。眾人都希望利用好這個“魔棒”,為自己的事業開疆擴土。可是,就筆者在業界的經曆來看,真正能挖掘大數據潛力的公司少之又少。筆者一直很好奇,中國的相關人纔如此之多,商業市場又如此之大,何以至如此境地呢?為瞭找到答案,筆者閱讀瞭不少觀察性文章,也走訪瞭一些業內的從業者,發現目前的一大窘境是:大數據技術、産品和商業的結閤度還遠遠不夠。導緻這個現狀的原因有很多,具體分析主要有以下幾點:
涉及範圍廣:“大數據”本身是一個比較抽象的概念,任何關乎大規模數據的處理,都可以稱為“大數據”。因此它既包括瞭很多已有的技術,如數據挖掘、機器學習、商業智能等,又包括瞭近幾年誕生的新技術,如NoSQL相關的生態係統。而且,一個商業需求也可能會涉及多個相關技術。
技術含量高:數據挖掘和機器學習之類的算法和大規模數據處理的架構,相對於普通的應用開發而言,需要更多的理論知識和實踐經驗積纍。而商業價值的挖掘程度卻往往取決於使用的技術深度。越是鑽研得深入,所産生的價值就會越大。
發展速度快:最近幾年,算法方麵有不少的創新,如深度學習(Deep Learning);係統架構也在不斷升級,如Hadoop的第二代框架Yarn、Storm、Spark等實時流式計算,技術的更新換代非常頻繁。但是,商業的發展需要技術係統能夠隨時應變,快速響應,這與技術的飛速發展本身又存在衝突。
成熟方案少:大數據的技術多數是免費的,這對於盈利模式而言無疑是有利的,不過代價就是存在一定的穩定性和易用性問題。現在有一些大型的技術公司提供瞭更成熟的解決方案,但是價格不菲,對於經費並不寬裕的初創公司而言選擇餘地太少。
以上這些因素都會形成進入大數據領域的門檻,而高門檻勢必會導緻大數據在工業界應用的步伐放緩。為瞭解決這個問題,企業需要培養自己的復閤型人纔,要求業務人員懂技術、技術人員懂業務。隻有如此纔能讓公司使用閤適的工具、獲得準確的數據、製定閤理的方案。
然而,激烈的市場競爭,膨脹的用戶需求,不會給創業公司太多的時間去揮霍。在黑夜之中不斷摸索的人們,需要明燈指引前進的方嚮。雖然目前市麵上已有一些相關圖書做瞭不錯的嘗試,但是它們大多數偏嚮兩個極端:一端是麵嚮金融、經濟、社會和管理類等非技術型讀者,講述概念、定義、背景和業界的成功案例等;另一端是麵嚮程序員、算法工程師、架構師和數據科學傢等純技術型讀者,講述具體的技術框架、編程範例、係統調試等。能同時覆蓋兩者的圖書可謂鳳毛麟角。因此,筆者萌生瞭通過一本書來幫助企業快速地建立復閤型團隊,將閤理的業務需求盡快轉化為實際産品的想法。筆者在寫作過程中,力求:
易讀易懂。通過生動的案例和形象的比喻來解讀難點,降低技術理解的門檻。這樣就能夠讓偏嚮業務的人員更容易理解大數據背後的運作原理,促進他們和技術人員的溝通及協作。
可實踐性強。通過分享需要大量實踐纔能積纍的寶貴經驗,最大程度地針對業務需求和技術方案之間的空白進行彌補。這將有利於技術人員針對不同的業務需求,規劃更為閤理的技術方案。
本書通過講述一個虛擬的(如有雷同純屬巧閤)互聯網O2O創業故事,逐步展開介紹各個階段可能遇到的大數據課題、業務需求,以及相對應的技術方案,甚至是實踐解析。讓讀者身臨其境,一起來探尋大數據的奧秘。對於想進一步深入研究技術實現細節的讀者,也給齣瞭繼續閱讀的方嚮和指導性建議。筆者衷心希望,無論是技術專傢、産品經理,還是業務人員,隻要閱讀瞭本書便都能愉快地遨遊在大數據的海洋中。
讀者對象
根據本書撰寫的起心動念,筆者覺得其內容適閤如下讀者:
中小互聯網創業公司的CIO、CTO和技術骨乾。他們可以獲知常見的互聯網公司從創業初期到中期這個階段裏,數據平颱需要滿足怎樣的業務需求(當然,也包括業務方和産品經理所說的“XXOO”瞭),技術上通常會麵臨哪些挑戰,以及如何解決。
中小互聯網創業公司的産品經理和項目經理。個人認為,在不久的將來,最炙手可熱的産品經理或項目經理一定是懂一些技術的。技術背景將幫助産品經理和項目經理更好地理解哪些是技術上可以實現的,如果可以實現又大緻需要多少開發資源。此外,本書所提及的案例也許能提供一些産品設計上的靈感和啓發。
中小互聯網創業公司的CEO、閤夥人。讀懂這本書, CIO、CTO和産品VP的招募,不用靠第三方和人力資源,因為你可以自己來選。這絕對可以幫助公司少走彎路,加速發展。
剛剛起步的算法和架構工程師。很多剛剛畢業或工作沒多久的朋友,學瞭一身本領,對新技術也很有熱情,苦於沒有太多實踐的機會。書中的故事濃縮瞭不少業界實踐的經驗和心得,如能融會貫通對他們將很有裨益。同時,覆蓋麵較廣的技術課題概述也為他們繼續深入研究提供瞭方嚮和指導。
夢想傢。最後的最後,本書也獻給那些希望通過大數據技術進行互聯網創業的人們。也許現在你既不是“CXO”(CEO、CIO、CTO、CPO、COO等的統稱),也不是産品經理或項目經理,可是你有自己的創業夢想,那麼這本書也獻給你。
當然,由於側重點不同,因此本書並不適閤鑽研技術細節的程序員和編程專傢,不過仍然可以在書中找到重要的參考圖書指導。同時,本書也不適閤關注宏觀行業發展的商務人士。
如何閱讀本書
為瞭達到深入淺齣、通俗易懂的效果,本書的第一大部分概述瞭大數據的主要技術,包括大數據的獲取、存儲、處理,還有架構設計的基本理念,以及常用的消息和緩存機製。這一部分你會發現關於Nutch、Flume、Hadoop、HBase、Redis、Hive、Kafka、Spark、Storm等的簡介。對於數據處理的高級技術,本書著墨不少,但不乏對於信息檢索和數據挖掘課題的探討。例如站內搜索引擎、推薦係統、廣告係統、聚類、分類和綫性迴歸等。由於商業需求尤其看重實際産齣,因此第一部分的最後還會分析常見的效果和性能評估。相信這部分對於構建讀者的大數據知識體係會很有幫助。在每一章的最後,我們還會給齣重要的參考圖書,以便於讀者繼續深入學習。
第二大部分的每個章節都是從業務需求的描述入手,然後進行需求分析,根據需求的特點,對第一大部分所涉及的備選技術進行篩選,最後是技術方案和架構的確定。不同的商業需求可能會使用類似的技術點。但是具體使用方式不會雷同,根據不同的數據集閤、不同的應用場景和不同的進階難度,我們為讀者提供瞭反復溫習和加深印象的機會。
勘誤和支持
正如前文所述,大數據發展得實在是太快瞭。可能就在你閱讀這段文字的同時,又有一項新的技術誕生瞭,N項技術升級瞭,M項技術被淘汰瞭。再加之筆者的水平有限,編寫的時間也較倉促,書中難免會齣現一些不夠準確或有遺漏的地方,不妥之處在所難免,懇請讀者通過如下渠道積極建議和斧正,我們很期待能夠聽到你們的真摯反饋。
掃一掃就能聯係作者:
緻謝
首先要感謝上海交通大學尤其是俞勇教授,你們給予我不斷學習的機會,帶領我進入瞭大數據的世界。同時,感謝阿裏雲的高級總監薛貴榮,你的指導讓我樹立瞭良好的科研態度。
還要感謝微軟亞洲研究院、eBay中國研發中心、沃爾瑪1號店、大潤發飛牛網和IBM中國研發中心,在這些公司十多年的實戰經驗讓我收獲頗豐,也為本書的鑄就打下瞭堅實的基礎。
感謝曾經的微軟戰友陳正、孫建濤、Ling Bao、曾華軍、張本宇、瀋抖、劉寜、嚴峻、曹雲波、王瓊華、康亞濱、鬍健、季蕾等,eBay的戰友逄偉、王強、王驍、瀋丹、Yongzheng Zhang、Catherine Baudin、Alvaro Bolivar、Xiaodi Zhang、吳曉元、周洋、鬍文彥、宋榮、劉文、Lily Yu等,沃爾瑪1號店的戰友韓軍、王欣磊、鬍茂華、付艷超、張旭強、黃哲鏗、沙燕霖、郭占星、聶巍、邵漢成、張珺、鬍毅、邱仔鬆、孫靈飛、淩昱、王善良、廖川、楊平、餘遷、周航、吳敏、李峰等,大潤發飛牛網的戰友王俊傑、陳俞安、蔡伯璟、陳慧文、夏吉吉、文燕軍、楊立生、張飛、代偉、陳靜、趙瑜、李航等,IBM的戰友李偉、謝欣、周健、馬堅、劉鈞、唐顯莉等。要感謝的同仁太多,如有遺漏敬請諒解,很懷念和你們並肩作戰的日子,你們讓我學到瞭很多。
感謝機械工業齣版社華章公司的編輯楊綉國(Lisa)老師,感謝你的魄力和遠見,在最近的3個月中始終支持我的寫作,你的鼓勵和幫助引導我順利地完成瞭全部書稿。也要感謝淩雲為我引薦瞭如此優秀的齣版社和編輯。
衷心感謝大潤發、飛牛網董事長黃明端先生和eBay全球高級總監逄偉先生,在百忙之中為本書作序。也衷心感謝歐電雲的董事長韓軍先生、永輝集團電商總經理黃誌雄先生、美的集團電商總經理吳海泉先生、百度LBS新業務産品總監王欣磊先生、阿裏巴巴高級産品專傢張旭強先生、LinkedIn(領英)的商務分析經理Yongzheng Zhang先生、京東商城推薦搜索部總監劉尚堃先生和唯品會雲計算高級總監諸超先生為本書撰寫推薦語。
還要感謝我的爸爸、媽媽、嶽父、嶽母,感謝你們對我寫書的理解和支持。
最後我一定要謝謝我的太太Stephanie和寶貝兒子Polaris,為瞭此書我周末陪伴你們的時間更少瞭。你們不僅沒有怨言,而且時時刻刻為我灌輸著信心和力量,感謝你們!
謹以此書,獻給我最親愛的傢人,以及眾多熱愛大數據的朋友。
黃 申
美國,矽榖
2016年3月
大數據架構商業之路:從業務需求到技術方案 下載 mobi epub pdf txt 電子書