編輯推薦
適讀人群 :可作為相關工作經驗在3年以內的數據挖掘工程師、轉型入門做大數據挖掘的人士或者對數據感興趣的追逐者的輕鬆學習教程,引導大傢有一個正確的學習方嚮,也可供對數據産品感興趣的産品經理和數據挖掘工程師閱讀參考。 不依賴工具包,結閤場景個性化構建業務模型
有數據情懷,更有深刻認知
是數據圈的一股清流,是初學者的入門指南,
也是傳統挖掘者的進階之路
內容簡介
伴隨著大數據時代的發展,數據價值的挖掘以及産品化逐漸被重視起來。本書作為該領域的入門教程,打破以往的數據工具與技術的介紹模式,憑藉作者在大數據價值探索過程中的所感所悟,以故事的形式和讀者分享一個又一個的數據經曆,引人深思、耐人尋味。全書共9章,第1~2章介紹數據情懷與數據入門;第3~6章討論大數據挖掘相關的一係列學習體係;第7~9章為實踐應用與數據産品的介紹。讓所有學習大數據挖掘的朋友清楚如何落地,以及在整個數據生態圈所需要扮演的角色,全麵瞭解數據的上下遊。
作者簡介
汪榕(@樂平汪二),一個充滿大數據情懷的程序員,緻力於分享自己的所感所悟,為數據生態圈的健康發展貢獻自己一份力量。擁有6年的業務建模經驗,曾率隊奪得全國大學生數據建模一等奬,並代錶重慶高校隊伍與全國優秀名校一起參與深圳夏令營建模比賽。
目前從事互聯網金融行業,專注於大數據挖掘與數據産品。同時也是大數據挖掘雜談社區的創建人,匯集瞭全球各地的數據愛好者,共同探索數據的價值。
內頁插圖
目錄
第1章數據情懷篇
1.1 數據之禪
1.2 數據情懷
1.2.1 數據情懷這股勁
1.2.2 對數據情懷的理解
1.3 大數據時代的我們
1.4 成為DT時代的先驅者
1.4.1 數據沒有寒鼕
1.4.2 數據生態問題
1.4.3 健康的數據生態
1.4.4 結尾
第2章數據入門
2.1 快速掌握SQL的基礎語法
2.1.1 初識SQL
2.1.2 學會部署環境
2.1.3 常用的SQL語法(上篇)
2.1.4 常用的SQL語法(下篇)
2.2 在Windows 7操作係統上搭建IPython Notebook
2.2.1 學習Python的初衷
2.2.2 搭建IPython Notebook
2.2.3 IPython.exe Notebook的使用說明
2.2.4 配置IPython Notebook遠程調用
2.3 快速掌握Python的基本語法
2.4 用Python搭建數據分析體係
2.4.1 構建的初衷
2.4.2 構建思路
2.4.3 開發流程
2.5 Python學習總結
2.5.1 關於Python
2.5.2 Python其他知識點
第3章大數據工具篇
3.1 Hadoop僞分布式的安裝配置
3.1.1 部署CentOS環境
3.1.2 部署Java環境
3.1.3 部署Hadoop僞分布式環境
3.2 數據挖掘中的MapReduce編程
3.2.1 學習MapReduce編程的目的
3.2.2 MapReduce的代碼規範
3.2.3 簡單的案例
3.3 利用MapReduce中的矩陣相乘
3.3.1 矩陣的概念
3.3.2 不同場景下的矩陣相乘
3.4 數據挖掘中的Hive技巧
3.4.1 麵試心得
3.4.2 用Python執行HQL命令
3.4.3 必知的HQL知識
3.5 數據挖掘中的HBase技巧
3.5.1 知曉相關依賴包
3.5.2 從HBase中獲取數據
3.5.3 往HBase中存儲數據
第4章大數據挖掘基礎篇
4.1 MapReduce和Spark做大數據挖掘的差異
4.1.1 初識Hadoop生態係統
4.1.2 知曉Spark的特點
4.1.3 編程的差異性
4.1.4 它們之間的靈活轉換
4.1.5 選擇閤適的工具
4.2 搭建大數據挖掘開發環境
4.3 動手實現算法工程
4.3.1 知曉Spark On Yarn的運作模式
4.3.2 創作第一個數據挖掘算法
4.3.3 如何理解“樸素”二字
4.3.4 如何動手實現樸素貝葉斯算法
第5章大數據挖掘認知篇
5.1 理論與實踐的差異
5.2 數據挖掘中的數據清洗
5.2.1 數據清洗的那些事
5.2.2 大數據的必殺技
5.2.3 實踐中的數據清洗
5.3 數據挖掘中的工具包
5.3.1 業務模型是何物
5.3.2 想做一個好的模型
第6章大數據挖掘算法篇
6.1 時間衰變算法
6.1.1 何為時間衰變
6.1.2 如何理解興趣和偏好
6.1.3 時間衰變算法的抽象
6.1.4 采用Spark實現模型
6.2 熵值法
6.2.1 何為信息熵
6.2.2 熵值法的實現過程
6.2.3 業務場景的介紹
6.2.4 算法邏輯的抽象
6.3 預測響應算法
6.3.1 業務場景的介紹
6.3.2 構建模型的前期工作
6.3.3 常用的預測模型
6.4 層次分析算法
6.5 工程能力的培養與實踐
6.5.1 工程能力的重要性
6.5.2 利用Python實現層次分析法
第7章用戶畫像實踐
7.1 用戶畫像的應用場景
7.1.1 背景描述
7.1.2 需求調研
7.2 用戶畫像的標簽體係
7.2.1 需求分析
7.2.2 標簽的構建
7.3 用戶畫像的模塊化思維
7.3.1 何為模塊化思維
7.3.2 用戶畫像與模塊化思維
7.4 用戶畫像的工程開發
7.4.1 對於開發框架的選擇
7.4.2 模塊化功能的設計
7.5 用戶畫像的智能營銷
7.5.1 業務營銷
7.5.2 營銷構思
7.5.3 技術難點
第8章反欺詐實踐篇
8.1 “羊毛黨”監控的業務
8.1.1 “羊毛黨”的定義與特點
8.1.2 “羊毛”存在的必然性
8.1.3 “羊毛黨”的進化
8.1.4 “羊毛黨”存在的利與弊
8.1.5 “羊毛黨”監控平颱的意義
8.2 “羊毛黨”監控的設備指紋
8.2.1 何為設備指紋
8.2.2 底層參數
8.2.3 應用場景
8.2.4 移動端的數據持久化
8.2.5 設備指紋生成算法
8.3 “羊毛黨”監控的數據驅動
8.3.1 監控的目的
8.3.2 數據如何“食用”
8.4 “羊毛黨”監控的實踐分享
第9章大數據挖掘踐行篇
9.1 如何從0到1轉型到大數據圈子
9.2 數據挖掘從業者綜閤能力評估
9.2.1 度量的初衷
9.2.2 綜閤能力評估
9.2.3 個人指標體係(大數據挖掘)
9.3 給想要進入數據挖掘圈子的新人一點建議
9.3.1 誠信與包裝
9.3.2 籌備能力
9.3.3 投好簡曆
9.3.4 把握麵試
9.3.5 結尾
後記數據價值探索與數據産品實踐
精彩書摘
數據之禪
大數據不是新概念,它一直存在,且不以人的意識為轉移。
大數據的價值並不在於積纍,而在於用更全麵的角度去解讀事物本身。
業務場景對於數據而言極其重要,它決定瞭你的分析思路。
當你沉迷於令人眼花繚亂的技術時,要記得數據纔是最本質的一切。
浮躁時,找個時間去觀察數據,你會得到意想不到的驚喜。
對待數據,要有敬畏之心。因為假的真不瞭,真的篡改不瞭。
不要試圖去猜測數據,在你沒讀懂時,肯定還有一層層迷霧遮擋著你。
世間的萬物皆有規律,有因有果,數據的錶現也是這個道理。
要做好一個數據人,就要懂得沉澱,這樣纔能透過現象看到本質。
數據情懷
談起大數據,知曉它的人都會說:勢頭猛、高科技、待遇好。“圈外”的人,迫不及待想一頭紮進來。殊不知,“圈裏”的大部分人卻在坐以待斃,茫然無方嚮。
這些年,筆者接觸過很多工作,如數據開發、數據分析、數據挖掘和産品經理,但都與數據産品相關,從來沒改變過。近些年,隨著“數據”概念的火熱,越來越多的人湧嚮數據這個領域。
數據情懷這股勁
自始至終,國內真正領悟到大數據産品精髓核心的人並不多,有價值的數據産品更是屈指可數。難道大數據的價值在一款跨時代的數據産品身上這麼難體現嗎?歸根結底,關鍵性因素是“數據情懷”惹的禍。為什麼這樣說?很多身處大數據領域的人,不管是做培訓,還是做産品,缺乏真正意義上的那一股勁——“數據情懷”,而這股勁,直接影響著你在為這個領域的蓬勃發展貢獻多大的力量。
對數據情懷的理解
數據情懷都體現在哪些方麵?概括起來,有以下幾個詞:
初心
使命感
快感
共鳴與傲嬌
這是筆者對待大數據的一種態度。下麵分彆講幾個故事。
初心:不忘初心,方得始終。
有位朋友嚮我提過這樣的問題:你是如何趕上機遇,選擇這個領域的?是熱愛,還是偶然?我很理解這個問題被提齣的齣發點,因為我知道現在大數據圈子裏有這樣一個現象:
很大一群“準大數據人”,正在培訓班裏接受培訓或者自己學習。
一部分轉型做數據開發的大數據人,工作年限在5年以上,很多人是從Java開發轉行過來做大數據框架的,真正接觸大數據的時間不會超過兩年。
一部分轉型做數據倉庫或數據分析的大數據人,是從傳統BI數據轉過來的。
這樣轉型,除職業發展中的規劃外,也有薪酬水平的原因,很幸運自己就算是其中一個。
故事一:筆者與數學的藕斷絲連
筆者是學通信專業的,從小到大數學都很厲害,一路以來,轉變過很多方嚮,都是在尋找一個答案——學數學的意義。
筆者在上大學以前,數學一直不錯。上瞭大學後,還曾經熬夜鑽研過哥德巴赫猜想,十分興奮。但後來想明白瞭,數學公式的計算、求證和推導,並不是我感興趣的。在大學有機會接觸數學建模,頃刻間覺得它是應用數學在實踐中的真正應用,是一種知識的融閤和思考問題的突破。筆者參加瞭11次比賽,除在深圳參加夏令營遺憾地獲得瞭三等奬,最後一次參加比賽獲得美國建模二等奬外,剩餘都是一等奬(其中也包括全國大學生數學建模一等奬)。
這時大數據時代來臨,筆者覺得從大數據中或許能夠找到數學乃至數據真正的意義,這的確是筆者喜歡瞎摺騰的一個初心,太想在自己身上找到數學存在的意義瞭。所以,當時第一個想法是玩轉數學。剛開始總是圍繞數據源打轉,做一些類似阿裏指數那樣的大數據報錶,總想把各種大數據生態圈底層的開發技術都瞭解到,但這麼做費力不討好,也沒有體現齣大數據真正的價值在何處。後來,在從事大數據領域工作的過程中,又轉變瞭一些方嚮,有幸多次參與對一傢美妝公司,甚至是一些高層的調研。花瞭一個多月的時間,慢慢領悟到業務真正需要數據為它做什麼和業務方需要什麼樣的數據産品。數據真正的價值潛力很大,隻是還很少有人去探索成功罷瞭。
這是自己目前摺騰的事,至少這一路的初心,都是在尋找數學乃至數據的價值。並不是每個從事大數據工作的人,都必須要像筆者這樣摺騰,但至少你需要思考一下,當初選擇進入這個圈子是自己的初心,還是執著,或者隻是追潮流?
使命感:人這一輩子,能摺騰的事不多,用心做好每一件事。
故事二:筆者的朋友圈,一些活躍的、典型的數據人
在筆者的朋友圈有位特彆專注於智能金融的“捷哥”,一個從國外迴來創業,想在互聯網金融這個行業探索數據價值的人;有天天吟詩作樂,深深陶醉在大數據情懷的高總,同時他也有著大數據人纔思維培養的重任;有從事自由職業,卻天天飛這飛那做培訓的黃老師,一直重視著業務與數據緊密結閤,推廣著自己寫的書;有想在培訓行業做齣一番貢獻,一直默默籌備著機會的老李,充滿瞭情懷,立誌於打破目前大數據培訓的混亂局麵。
這些人充滿瞭使命感,即使迷途惆悵,也堅信光明就在遠方。我喜歡這樣的一群人,隻是這樣的人在大數據的圈子裏麵太少太少瞭。
故事三:特立獨行的數據人
有些特立獨行的數據人踏入大數據圈子僅僅是為瞭轉型,為瞭薪酬,為瞭養老,並不想真正做齣點什麼。他們擁有一定的專業技能,但總在小圈子裏鑽,認為不斷學習技術纔是存在感,卻不知技術本身真正的意義和價值,難應用於業務。
快感:一種想到就會小抽搐,跌宕起伏的興奮。
故事四:最近上綫的數據産品,讓筆者充滿瞭快感
幾年前,領導私下問每個新人,對工作有什麼規劃,如下類似的答案從彆人口中說齣:想做資深Hadoop運維工程師、架構師、數據倉庫大牛等。筆者的迴答是:想做一款數據産品。結果被笑不切 實際(卻沒人知道,筆者當初為瞭麵試數據産品經理,整整準備瞭兩大頁自己的構思和知識點的整閤)。前些日子,由於個人發展方麵的原因,筆者跳槽瞭,在麵試過程中,還是有人問職業規劃的問題。筆者認為,會有人相信瞭,所以說瞭自己這幾年做瞭很多準備,就是想以後成為數據産品經理,做一款有自己特色的大數據産品。結果齣乎意料,都被一一質疑,以及婉拒瞭。後麵我變聰明瞭,改口說要成為資深數據挖掘師,沉醉於技術海洋裏。聽者興奮,說者無心。很幸運,來目前這傢公司的這段時間裏,花瞭半年多的時間,真切地擁有屬於自己特色的數據産品瞭。從無到有,從需求的調研和分析、係統功能的規劃和確定,到前後端功能的開發、推動和聯調。
共鳴與傲嬌:我們天生傲嬌,卻在渴望尋找著共鳴的聲音。
老羅在一次發布會上提到瞭傲嬌這個詞,那種由心而然的底氣很強烈,每次看發布會直播,筆者都能深深感受到,因為在大數據圈子裏也有這樣的一麵。就像錘子手機,從創辦至今,雖然不被一些人看好,但卻在辦每一次發布會時引起全國、全世界的關注。
能感受到老羅內心裏的渴望,渴望共鳴的聲音。即使聲音很弱、很小,但卻急切期待懂他的人能夠共鳴,老羅找到瞭這樣一些共鳴。每次聽他發布會的“錘粉”們,因為懂他,也都會替他緊緊捏著一把汗。
迴到大數據圈子裏,每一個圈子裏麵的人,都在做著改變未來世界的事,都有可能引領大數據科技與生活的完美融閤,不管是互聯網+、生物醫療、基因工程、智能傢居還是人工智能等,太多新領域充滿瞭未知,充滿瞭使命感。所以,我們真正天生傲嬌,每個人都是自己的英雄。
……
前言/序言
前言
這是一本關於大數據挖掘與數據産品的參考讀物,為瞭使盡可能多的讀者通過本書對大數據應用有所瞭解,筆者以個人所感所悟引導初學者正確學習大數據挖掘。但是基礎知識歸納、開發環境部署、算法原理的介紹都是不可避免的。因此,本書更適閤於工作經驗在3年以內的數據挖掘工程師,以及轉型入門做數據挖掘的人士,或者是對數據産品感興趣的追逐者閱讀。
全書共9章,第1~2章介紹數據情懷與數據入門;第3~6章討論大數據挖掘相關的一係列學習體係;第7~9章為實踐應用與數據産品的介紹。
本書在內容上盡可能以故事的形式,輕鬆愉快地介紹大數據、數據挖掘與數據産品實踐應用的各方麵內容。但作為學習方嚮性的引導讀物且考慮到本書主題,很多常見的算法、技術知識點未能覆蓋,畢竟相關的內容在網上已經有很多瞭,但大多數內容隻是“術”,而缺乏“神”。所以本書纔另尋思路,以筆者的真實經曆告訴讀者在學習過程中可能會遇到的“坑”,以及該如何正確學習。因此,建議有興趣的讀者進一步鑽研探索,結閤更多的學習資料實踐應用。
筆者認為,大數據時代的發展,已經逐漸從基礎性的建設、數據的積纍,慢慢轉變成對於數據價值的探索以及業務痛點的落地解決。因此,建議更多的數據挖掘學習者要結閤業務場景思考,多瞭解數據生態圈的上下遊,認清數據産品價值的重要性,以及知曉自身在整個數據流程中所扮演的角色的重要性。閱讀這些內容的意義遠遠超過對數據分析工具、算法模型的熟練度的意義。
大數據、人工智能發展極為迅速,但是數據價值的輸齣仍然存在瓶頸,極大的原因是由於廣大追逐者在對數據探索時走嚮瞭誤區,把更多心思放在瞭“玩轉數據”,而不是真正地解決業務痛點。所以,希望閱讀本書的每一位讀者都能夠從筆者的過往經曆和所感所悟中感受到數據之禪。參與本書編寫的人員還有王勇老師,在此錶示感謝。
筆者自認自己還有許多需要學習的地方,同時時間和精力有限,書中不足之處在所難免,望廣大讀者批評指正,不勝感激。
輕鬆學大數據挖掘:算法、場景與數據産品 下載 mobi epub pdf txt 電子書