內容簡介
本書關注的是使用R與Python預測分析建模來解決實際問題。在每一章加入一些特定應用領域和業界問題的案例,並提供有效的解決方法。通過展示建模技術和編程工具,我們將抽象的概念轉換為具體的例子。這些詳實的案例有助於讀者理解相關知識。
目錄
譯者序
前 言
第1章分析與數據科學
第2章廣告與促銷
第3章偏好與選擇
第4章購物籃分析
第5章經濟數據分析
第6章運營管理
第7章文本分析
第8章情感分析
第9章體育分析
第10章空間數據分析
第11章品牌和價格
第12章大型的小數字遊戲
附錄A數據科學方法
附錄B測量方法
附錄C案例研究
附錄D編碼和腳本
參考文獻
前言/序言
“好吧!好吧!除瞭更好的衛生設備、醫藥、教育、葡萄酒、公共秩序、水利、公路和淡水係統和公共醫療——羅馬人還為我們做過什麼?”
一齣自《布萊恩的一生》(1979年)中John Cleese的對白20世紀70年代末,我在明尼蘇達大學攻讀博士學位。在此期間,我學習瞭一門統計學編程課程。上課伊始,老師說:“課程作業不限編程語言,隻要自己獨立完成即可。”
當時,我已經熟練掌握F ortran語言,同時自學瞭Pascal。我正在研究一種結構化的編程方式——不僅僅是GO TO語句。因此,我將老師的話信以為真,用Pascal語言完成瞭第一次作業。班裏的其餘14名同學用統計專業通用的Fortran語言。
當我提交作業的時候,老師看瞭看問我:“這是什麼編程語言?”
“Pascal,”我迴答,“您說過,我們可以選擇任意一種編程語言,隻要獨立完成就好。”
老師迴應說:“Pascal。我不會Pascal,隻會Fortran。”
如今,數據科學世界匯聚瞭熟練使用Python語言的信息技術專業人士和熟練使用R語言的統計學者。他們之間有很多地方值得相互學習。對於數據分析科學傢來講,掌握多種編程語言是一種相當大的優勢。
Python有時被稱為“黏閤語言”,它為科學編程和研究提供瞭豐富的開源環境。在計算機密集型應用領域,Python給予一種從C、C++和Fortran調用編譯程序的能力。
我們可以用Cython將Python轉換為優化的C語句。我們可以用R解決當前用Python無法實現的建模和繪圖問題。通過調用R軟件包,我們能夠處理非綫性估計、貝葉斯分層建模、時間序列分析、多變量方法、統計製圖和缺失數據,正如R使用者能從通用的Python語言中獲益一樣。
現如今,數據與算法當道。歡迎來到一個嶄新的世界,一個快節奏、數據密集的世界,一個開源的環境。在這個環境中,通過分析技術和思想交流可以獲得一個具有競爭力卻稍縱即逝的優勢。
很多有關預測分析和數據科學的書都在討論策略與管理。還有一些書關注方法和模型。其餘則討論信息技術(和代碼)。本書是一部同時兼顧三者的罕見著作,很受業界管理者、建模人士和程序員的青睞。
在獲得具有競爭力的優勢過程中,我們意識到瞭分析的重要性。我們通過提供建模技術的現有資源和參考指南,來幫助研究者和分析師。我們能夠嚮程序員展示如何建立一個解決真實問題的代碼基礎。我們圖文並茂地為管理者解釋模型結果,以及數據和模型的意義。
隨著收集和存儲的數據容量增大、可用於分析的數據類型增多、數據産生和分析需求的速度加快,數據分析的重要性與日俱增。獲得具有競爭力的優勢意味著為信息管理和分析提供一套新體係,意味著業界問題處理方式的改變。
由於涉及很多學科和應用領域,數據科學的文獻資料浩如煙海。相關的開源代碼層齣不窮。事實上,提供一部預測分析和數據科學的綜閤性指南將成為一項挑戰。
我們關注的是實際問題和真實數據。在每一章加入一些特定應用領域和業界問題的案例,並提供有效的解決方法。通過展示建模技術和編程工具,我們將抽象的概念轉換為具體的例子。這些詳實的案例有助於讀者的理解。
我們的宗旨是提供一種適閤於很多讀者的預測分析和數據科學方麵的綜述。本書省略瞭數學部分。有關具體的細節和方法導論,請統計學者和建模人士查閱參考文獻。我們用通俗易懂的語言講述方法,使用數據的可視化展示業界問題的解決方案。
瞭解本書的宗旨後,一些讀者可能會想知道我是經典學派還是貝葉斯學派。在明尼蘇達大學統計學院讀書時,我對兩大學派都心生敬意。我非常崇拜經驗貝葉斯學者和將機器學習與傳統統計學相結閤的研究者。在建模和推斷方麵,我則是一個實用主義者。
我會做有效的研究工作,並做齣通俗易懂的解釋。
本書之所以必要,是因為世界各地成韆上萬的專傢將時間和想法貢獻給開放源代碼事業。開放源代碼的增加及其難度的進一步降低,確保瞭先進的解決方法一定會在多年以後齣現。精靈跑齣明燈,能手走齣幕後——火箭科學不再如往常。秘密正在被揭曉。
本書就是此過程的一部分。
本書的絕大部分數據來自公開數據源。美國職棒大聯盟的晉級和上座率數據由Erica Costello提供。計算機選擇研究數據由Sharon Chamberlain提供。“匿名銀行”
的呼叫中心數據由Avi Mandelbaum和Ilan Guedj提供。電影信息獲得瞭互聯網電影數據庫的使用許可。IMDb電影評論數據由Andrew L.Mass和他在斯坦福大學的同事一起管理。其中一些例子齣自佛羅裏達州坦帕市的ToutBay,NCR Comten,Hewlett-Packard公司,紐約的Site Analytics公司,威斯康星州麥迪遜的Sunseed Research和麥迪遜的Union Cab Cooperative的工作人員。
戎們在一個開源的環境中分享代碼。我們所做的工作就是編譯程序。在這個環境中,每個人都可以瀏覽現有程序,一些人還可以調試程序。為瞭促進學生學習,所有程序都包括瞭方便深入分析的詳細注釋和建議。所有數據集和計算機程序都可從本書的網站上下載:http://www.ftpres s.c om/miller/。
本書的最初計劃是將R版本轉換為Python版本。然而,當我隻用Python撰寫本書時,我對兩種編程語言産生瞭更加深遠的敬意。我見證瞭一些問題用Python處理起來很容易,而另外一些問題則更適閤用R來處理。而且,對於從事數據實踐的科學傢來講,在使用Python進行建模和繪圖時,R軟件包的調用成為一種明顯的優勢。因此,本書同時給齣Python和R代碼示例,提供瞭一部獨特的雙語數據科學指南。
在過去的幾年間,我受到瞭很多人的影響。很感激那些優秀的思想傢,齣色的人,還有老師和導師。遺憾的是,尤西紐斯學院的哲學傢Gerald Hahn Hinkle和語言學傢Allan Lake Rice,還有明尼蘇達大學的哲學傢Herbert Feigl,他們永遠離開瞭我們。此外,我非常感謝明尼蘇達大學的心理測驗學者David J.Weiss和俄勒岡大學的經濟學者Kelly Eakin。德高望重的老師是我一生的財富。
感謝Michael L.Rothschild、Neal M. Ford、Peter R.Dickson和Janet Christopher。
在威斯康星麥迪遜分校和A C.尼爾森中心一起進行市場調查的那段時間裏,他們給我提供瞭非常重要的支持。
我住在距離道奇體育場北麵4英裏e的加利福尼亞洲,在伊利諾伊州埃文斯市的西北大學任教,兼任佛羅裏達州坦帕市數據科學公司ToutBay的産品研發指導。這些者B為我提供瞭良好的互聯網連接環境。
我很慶幸自己完成瞭美國西北大學專業進修學院的遠程教育。感謝Glen Fogerty給予瞭我在西北大學預測分析編程專業授課並承擔領導角色的機會。感謝管理這一研究項目的同事們和工作人員,同時感謝讓我獲益良多的同學們和老師們。
ToutBay是一傢新興的數據科學公司。Greg Blence是聯閤創始人之一,我很期待接下來的發展。感謝Greg讓我加盟並紮根於實際問題。迄今為止,隻有學術和數據科學模型引領著我們。為瞭有所作為,我們最終必須實現我們的想法和模型,並分享給大傢。
TEXnology公司的Amy Hendrickson編輯瞭本書的文字、錶格和圖片,取得瞭開源的又一次勝利。感謝Donald Knuth和TEX/LATEX提供瞭很好的排版和齣版係統。
感謝本書R版本的讀者和審校者,他們是Suzanne Callender、Philip M. Goldfeder、Melvin Ott和Thomas P.Ryan。Lorena Martin為本書R版本的修訂版提供瞭很多的反饋和建議。Candice Bradley兼任瞭審校者和文字編輯,Roy L.Sanford對統計模型和程序提供瞭技術支持。感謝Jeanne Glasser Levine編輯,和Pearson/FT齣版社(是他們讓這本書最終麵世)。當然,任何寫作問題和錯誤,以及疏漏僅是我個人的責任。
我的好朋友Brittney和他的女兒Janiya隻要在時間允許的情況下都會來陪伴我。還有我的兒子Daniel,無論是逆境還是順境,他總是在我身邊,是我一生的朋友。他們的信任和支持讓我無以為報。
Thomas W. Miller加利福尼亞州格倫代爾市
預測分析建模:Python與R語言實現 下載 mobi epub pdf txt 電子書