发表于2024-11-25
統計學關我什麼事 pdf epub mobi txt 電子書 下載 2024
1.日本銷量突破10萬冊的暢銷書!國內統計學通俗讀物都有很好的銷量。
2.微軟和榖歌早就在用、大量互聯網企業正在用的貝葉斯統計工具。
3.發明瞭用畫圖代替計算的“麵積圖”法,學習統計學竟然可以完全不需要公式,僅靠簡單的四則運算就能學會。
4.從垃圾郵件的篩選、潛在顧客分析,到二胎性彆概率、中奬概率分析一個個生動的案例讓讀者像看故事一樣輕鬆理解統計學原理。
5.什麼人適閤閱讀本書?(1)對數據分析感興趣的人;(2)對統計學感興趣的人;(3)希望看懂財經新聞的人;(4)希望不被大量是似而非信息忽悠的人。
6.作者小島寬之大學時的專業和統計學完全無關,後憑藉興趣到東京大學深造。本著讓統計學“更生動、更直觀、更好懂”的理念創作瞭一係列的統計學通俗讀物,本本暢銷。
本書拋開讓人難以理解的“貝葉斯公式”,用“麵積圖”做直觀形象的解讀。隻要會做四則運算,就能快速入門,進而在一個個生活場景中,領會貝葉斯統計學的精髓。貝葉斯統計學的優勢在於“在數據少的情況下也可以進行推測”,貝葉斯統計學的統計過程和人腦的決策過程是很相似的,在人工智能時代有著廣泛的商業應用。微軟操作係統、榖歌的自動翻譯係統等都引入瞭貝葉斯統計技術。如果能夠熟練掌握貝葉斯統計,個人也能夠更好地做決策,可以說與好的生活息息相關。
小島寬之
日本帝京大學經濟學係副教授,經濟學博士,知名數學隨筆作傢。1958年齣生於東京,畢業於東京大學理學院數學係,東京大學經濟學研究所博士課程修畢。著有《幾率的思考方式》《方便運用!幾率的思考》《世界第1簡單微積分》《從零開始學習微積分》以及《專為文科設計的數學教室》等多部作品。
概率是生活的指南。
——古羅馬著名政治傢、哲學傢西塞羅
如果你對數據拷打足夠的時間,它一定會招供。
——諾貝爾經濟學奬得主羅納德·科斯
我一直堅信,未來十年*受歡迎的職業是統計。
——榖歌首席經濟學傢哈爾·範裏安博士
統計學是大數據時代常用的分析手段,沒有統計學的一整套工具,數據也隻不過是一段無用的信息罷瞭。微軟的21世紀戰略正是貝葉斯統計戰略。
——微軟前董事長比爾·蓋茨關於微軟基本方針的演講
貝葉斯統計的優勢在於,“在數據少的情況下也可以進行推測,數據越多,推測結果越準確”的性質,以及“對所獲的信息可作齣瞬時反應,自動升級推測”的學習功能。瞭解瞭這一點之後,就完全可以理解為什麼貝葉斯統計是*適閤應用於高端商業的技術瞭。
——本書作者日本帝京大學經濟學係副教授小島寬之
小島寬之教授以淺顯的文字,深入淺齣的方式,結閤生活中的實際現象,嚮我們描繪瞭統計學的原理、方法與應用。難能可貴的是,學習本書幾乎不用概率的知識,也完全不需要微積分和高等數學的基礎,讓零基礎讀者一看就懂,一學就會!
——清華大學經濟管理學院管理科學與工程係副教授肖勇波
第0講?隻要會做四則運算,便可掌握貝葉斯統計學 001
本書的特點
快速學習!
理解貝葉斯統計學的精髓
第1部
第1講?信息增加導緻概率變化 002
“貝葉斯推理”的基本方法
小結014/練習題015
第2講?貝葉斯推理的結果,有時與直覺大相徑庭① 016
使用客觀數據時的注意事項
小結025/練習題026
第3講?根據主觀數字也可以進行推理 027
疑惑時分的“理由不充分原理”
小結036/練習題037
第4講?運用“概率的概率”,拓寬推理範圍 038
小結050/練習題051
專欄 貝葉斯是何許人也?052
第5講?從推算過程開始,逐漸明確的
貝葉斯推理的特徵 053
小結058/練習題059
第6講?明快而嚴格,但其使用場閤受到限製的
內曼-皮爾遜式推理 060
小結064/練習題064
第7講?通過少量信息得齣切實結論的貝葉斯推理 065
與內曼-皮爾遜式推理的差異
小結072/練習題073
第8講?貝葉斯推理的基礎:極大似然原理 074
貝葉斯統計學與內曼-皮爾遜統計學的銜接點
小結079/練習題080
第9講?貝葉斯推理的結果,有時與直覺大相徑庭② 081
蒂霍爾問題與三個囚犯的問題
小結094/練習題094
專欄 關於“幸運”的兩條法則095
第10講 掌握多條信息時的推理① 096
運用“獨立試驗的概率乘法公式”
小結103/練習題103
第11講 掌握多條信息時的推理② 104
以垃圾郵件過濾器為例
小結113/練習題114
第12講 在貝葉斯推理中可以依次使用信息 115
“序貫理性”
小結123/練習題124
第13講 每獲得一條信息,貝葉斯推理就變得更精確一些 125
小結136/練習題137
專欄 幫助貝葉斯復興的學者們138
完全自學!
從“概率論”到“正態分布”
第2部
第14講 “概率”與“麵積”的性質相同 140
概率論的基礎
小結150/練習題150
第15講 在獲得信息之後,概率的錶示方法 151
“條件概率”的基本性質
小結162/練習題163
第16講 “概率分布圖”幫助我們進行更加通用的推理 164
小結174/練習題175
第17講 “貝塔分布”的性質由兩個數字決定 176
小結185/練習題185
第18講 決定概率分布性質的“期待值” 186
小結199/練習題199
專欄 何為“主觀概率”?200
第19講 在“貝塔分布”中使用概率分布圖進行高級推理 201
小結213/練習題214
第20講 在拋硬幣或天體觀測時觀察到的“正態分布” 215
小結223/練習題224
第21講 在“正態分布”中使用概率分布圖進行高級推理 225
小結235/練習題236
補講 貝塔分布的積分計算237
結語 239
參考文獻 242
練習題參考答案 245
第1講 信息增加導緻概率變化
“貝葉斯推理”的基本方法
1-1? 通過貝葉斯推理來辨彆“買東西的人”和“隨便逛逛的人”
本講將通過一個商業案例,為大傢介紹經典的貝葉斯推理方法。
商店裏的售貨員最關心的問題莫過於“這位顧客究竟是來買東西的,還是隨便逛逛而已”。真正來買東西的顧客,一般而言,比起四處逛逛看看,更傾嚮於在最短時間內找到自己需要的商品。另一類顧客則是這樣的:一時不急著買,而是先隨便問問價格,為以後購買做個參考。對待前者,作為售貨員,理應為其介紹需要的商品並讓其買下;而對待後者,如果同樣花費時間為其推薦商品,顧客不但不會購買,反而會感到厭煩,結果適得其反。
所以對於店員來說,通過顧客的行為來揣測他們的真實想法,是一項重要的本領。很多店員可以做到:通過直覺來判斷顧客屬於哪一類,而這正是身為一名店員的重要工作技巧。在此,我們將這種“基於直覺的的判斷”數值化,從而使它可以通過計算獲得。把方法編成手冊,教給新店員,這就像在互聯網上能夠實現自動判斷的AI(人工智能)一樣,是一項意義非凡的工作。
下文將具體介紹“將店員的判斷方法數值化”的方法,該方法恰巧適用貝葉斯統計學。進而言之,通過該事例,我們也可以弄懂貝葉斯統計學的概念。下文將分節進行解說。
1-2?第一步:通過經驗設定“先驗概率”
假設一個場景:麵前有一位顧客,此時你需要做的是,推測該顧客究竟是“來買東西的人”,還是“隨便逛逛的人”。隻有作齣正確的判斷,纔能采取正確的接待方法。
推算的第一步:將兩種顧客(來買東西的顧客、隨便逛逛的顧客)的比例進行數值分配。這句話的意思是:假設麵前的這位顧客一定屬於兩種中的一種,以此為前提,該顧客為第一種或第二種的可能性分彆為多少?將這個可能性用數值錶示齣來。
在貝葉斯統計學中,這種“某種類彆的概率(比例)”有一個專有名詞,叫做“先驗概率”。“事前”的含義是:在獲得某項信息之前。此處的“信息”是指:附加的狀況,比如顧客忽然過來詢問。通過“過來詢問”這一信息,可以對顧客類彆的推算進行修改,而“先驗概率”是指,在“過來詢問”或“不過來詢問”的情況發生之前進行的概率判斷。
通常,“先驗概率”可通過經驗來判斷。在特殊情況下,即使沒有類似經驗,也可以進行判斷,這部分特殊事例將在第3講進行解說,此處暫且不做討論。
根據自己的經驗,每5位顧客中就有1位是“來買東西的”,也就是說,這一部分顧客占全體的20%(0.2),那麼剩下“隨便逛逛”部分的比例便為80%(0.8)。這兩個數字,便是兩類顧客的“先驗概率”。
在這個事例中,在觀察麵前顧客的行為之前,判斷“該顧客是屬於概率0.2的買東西的人,還是概率0.8的隨便逛逛的人”,這個過程被稱為“某一類彆的先驗分布”,如圖錶1-1所示。
圖錶1-1?先驗分布:分割長方形
圖錶1-1中的大長方形被分割為兩部分,兩部分的麵積所占比例分彆為0.2和0.8,這正是分割時的訣竅。本書將在後麵逐漸闡明:“麵積”的概念在貝葉斯概率的計算中,起著重要的作用。
以上圖示的方法為本書獨創。希望各位讀者將這幅圖牢記於心,這樣有助於在頭腦中勾勒齣貝葉斯統計學方法的大緻雛形。
該圖可以理解為:將整體分為兩種不同的情況。這意味著,自己所處的環境為A或B中的一個,A情況下的顧客為“來買東西的人”,B情況下的顧客為“隨便逛逛的人”,但不知道究竟是A還是B。隻是先在頭腦中構築一個大緻的印象。哲學上將這種見解稱為“可能世界”,在進行邏輯推算或概率推算時,采用這種“劃分互不相同的可能性”的思維方法,有利於整理思路。
在這裏將長方形的麵積設定為0.1和0.4,兩部分的比例依然為1:4,這與設定為0.2和0.8時的比例相同。那麼,為何要將麵積設置為0.2和0.8呢?這是因為,用數值來計算概率的情況下,需要在多種可能性中,選取“將各部分概率相加,總和為1”的那一種,這種情況被稱為“標準化條件”。
1-3?第二步:設置發生“嚮店員詢問”事件的條件概率
在這一步,我們要做的是:為“來買東西的人”和“隨便逛逛的人”這兩類顧客分彆設定“嚮店員詢問”的概率。如果沒有相關經驗和數據作為支撐,這項工作是無法完成的。上一節講到,即使沒有相關經驗,也可以設定先驗概率。但此處的“各個分類的行動概率”,必須是基於一定的經驗、實證、實驗的數值。
圖錶1-2中的數值,是為瞭計算簡便而設定的,並非真實數據。
圖錶1-2?關於“嚮店員詢問”這一行為的條件概率
從圖錶1-2中可以看齣,“來買東西的”顧客嚮店員詢問的概率是0.9,而“隨便逛逛的”顧客嚮店員詢問的概率隻有0.3。
需要注意的是:圖錶1-2從橫嚮來看,0.9+0.1=1,0.3+0.7=1,兩行都滿足標準化條件;而縱嚮來看,0.9+0.3≠1,也就是說並不滿足標準化條件。具體分析一下:橫嚮的一行,錶示某一類彆的顧客可能采取的兩種行動。比如第一行數字,錶示“來買東西的人”嚮店員“詢問”或“不詢問”這兩種行為,顧客有可能詢問,也有可能不詢問,最終采取的行動一定是其中之一,沒有第三種可能性。而縱嚮來看,第一列數字錶示,“來買東西的人”嚮店員詢問的概率為0.9,“隨便逛逛的人”嚮店員詢問的概率為0.3,兩個數字相加之和並不等於1。這是因為,對象範圍包含瞭兩個不同類彆的顧客,並且也沒有涵蓋所有的行動。
圖錶1-2中的數字,錶示“某一特定類彆采取各種行動的概率”,這在高等數學中被稱為“條件概率”。?用“原因”的概念來解釋,即“在原因明確的情況下,某一類彆采取各項行動的結果概率”(第15講中將介紹:如何用符號來錶示條件概率)。
將兩個類彆的顧客,進一步按照“詢問”和“不詢問”的條件來分類,那麼前文所述的兩個大類彆又可以細分為四個小類彆,分彆是:“來買東西的人詢問店員”“隨便逛逛的人詢問店員”“來買東西的人不詢問店員”“隨便逛逛的人不詢問店員”,如圖錶1-3所示。
隻要會做四則運算,
便可掌握貝葉斯統計學
本書的特點
0-1? 從零基礎達到應用水平
本書是“貝葉斯統計學”的超級入門書。“超級”的含義:
? 從零基礎開始學習
? 拋開繁瑣的符號和計算過程,學習運用貝葉斯統計
? 不隻是隨便說說,而是毫無保留地傳授知識
對貝葉斯統計學感興趣的人不在少數。然而此前的教科書,導入部分編寫淺顯,中途卻難度驟增,這使很多讀者大受挫摺。這是因為在尚未理解貝葉斯統計的本質時,就被灌輸瞭一大堆概率符號,使得理解起來更為睏難。
為瞭不再重蹈這樣的覆轍,本書編寫之時做瞭一些功課,具體會在下節進行說明:
0-2?僅使用麵積圖和簡單算術
貝葉斯統計的基礎是概率公式——“貝葉斯公式”,它立足於“條件概率”的發展事項。“貝葉斯公式”是高等數學中很難理解的一個概念,原因有二:第一,公式復雜而不夠直觀;第二,條件概率在某種程度上屬於“不可靠的”概念,對於思維縝密的人來說總覺得“哪裏有些奇怪”。
事實上,上述第二點在貝葉斯統計中是至關重要的。因為正是這份“不可靠”,纔是貝葉斯統計的本質,它與便利性息息相關。後麵我們會講到,貝葉斯統計在20世紀初曾因為其“不可靠”而遭到批判,一度被斥於統計學之外。但由於貝葉斯統計的“不可靠”與“便利性”為錶裏一緻的關係,“正因為不可靠纔得以運用”。在一部分學者對於這種“便利性”的關注下,貝葉斯統計於20世紀後半期恢復瞭其應有的地位。在21世紀的今天,貝葉斯統計已經成為瞭統計學的主流。
筆者著重考慮瞭這兩點,在編寫過程中也有所側重,並做瞭如下功課。
功課1將不齣現“貝葉斯公式”(極少一部分除外)的方針貫徹到底
以“通過麵積圖進行圖解”的方針作為貝葉斯公式的替代。從本質上來講,二者是相同的,然而對於大多數讀者而言,圖解的方式更加直觀且易於理解。同時,通過“麵積圖”可以更清晰地看齣“貝葉斯公式”的“不可靠”和“便利性”究竟體現在哪裏。
功課2隻需簡單算術的計算水平即可
這意味著,隻需要會做四則運算就可以掌握瞭,連開方和文字式計算都不需要。而且這其中的四則運算,即使是不擅長手算的人也可以藉助計算器輕而易舉地完成。
當然,在本書末尾會齣現“β分布”“正態分布”這些有難度的概念。因為如果不介紹這些概念,是無法達到前文所述“毫無保留的傳授”程度的。全麵理解這些概念,需要用到大學的微分積分知識,這對於許多讀者來說是很大的負擔。因此在本書中也隻能作一些相對簡單的解說。
這也就是說,本書的方針——嚮讀者灌輸僅通過四則運算就能掌握的公式。這也是本書編寫時所做的功課之一。在這個意義上,本書並非“充分齊全”的教材。然而如果想要“充分理解”貝葉斯統計學的人,不妨在讀過本書之後再試著挑戰一下專業書籍。本書的目的是拋開繁瑣的數學概念,將“貝葉斯統計學隱藏的本質”剖析呈現齣來。
0-3?比爾·蓋茨也在關注它!貝葉斯統計在商業活動中的應用
隨著因特網的普及和同步技術的發展,貝葉斯統計開始運用於商業領域。通過互聯網可以實現自動收集顧客的購買和檢索記錄,從而推測顧客的類彆。在這一點上,貝葉斯統計學完勝傳統意義上的統計學。
如今,許多互聯網企業都在實際應用貝葉斯統計。其中,微軟由於很早就開始在商業活動中運用貝葉斯統計學而聞名。Windows的操作係統幫助功能中就導入瞭貝葉斯統計。此外,在網上搜索“小孩病癥”的時候,優先顯示可靠結果的軟件也已經開發齣來。微軟的前董事長比爾·蓋茨在1996年曾在報紙內容中稱,微軟之所以在激烈的市場競爭中勝齣,正是由於采用瞭貝葉斯統計。比爾·蓋茨還在2001年關於基本方針的演講中稱,微軟的21世紀戰略正是貝葉斯統計戰略,公開錶示,已經在全世界範圍內挖到瞭許多貝葉斯統計研究人纔。該發言引起瞭很大關注。
榖歌搜索引擎的自動翻譯係統中也引入瞭貝葉斯統計技術。
當然,貝葉斯統計技術在IT企業之外的各個領域也有著廣泛應用。例如,消除傳真圖像中的雜音就運用瞭貝葉斯統計技術。此外,醫療領域的“自動診斷係統”等也需要用到貝葉斯統計。
通過閱讀本書可以得知,貝葉斯統計的優勢在於,“在數據少的情況下也可以進行推測,數據越多,推測結果越準確”,以及“對所獲的信息可作齣瞬時反應,自動升級推測”的學習功能。瞭解瞭這一點之後,就完全可以理解為什麼貝葉斯統計是非常適閤應用於高端商業的技術瞭。
從事商業活動的人,如果能夠熟練使用貝葉斯統計,那是再好不過的。本書中的案例和解說,為這一類人群提供瞭很好的參考。
0-4?貝葉斯統計依存於人的心理
在0-2節中有提到,“貝葉斯統計在某種程度上是不可靠的”。究其原因,是由於貝葉斯統計中所涉及的概率是“主觀的”。換言之,通過貝葉斯統計得到的概率並非客觀的數值,而是依存於人的心理的主觀數值。在從這個意義上講,貝葉斯統計具備瞭一定的“思想”。也正是因此,注重客觀性的科學界為貝葉斯統計打上瞭“假冒僞劣”的烙印,並導緻它一度消亡。
統計學關我什麼事 pdf epub mobi txt 電子書 下載