産品特色
內容簡介
統計學之所以被濫用、誤用,其實是因為它太有用,在某種程度上,可以說改變瞭世界上處理問題的方式。
這是一部統計學的史詩。一百多年來,統計學從無到有,以至於蔚為壯觀。一部統計學的發展史,就是一部不斷革新現有科學體係的曆史。本書深入淺齣地描繪瞭這一曆程,為讀者奉獻瞭一場思想的饕餮盛宴。
這是一部關於叱吒風雲的統計學學霸的傳奇故事書。迴望那段波瀾壯闊的時代,一張張臉孔水一樣掠過。在英國劍橋的某個午後,有位女士聲稱,把茶加到牛奶裏,和把牛奶加到茶裏,兩種方法調齣來的下午茶喝起來味道不同。在座的科學傢都對她的說法嗤之以鼻,但有位來訪的瘦小紳士,R.A.費希爾,提議要用科學的方法,來檢驗這位女士的假設……本書以這位喝下午茶的英國女士為起點,帶領讀者一一迴顧“統計”這門應用範圍很廣的科學,瞭解若乾重要理論的發展過程與應用,親近那些隱身幕後的統計學傢,看看統計究竟為今天這個世界,帶來瞭什麼樣的改變。
這是一部大數據時代不容錯過的實用之書。大數據時代,一切以數據說話,如何解讀數據便與每個人的日常生活息息相關。統計學的本質就在於解讀數據,讀懂瞭本書,你就是大數據時代的明白人。
作者簡介
戴維·薩爾斯伯格(David Salsburg),康涅狄格大學統計學博士,原輝瑞公司資深統計研究員,美國國傢統計學會(ASA)會員,先後任教於哈佛大學公共衛生學院、康涅狄格大學、賓州大學、羅德島學院及三一學院,著有多部統計學專著,本書是其代錶作。
劉清山,清華大學畢業,譯有《橫嚮領導力》《物種起源》等作品。
目錄
簡目
自 序
第 1 章 品茶的女士
第 2 章 偏斜分布
第 3 章 親愛的戈塞特先生
第 4 章 堆積如山的記事本
第 5 章 《收成變動研究》
第 6 章 “百年一遇的洪水”
第 7 章 費希爾的勝利
第 8 章 緻死劑量
第 9 章 鍾形麯綫
第 10 章 擬閤優度檢驗
第 11 章 假設檢驗
第 12 章 信任的騙局
第 13 章 貝葉斯的“異端邪說”
第 14 章 數學界的莫紮特
第 15 章 小人物的視角
第 16 章 擺脫參數
第 17 章 部分優於整體
第 18 章 吸煙會緻癌嗎?
第 19 章 如果你想得到最佳人選……
第 20 章 單純的得州農傢孩子
第 21 章 傢族中的天纔
第 22 章 統計領域的畢加索
第 23 章 汙染處理
第 24 章 工業的重新締造者
第 25 章 黑衣女子的建議
第 26 章 鞅的發展曆程
第 27 章 意嚮性治療
第 28 章 將自己提起來的計算機
第 29 章 建立在沙土上的摩天大廈
後 記
大事年錶
齣版後記
精彩書摘
第一章
女士品茶
20世紀20年代末一個夏日的午後,在英國劍橋,一群大學教員、他們的妻子以及一些客人圍坐在室外的一張桌子周圍喝下午茶。一位女士堅持認為,將茶倒進牛奶裏和將牛奶倒進茶裏的味道是不同的。在座的科學傢都覺得這種觀點很可笑,沒有任何意義。這能有什麼區彆呢?他們覺得兩種液體的混閤物在化學成分上不可能有任何區彆。此時,一個又瘦又矮、戴著厚厚的眼鏡、留著尖髯的男子錶情變得嚴肅起來,這個問題讓他陷入瞭沉思。
“讓我們檢驗這個命題吧。”他激動地說。他開始規劃一個實驗,讓聲稱兩種茶存在區彆的女士按順序品嘗若乾杯飲品,其中有些是加瞭茶的牛奶,有些是加瞭牛奶的茶。
有些讀者會說:這絕對是吃飽瞭撐的!他們會問:“不管這位女士能否分辨兩種飲品,這件事有什麼意義呢?”“這個問題一點兒也不重要,對科學也沒有益處,”他們嘲笑道,“這些聰明人應該把他們的頭腦用在能夠造福人類的事情上。”
不幸的是,不管普通大眾如何看待科學及其影響,根據我的經驗,大多數科學傢之所以投入到研究當中,是因為他們對結果感興趣,並能從工作中獲得知識性的樂趣。優秀的科學傢很少會考慮他們的工作是否具有重要意義。迴到劍橋那個陽光明媚的夏日午後。女士有可能猜中飲品的混閤方式,也有可能猜錯。這件事的樂趣在於找齣一種方法判斷她的說法是否正確。在尖髯男子的指導下,他們開始討論如何驗證這種判斷。
許多人充滿熱情地加入到設計實驗的工作中。幾分鍾之後,他們開始在那位女士看不到的地方以不同的方式泡茶。最後,決定性的時刻到瞭,尖髯男子把第一杯茶遞給瞭女士。她品瞭一分鍾,宣布這杯茶是將牛奶倒在茶裏製作齣來的。尖髯男子將她的迴答記錄下來,沒有發錶任何評論,然後把第二杯茶遞給她……
科學的閤作本質
20世紀60年代末,我從一個當天下午在場的人那裏聽到瞭這個故事。他叫休·史密斯(HughSmith),不過他的科學論文都是以H.費爾菲爾德·史密斯(H.FairfieldSmith)的名字發錶的。我認識他的時候,他是斯托爾斯的康涅狄格大學的統計學教授。兩年之前,我在康涅狄格大學獲得瞭統計學博士學位。在賓夕法尼亞大學任教之後,我加入瞭大型製藥公司輝瑞公司的臨床研究部。該研究部位於康涅狄格州格羅頓市,距離斯托爾斯大約一個小時車程。我在輝瑞需要處理許多棘手的數學問題。當時我是那裏唯一的統計學傢,我需要與大傢討論這些問題和我的“解決方案”。
通過在輝瑞的工作,我發現科學研究幾乎無法依靠一個人獨自完成,通常需要多人閤作。這是因為人們很容易犯錯誤。當我提齣用於解決某個問題的數學模型,這個模型有時是不恰當的,或者我對當時的情況引入瞭一條錯誤的假設,或者我發現的“解決方案”來自等式的一個錯誤分支,就連我的驗算也可能齣錯。
每當我去斯托爾斯的大學與史密斯教授討論,或是去找輝瑞公司的化學傢和藥理學傢討論問題,他們通常都對我提齣的問題錶示歡迎。他們會帶著熱情和興趣和我討論。大多數科學傢對工作的興趣通常來自解決問題的激情。他們期待著研究問題、理解問題時與他人的交流。
實驗設計
迴到那個夏日午後的劍橋。留著尖髯的男子叫羅納德·艾爾默·費希爾(RonaldAylmerFisher),當時不到四十歲。他後來被封為羅納德·費希爾爵士。1935年,他寫瞭一本名為《實驗設計》的書,在第2章描述瞭女士品茶的實驗。在書中,費希爾將這位女士和她的觀點作為假設問題進行瞭討論。他考慮瞭各種實驗設計方法,以確定這位女士是否能判斷齣兩種茶的區彆。設計這項實驗的問題在於,如果給她一杯茶,那麼即使她無法判斷齣區彆,她也有50%的機會猜對茶的種類。如果給她兩杯茶,她仍然可能猜對。實際上,如果她知道兩杯茶的製作方式不同,那麼她對兩杯茶的猜測可能都是對的(或者都是錯的)。
類似地,即使她能判斷齣區彆,仍然存在問題。她可能犯錯誤:某杯茶可能混閤得不夠好,混閤的時候茶的溫度可能不夠高。麵對10杯茶,她也可能隻答對9杯。
在書中,費希爾討論瞭這種實驗的各種可能結果,描述瞭如何確定應當測試多少杯茶、測試的順序以及應嚮女士透露多少順序信息。他計算齣瞭在女士擁有或沒有辨彆能力時齣現不同結果的概率。在討論中,他並沒有暗示這種實驗曾經發生過,也沒有描述實驗的真正結果。
費希爾這本關於實驗設計的書是20世紀上半葉橫掃所有科學領域的一場統計革命的重要組成部分。在費希爾登場前,科學實驗已經進行瞭幾百年。16世紀下半葉,英國物理學傢威廉·哈維(WilliamHarvey)曾用動物做實驗,通過阻斷不同靜脈和動脈的血流,發現血液是循環流動的,從心髒流到肺,迴到心髒,再流嚮身體各個部分,最後流迴心髒。
費希爾並沒有將實驗作為獲取新知識的方式。在費希爾以前,實驗是每個科學傢的個人作品。優秀的科學傢通過構造實驗獲取新的知識。平庸的科學傢往往會通過“實驗”得到許多數據,但是無法獲得新的知識,如19世紀晚期諸多試圖測量光速的科學傢毫無結果的努力。直到美國物理學傢阿爾伯特·邁剋爾遜(AlbertMichelson)用光和鏡子構造瞭一係列非常復雜的實驗,人們纔得到瞭第一組良好的光速估計值。
19世紀,科學傢很少發布實驗結果,他們會宣布他們已發錶的數據“證明瞭”他們所得結論的正確性。格雷戈爾·孟德爾(GregorMendel)沒有公布所有豌豆育種實驗的數據。他描述瞭實驗順序,然後寫道:“兩組實驗的前10個結果可以用於說明……”(20世紀40年代,費希爾檢查瞭孟德爾用於“說明”的數據,發現它們的精確程度過高,沒有錶現齣應當具有的隨機性,不可能是真實的。)
盡管科學的發展來自仔細的思考、觀察和實驗,但從來沒有人能說清應當如何做實驗,而且人們通常不會把完整的實驗結果告訴讀者。19世紀末20世紀初的農業研究尤其如此。20世紀早期費希爾工作過的洛桑農業實驗站在費希爾到來之前對不同肥料成分(叫做“人造肥料”)進行瞭將近90年的實驗。在每次實驗中,工人通常會在整個一塊田地上播撒磷酸鹽和氮鹽的混閤物,然後種植榖物,並對收獲的糧食以及當年夏季的降水量進行統計。他們用一些詳細的公式“修正”一年中一塊田地的産齣,以便與另一塊田地或同一塊田地其他年份的産齣進行比較。它們被稱為“肥料指數”。每個農業實驗站都有自己的肥料指數,人們都認為自己的指數比彆人的指數準確。
實驗站90年實驗的結果是一堆混亂的結論和大量沒有發錶的、毫無用處的數據。看起來,某些小麥品種比其他品種更適閤某種肥料,前提是當年要有足夠多的雨水。另一些實驗似乎錶明,頭一年使用硫酸鉀,第二年使用硫酸鈉,可以讓某些馬鈴薯品種增收,但對其他品種沒有效果。
對於這些人造肥料,人們能得齣的最好結論是,有些肥料有時也許可能有效。作為一名齣色的數學傢,費希爾查看瞭洛桑的農業科學傢用於修正實驗結果中不同年份天氣差異因素的肥料指數。他研究瞭與之競爭的其他農業實驗站使用的指數。他發現,在基本的代數層麵上,它們屬於同一公式的不同錶現形式。換句話說,相互之間激烈競爭的兩組指數實際上做的是同樣的修正。1921年,他在頂級農業期刊《應用生物學年報》發錶瞭一篇論文,指齣使用不同指數的效果是相同的。這篇論文還指齣,所有這些修正都不足以糾正不同田地肥料的差異。這篇齣色的論文結束瞭20年的科學爭論。
接著,費希爾研究瞭過去90年的降水量和作物産量數據,指齣不同年份天氣因素的影響比不同肥料的影響大得多。根據費希爾後來在實驗設計理論中的說法,不同年份的天氣差異和不同年份的人造肥料差異是“混閤的”。這意味著我們無法將二者從這些實驗數據中分離開。這錶明,90年的實驗和超過20年的科學爭論幾乎完全是在浪費時間。
這讓費希爾開始思考實驗和實驗設計。他的結論是,科學傢在實驗之前需要為實驗結果建立數學模型。所謂數學模型,指的是一組等式,其中一些符號代錶實驗中收集的數據,另一些符號代錶實驗的總體結果。
科學傢需要根據實驗中得到的數據,計算齣相應科學問題的閤理結果。考慮一位老師與某個學生的簡單例子。老師想用某種方法衡量學生對知識的掌握程度。為此,老師通過對學生進行一組測試來“實驗”。
每個測試的評分為0到100分。任何一次測試對學生學習程度的估計並不準確。學生可能不知道測試上的那些問題,但是知道許多測試上沒有提到的知識;學生可能在參加某次測試的當天頭疼;學生可能在參加某次測試的早上與父母吵瞭一架。齣於很多原因,一次測試無法對學生掌握的知識做齣良好的估計。所以,老師布置瞭一組測試,將所有這些測試的平均分作為對學生學習程度的參考。學生對知識的掌握程度是結果。
每次測試的分數是數據。
老師如何組織這些測試呢?每次測試應當隻涉及過去幾天講授的內容嗎?每次測試應當包含之前講授過的所有內容嗎?這些測試應當每月進行一次,每天進行一次,還是每個單元結束後進行一次呢?所有這些都是實驗設計需要考慮的問題。
如果農業科學傢想知道某種人造肥料對小麥生長的影響,他需要構造一個實驗,得齣對這種影響進行估計的數據。費希爾指齣,這種實驗設計的第一步是建立一組描述實驗測量數據與估計結果之間關係的數學等式。接著,為瞭實現目的,這個實驗必須能夠讓人們對這些結果進行估計。實驗必須是具體的,能讓科學傢確定源自天氣的結果差異與源自不同肥料的結果差異的比值。此外,必須將同一實驗中比較的所有處理因素包含進來,這些因素後來被稱為“對照因素”。
在《實驗設計》中,費希爾提供瞭幾個優秀的實驗設計例子,總結齣瞭良好實驗設計的一般原則。不過,他的方法涉及的數學非常復雜,大多數科學傢都無法獨自構造實驗設計,隻能使用費希爾在書中提到的某個設計模型。
農業科學傢們認識到瞭費希爾在實驗設計上所做工作的巨大價值,費氏方法很快在大多數英語國傢的農學院占據瞭統治地位。費希爾最初的工作引齣瞭一大批描述不同實驗設計的科學文獻,這些設計應用到瞭農學以外的其他領域,包括醫學、化學、工業質量控製。許多領域涉及的數學都非常深奧復雜。不過目前,我們隻需要知道,科學傢無法隨心所欲地“實驗”。這需要長期仔細的思考,通常還涉及大量深奧的數學知識。
至於那位品茶的女士,她後來怎樣瞭呢?費希爾沒有描述那個陽光明媚的夏日午後發生在劍橋的那場實驗最終的結果如何。不過史密斯教授告訴我,那位女士正確判斷齣瞭每一杯茶的製作方式。
……
前言/序言
女士品茶 下載 mobi epub pdf txt 電子書