數據之巔

數據之巔 pdf epub mobi txt 电子书 下载 2025

想要找书就要到 求知書站
立刻按 ctrl+D收藏本页
你会得到大惊喜!!
店铺: 唐人易和图书专营店
出版社: 中信出版社
ISBN:9787508644660
商品编码:10577831239

具体描述

內容推薦 數據,自古就有,人口普查、農業統計、軍事戰爭、政治計算……數據雖小,卻有助於治國安邦。美國之所以繁榮鼎盛,數據文化根基牢不可破概是主因之一。
信息爆炸、互聯互通、智慧城市時代,大數據,更以排山倒海之勢席捲全球,政府施政、企業掘金,大眾要公平與正義,大數據被賦予瞭新的曆史使命。
在這本書中,從小數據時代到大數據的崛起,作者以宏大的曆史觀、文化觀、大數據觀,給我們描繪瞭一幅數據科學、智慧文化的全景圖。全書從美國建國之基講起,通過闡述初數時代、內戰時代、鍍金時代、進步時代、抽樣時代、大數據時代的特徵,係統梳理瞭美國數據文化的形成,闡述瞭其數據治國之道,論述瞭中國數據文化的薄弱之處,展望瞭未來數據世界的遠景。
“尊重事實,用數據說話”,“推崇知識和理性,用數據創新”,作者不僅意在傳承黃仁宇“數目字”管理的薪火,還試圖把數據這個科技符號在中國轉變為文化符號,形成一種文化話語體係。大數據正在撬動中國的製度創新、科技創新。閱讀此書,曆史與現實相互融閤,知識與激情相互交織,思想與觀念相互碰撞,未來與前景必定豁然開朗。
作者簡介 塗子沛,江西吉安人,現居美國矽榖。2012年其著作《大數據》在中國社會開大數據之先河,引發瞭大數據戰略、數據治國和開放數據的討論,曆史學傢許倬雲先生盛贊其“為華文世界開創瞭一個重要話題”。本書為作者第二本著作,全書對大數據追根溯源,提齣當前信息技術的發展,已經讓中國獲得瞭後發優勢,中國要在大數據時代的全球競爭中勝齣,必須把大數據從科技符號提升成為文化符號,在全社會倡導數據文化。
作者本科畢業於華中科技大學計算機係,研究生畢業於中山大學和卡內基梅隆大學,獲公共管理碩士和信息科學碩士學位。
目錄 推薦序一進入一個重要的現代文化園地/許倬雲XV
推薦序二一部精彩紛呈的時代傑作/郭為XIX
推薦序三大數據可以創造未來/王巍XXIII

**部分小數據之曆史
**章初數時代:奠基共和
剋服民主的劣勢:用數據分權
製度創新:變對抗為閤作的魔法棒
兩黨之爭:無法精確分割的權力
亞拉巴馬悖論:沒有完美的方案
有數初成:共和政治反哺數據文化
中國往事:**次現代意義上的人口普查
第二章內戰時代:終結奴隸製的燈塔
人口普查:南方*大的敵人
用數據辯論:南北戰爭的序幕
用數據遠徵:嚮大海進軍
政治計算:解放黑奴的真正原因
兵傢和數據:中國曆史上的吉光片羽
第三章爆發:鍍金時代的三重崛起
用數據預測:轉變思維方式
總統之死:專業化的悲情序麯
世紀巔峰:大數據驅動的創新
和政治分傢:勞工統計的異軍突起
姑娘、棉花和數據:究竟誰在推動曆史
塵封的瑰寶:中國的數據可視化先驅
第四章量化:進步時代的數據大潮
用數據決策:水利工程中的數據競爭
衝擊量化的極限:給生命定價
“平托”風波:福特公司的道德危機
用數據來審判:理性的必然選擇
代理人需要監督:成本收益分析方法的未來
思考中國話題:民族復興能否量化?
第五章抽樣時代:統計革命的福祉
從選票到電影票:和《亂世佳人》共舞
用數據跨界:質量大師是怎樣煉成的
鏇轉質量的飛輪:日本崛起
世紀之問:日本行,為什麼我們不行?

第二部分大數據的崛起
第六章開放時代:內開放的曆程
內開放1.0:數據承載知情權
內開放2.0:用數據製衡
悲劇現場的**個問題:普查局的數據之痛
LEHD項目:開放數據的使用權
內開放3.0:用數據推動創新
2012年:來自中國的組織創新
第七章大數據時代:通往計算型的智能社會
世上本沒有數:正解大數據
改變世界的三股力量:大數據的成因
有數據,還要有計算:計算型社會的興起
普適計算:即將到來的超級數據爆炸
數據和計算:第三次工業革命的CPU
數據之巔:通嚮智能型社會的挑戰
第八章智慧城市:正在拍打世界的浪潮
西方和東方:聰明和智慧
目標鎖定“城市平颱”:神州數碼對話錄
眾包、眾智和眾創:讓大眾解決大眾的問題
雲、隱私和未來:中國和美國的不同挑戰
結語把握後發優勢:把科技符號變成文化符號
後記蝴蝶振翅

前言 進入一個重要的現代文化園地
許倬雲著名曆史學傢、美國匹茲堡大學曆史係榮譽講座教授
塗子沛先生所著的這部大作,是大數據時代的應時之作。
他將數據用在管理和研究方麵的發展史,以其在美國的發展過程,作為主要內容。他從美國開國時期的人口普查,作為起點,討論民主製度如何經過數據的調查,纔能發展成為“一人一票”的製度。接著,19世紀中葉,美國嚮西開發,美國的工程兵團,進行丈量和調查,使美國的地理狀況和疆域,都有明白的依據。20世紀,“打孔”的計算方法,開創瞭後世計算器管理大量數據的技術。到今天,我們日常生活中,因為計算機和網絡的普及,無處沒有數據的存在。以我老病人為例,疾病的性質,或藥物的效果,都必須靠大量的數據,作為診斷和治療的依據。凡此,都是數據的使用。
美國的社會愈來愈復雜,資本主義的國傢,證券交易乃是一樁大事。單單用統計來管理證券,已經不太夠用。大概在*近30來年,許多大證券商,為瞭要預測經濟的起落和某一種産業的興衰,大量地使用不同産業之間的關係,也顧及國際貿易的情形。這些私營的企業界,幾乎都能相當精準地判斷市場的情形。於是,管理證券交易的美聯儲,實際上就是美國的中央銀行,也必須更細密地運用許多數據,以掌握經濟的全貌,然後再決定對市場供應的貨幣是從寬還是從緊。這纔是“大數據”的**次使用。
中國古代兵書《孫子兵法》就說過:“算則勝,不算則不勝;多算勝,少算則不勝。”此處的“算”字,就是如何利用數字,來估計各種因素。一個能乾的將領,打一次戰役,要考慮到天時、地利、人和,這都是可以用數字錶現的。但是,一個治國的領袖,在上述因素以外,還得考慮許多其他的條件。1942年,日本偷襲珍珠港,以為可以一棒打死美國。他們沒算到,美國工業的實力,有充分的再生力量,三個月之內,美國立刻就能恢復足夠的海空實力。這就是日本軍人,隻知道計算戰役,不會計算戰爭。到今天,安倍野心勃勃,處處挑釁,他誌在日本復興。他的計算,大概又是計算自己現在的兵力和科技能力;他沒有算到,自己的原料供應不夠,能源不能自主,人口結構老化:這就是“算”得不夠。
“大數據”之“大”,就在於將各種分散的數據,彼此聯係,由點而綫,由綫而麵,由麵而層次,以瞻見更完整的覆蓋麵,也更清楚地理解事物的本質和未來的取嚮。人腦的結構,足夠發揮聯想力和推論。我們每天的日常生活,時時刻刻在不知不覺中,做“大數據”的工作,將許多因素綜閤在一起,作為行動和決定的依據。隻是一個國傢或一個社會的發展,不能全靠眼睛看得見的一些訊息,有許多事物,必須依靠全麵和長期的發展情況,纔能真實地反映當時一切決定的背景和條件。
今天信息科學的發展,已經能夠産生、存儲並實時地分析處理大量的信息,整閤多個源頭的數據,形成全麵的多項關係,指齣綫性的發展方嚮,引導我們有廣闊的視野。計算機今天處理數據的能力和速度,已經超過*聰明的個人。可是,用計算機的還是“人”,如何駕馭這些數字,還是“人”在設計。隻是,我們必須要有此認識:今天的世界,已經韆絲萬縷,將各地、各種行業、各種條件,糾纏成一個復雜的全球網絡。管理大企業和管理國傢,必須要有足夠的信息,瞭解多種多樣的情況,以全麵地理解各種問題及其彼此的關聯。即使是對個人而言,因為越來越多的行為已經轉變為電子化的記錄,其生活也和大數據息息相關。“大數據”這個課題,十分重要,我盼望有更多的學者,在這方麵提齣更多的作品。
塗子沛先生的大作,是討論大數據較早的中文作品;在此以前,還罕見討論數據為管理方式的書籍。這本書,主要是以美國社會中數據的使用為例。我知道他一心想用這些例子,提醒中國的讀者:在信息科學高度發展的今天,我們不能再忽略數據的使用。塗子沛先生開啓瞭一道大門,我相信,後麵會有更多的開展,讓大傢進入這一個重要的現代文化園地。
一部精彩紛呈的時代傑作
郭為神州數碼控股有限公司董事局主席
好看的作品,齣色的作傢
認識塗子沛先生,源於他的**本著作《大數據》。2012年,我在機場書店無意間看到這本書,一讀起來,就不忍釋捲。我當時很驚訝,沒想到作為IT産業內的大數據技術,竟然可以這樣寫,如此自然流暢地與美國的社會發展、民主進程融閤在一起,有觀點、有故事,讀來引人入勝,掩捲引人深思。
之後,我主動聯絡瞭塗子沛先生,邀請他來神州數碼參觀考察。塗先生欣然接受,他不僅給神州數碼的員工做瞭非常好的演講,而且,還與我們圍繞中國智慧城市建設的話題,進行瞭深度碰撞,對我啓發很大。
正是那個時候,他告訴我,他已經在構思下一本書,還是以大數據為主題,但會和中國有更多的結閤。我非常興奮,馬上嚮他錶示,神州數碼非常願意嚮他敞開大門,我們在大數據和智慧城市建設方麵的所有思考、探索和實踐,毫無保留地嚮他公開,歡迎他來瞭解、見證我們的發展。在這之後一年多的時間裏,塗先生果然多次來訪神州數碼,親自走訪瞭佛山、蘇州、張傢港、武漢等地,認真訪談瞭我們的業務負責人、技術帶頭人,也多次登門拜訪各地的政府用戶、企業和市民。他體現齣的敬業精神和專業能力,讓我非常感動,也令我相信他一定能夠再次完成一本具有社會影響力的作品。
但親眼看到《數據之巔》這部書稿時,我承認,我再次被震驚瞭。這本書再一次超齣瞭我的預期,除瞭承襲《大數據》一書中科學曆史觀的敘事方式,這一次,塗先生跳到瞭哲學思考的層麵,以統計學的社會應用為切入點,解構數據文化在美國政治、經濟乃至軍事發展領域起到的關鍵作用,一環扣一環,構思精巧,故事生動,邏輯清晰,讀起來實在“解渴”。而且,正如他曾經和我說的,“要和中國有更多的結閤”,在每一章的*後,他都講述瞭中國曆史上相對應的數據事件。*後一章的視綫更是完全轉嚮中國,用獨具中國特色的智慧城市建設案例,理性昭示著中華民族自己的未來。其間,亦莊亦諧的“子沛曰”,也體現瞭塗先生的幽默和智慧。
說塗先生是中國當代文壇*齣色的科學作傢之一,這毫不為過,在信息技術領域,他也是前沿的思想者。
捅破東西方哲學的窗戶紙
眾所周知,理性化、體係化,強調批判精神和實證精神,是西方哲學的特徵;感性、體驗、直覺,則是東方人的思維方式。在中國的傳統文化中,喜歡用道、術、器對事物的本質進行模糊的歸納總結,而西方,則在數據文化的基礎上,形成瞭嚴謹、理性、體係化的實證科學,如統計學、心理學、社會學等。
站在曆史長河上來看,東西方哲學都曾經和正在創造輝煌。在各自哲學思想的引領下,每一個民族、每一個國傢都是****的。正如中央電視颱的紀錄片《大國崛起》的開放式結尾,對於未來的發展,每一個國傢、每一個民族都在思考。
也許塗子沛先生並非刻意,但他在《數據之巔》一書裏“中美對比”的結構設計中、在對“數據文化”的倡導中,包括他寫作此書的目的—“這本書,我試圖在曆史的縱軸上,寫齣數據時代的全景;在和美國的橫嚮對比中,思考我們的現狀和未來”,都讓他在不經意間,捅破瞭隔在東西方哲學中間的那層雖薄卻韌的窗戶紙。
中國社會的持續發展,必然是在中國哲學思想的引導下,同時對“數據文化”這一典型西方哲學特徵加以融閤,譬如在中國傳統文化中談到的道、術、器各層麵裏,融入“數據文化”的基因。正在到來的大數據時代,為這種融閤提供瞭切實的可能性。
中國道路與數據治國
曆史的發展,總是存在這樣或那樣的契機。如果說,美國現代社會治理體係肇始於人口普查,那麼,大數據的到來,已經顯示齣強烈的徵兆,它將成為中國全麵現代化的契機。
塗子沛先生在書中,對大數據有通俗易懂的圖解。簡單說,大數據的特徵,首先是海量,而且是多種格式並存的海量,如文字、圖片、音頻、視頻等;其次是多源,大數據的來源,一是來自於商業企業,如電信、金融、電商平颱、社交網站等;二是來源於政府,如人口普查、戶籍登記、社保、醫保等。伴隨著物聯網、移動互聯網、雲計算的快速發展,全球數據總量每年以超過40%的速度成長,幾乎每兩年就翻一番。
2013年,中國産生的數據總量超過0.8ZB,是2012年的兩倍,相當於2009年全球數據總量。預計到2020年,中國産生的數據總量將超過8.5ZB,相當於2013年的10倍。另據國傢統計局公布的2013年數據,我國已擁有6.18億互聯網用戶,幾乎是美國的2倍;擁有超過12.29億部手機,是美國的3倍,但每年新增的數據量卻不及美國的1/10。所以,與發達國傢相比,中國是數據大國,但還不是數據強國。中國缺乏的不是可供收集的數據,而是對於大數據收集、分析、應用及有效管理的手段和意識。
前不久,神州數碼提齣瞭“虛擬映像”理論,嘗試從技術角度闡釋大數據革命的本質。在我們看來,隨著網絡泛在化,各種社會關係和生産關係逐步映射到其中,形成瞭與現實社會平行的網絡空間。由於網絡的拓撲性,各種關係通過數據的方式多維度地體現齣來,給社會發展、社會治理、經濟活動帶來瞭巨大的變化。這種變化直接體現在大數據對各個行業的顛覆式創新上,而且已經在政府、金融、貿易等領域初現端倪。塗子沛先生在本書的第八章,對城市公共信息服務平颱在改善民生、繁榮經濟和優化社會治理結構方麵的成效有生動的描述,也有對下一步政府運營外包的創新思考。“單獨二孩”政策的齣颱,就是通過對巨大的人口普查數據,進行復雜建模、可視化分析、沙盤演練後做齣的科學決策。互聯網金融的齣現,委實給全社會帶來瞭一場“地震”。製造業乃至各行各業,在可預見的未來,也將受到大數據顛覆式的影響。眾創、眾智、眾籌等商業創新模式,也在大數據時代呼嘯而來。
大數據時代,信息安全是頭等大事。沒有數據的開放,就難以形成大數據應用和大數據革命,與此同時,網絡和數據安全就顯得尤為重要。沒有網絡安全就沒有國傢安全;沒有數據安全,就沒有社會穩定。必須把網絡安全納入到法製的軌道上來。因此,首先要建立個人信息安全保護、信息主權的法律,用法律來界定信息主體、信息主權的邊界;其次,作為有影響力的大國,中國應該積極推動全球信息安全公約的建立,使得網絡安全能夠像核安全一樣,在聯閤國的協調下,各國在法律體係下相互製約、共謀發展;*後,中國要做強,在大數據應用、大數據安全和信息安全上,一定要增強自主創新的能力。
大數據正在從道德、文化、製度、産業和生活的方方麵麵重構現實社會。沒有信息化就沒有現代化。我們欣喜地看到,中國正在抓住這一契機,倡導數據文化,做好製度建設,全麵推進中國現代化的進程。我相信,塗先生這本書,一定會推動中國嚮數據強國不斷邁進。
感謝塗子沛先生的智慧,為時代貢獻瞭一部傑作。在倡導數據文化和數據治國上,我們永遠是同行人!
大數據可以創造未來
王巍中國金融博物館理事長
讀好書是愉快的,這是塗子沛先生的新書,也與他**本《大數據》一樣,我一氣嗬成地讀完。
美國的獨立與憲政、擴張與夯實、創新與製度,這都是耳熟能詳的曆史進程,不過200多年,我們可以用各種維度來梳理,不免老生常談。從大數據起步,居然彆開生麵,令人欣喜。塗先生善於講故事,在他的演繹中,大數據所奠定的一個個裏程碑令人信服地在繁雜錯亂的社會文化與倫理的演化中挺拔而齣。
數據思維以泰勒模式在100年前統禦瞭美國企業與産業管理之道,也在半個世紀前以戴明模式契閤並促進瞭日本企業全球競爭的能力。對於大而化之、不諳“數目字管理”(黃仁宇言)的中國民族而言,這個突然降臨的大數據時代,我們如何應對,如何起步,又如何融入?
塗先生在本書中為這些問題提供瞭許許多多深入的思考和有見地的觀點。他深思熟慮,用語殷殷,穿行在中美兩國的曆史中,努力發掘各個大數據改變觀念、改造社會、改革製度的故事,無論人與事件,都是栩栩如生,發人深省。從商業運作、社會治理到技術創新,我們都確信大數據不可或缺,必須開放,麵嚮全球,更要麵嚮我們自己。我們也甚至同意要如塗先生所言,努力“把科技符號變成文化符號”。
本書十分厚重,但讀下來,還是令人意猶未盡,我認為還可以發展齣第三部分,即大數據的市場基礎(或機製)。大數據觀念不隻是明智領導的選擇,也不隻是精英人士的憂患意識,更是韆韆萬萬人能夠在一個穩定而寬容的創業環境中的競爭過程。我們需要郭為林楊們的披荊斬棘,需要政府官員們的視野通達,更需要去中心化的開放市場,允許創業者、投資者與消費者真正將大數據作為資産、資本和生態空間去開發、增值和交易,而不是簡單視其為工具和便利。
大數據可以承載信息、知識和曆史,而信息、知識和曆史就是人類生存和發展的平颱、資産和財富。大數據可以梳理曆史,可以顛覆現實,當然就可以創造未來。
停留在思維和觀念的大數據是無解的,創造大數據社會是這一代人的使命和行動。這本書讓我們有目標有信心,也給我們創新的無限空間。
結語把握後發優勢:把科技符號變成文化符號
人類知識的**來源,是對過去經驗的記錄和整理,而數據,正是這種記錄的載體,因此數據的價值首先在於它是知識的來源。如果說傳統的數據是人類部分知識的來源,那隨著人類記錄範圍的不斷擴大,現代意義上的大數據將逐漸成為人類全部知識的來源。
前文反復談到,數據是對客觀世界的測量和記錄,這種記錄也是對曆史和現實的記錄。1869年,當美國總統加菲爾德在對美國的人口普查體係進行現代化改造之時,他就發現,數據當中不僅蘊藏著社會發展的規律,它還提供瞭一種全新的曆史書寫方式:
“直到現在,曆史學傢還是以一種總體的形式來研究一個國傢,他們隻能給我們講述帝王將相以及戰爭的曆史,但關於人民本身—我們龐大社會中每個生命的成長、各種力量、細節及其規律,曆史學傢說不齣太多的東西……而普查把我們的觀察放大到民房、傢庭、工廠、煤礦、田野、監獄、醫院等集中展示人性之強大及脆弱的所有地方,這讓新的曆史記錄成為可能。”
今天迴頭看,此話非常具有前瞻性。隨著人類躍進到大數據時代,數據不僅是新知識的來源,還是記錄曆史*重要、*可靠、*好的方式。從今以後,人類所有的曆史記錄,無論是數字、文檔、圖片,還是音頻和視頻,都將以數據的形式存在,數據就是靜態的曆史,曆史就是動態的數據。曆史的碎片,就是遊離的數據;曆史的迷霧,就是模糊的數據;曆史的盲點,就是缺失的數據。用數據構建的曆史,因為精確的細節而永遠鮮活,數據越豐富,後世的曆史學傢也就越能經由數據更好地再現當時的社會。
除瞭發現知識、記錄曆史,本書認為,人類使用數據的巔峰形式,是通過數據訓練機器,讓機器獲得智能,在不遠的將來,無處不在的計算設備和網絡將像有智商的人一樣,為人類工作和服務。這意味著我們在嚮智能型社會邁進,在這個新的社會形態,由於精準的計算和預測,整個社會的各個部分可以像無數個大大小小的軸承和齒輪一樣,環環相扣,齒齒吻閤,日常管理將通過數據得到優化,各種任務、閤作可以無縫對接,社會運行的成本可大幅降低,更重要的是,越來越多的工作將被計算機或者機器人代替。這既是進步,又是挑戰。迴望農業時代和工業時代,人類不斷地開發我們賴以生存的自然環境,從地錶到地下,物理性的資源終有耗盡的一天,而大數據將成為人類取之不盡、用之不竭的新資源,在這片資源之上,再通過軟件和算法,人類將建設一個智能型世界。
數據,正在成為這個世界*重要的土壤和基礎。
在這個社會轉型的緊要關頭,中國,作為正在趕超發達國傢的發展中國傢,曆史將賦予我們前所未有的機遇。例如,當年的美國用瞭幾十年的努力,纔建立瞭全民信用製度,今天,因為掌握瞭客戶的交易流水數據,阿裏巴巴在短短幾分鍾之內就可以決定是否發放一筆貸款。利用無處不在的充沛數據,中國的全民信用體係可能在較短的時間內、以較小的成本就可以建立起來。又如,隨著網絡的普及,信用卡將數據化、虛擬化,實體信用卡將大幅減少甚至消失,這意味著我們的銀行不用再像美國銀行那樣建設那麼多的物理網點和自動存取款機瞭。再如,因為智能在綫教育平颱的齣現,未來的教育資源完全不會局限於鋼筋水泥的學校,中國教育資源緊缺的問題可能得到快速的、大幅的緩解。此外,可穿戴式電腦設備、智能軟件診斷係統、遠程醫療等技術的齣現,將緩解醫療資源、專業人纔的緊缺。
種種機遇,可以概括為“後發優勢”。
以銀行的自動存取款機為例。從下錶可以看齣,近年來,中國擁有的自動存取款機在迅速增加。2012年,中國平均每10萬成年人擁有的自動提款機數量為37.51颱,但和英、美、日、加等發達國傢相比,我們的差距還很大:加拿大平均每10萬成年人擁有的自動存取款機為205颱、美國為173颱、日本為127颱。如果要在數據上縮小、拉平這個差距,中國肯定還需要很多年的努力。但由於大數據、互聯網金融的齣現和普及,大部分金融交易都可以通過虛擬賬戶來完成。可以預見,未來的社會一定不需要那麼多實體存取款機瞭,如果我們現在就能立足長遠、科學規劃,就可以跨越建設這些存取款機的環節、省去相應的費用,這就是後發優勢。

媒體評論 塗子沛先生開啓瞭一道大門,我相信,後麵會有更多的發展,讓大傢進入這一個重要的現代文化園地。
——許倬雲著名曆史學傢、美國匹茲堡大學曆史係榮譽講座教授
在《數據之巔》這本書中,塗先生跳到瞭哲學思考的層麵,以統計學的社會應用為切入點,解構數據文化在美國政治、經濟乃至軍事發展上起到的關鍵作用,一環扣一環,構思精巧,故事生動,邏輯清晰,讀起來實在“解渴”。感謝塗先生的智慧,為時代貢獻瞭一部傑作!
——郭為神州數碼控股有限公司董事局主席
塗子沛先生的《數據之巔》通過追溯梳理美國的數據曆史、展望人類的數據未來,給中國社會提齣瞭一個數據時代的新命題——如何構建數據文化?本書引人入勝、發人深思,是不可不讀的好書。
——馬蔚華招商銀行前行長
數據錶示的是過去,但錶達的是未來,所以觀察數據需要有曆史觀。塗子沛先生的這本新作《數據之巔》以大曆史、大數據、大社會、大進步的格局,通過數據將遙遠拉近,將悠久縮短,將巨大歸聚,將過程簡直。無論你從事何業或研究何題,都值得認真閱讀這部巔峰之作。
——硃小黃中信銀行行長、中信集團監事長
大數據是互聯網金融的基礎支柱。互聯網金融是雲計算、大數據、社交網絡這個移動互聯大時代裏的小時代。時代潮流,浩浩蕩蕩!塗子沛先生的大數據係列著作,帶您觀時代大潮!
——肖風通聯數據董事長、萬嚮信托董事長
塗子沛先生《數據之巔》一書的曆史高度和現實意義,超齣瞭他的《大數據》。如果說他上部書開啓瞭中國人對大數據的認識,此書則從曆史的角度來說明,對數據的理解和掌握是人類文明進步的標誌。
——田溯寜中國寬帶資本董事長
塗先生深思熟慮,用語殷殷,穿行在中美兩國的曆史中,努力發掘各個大數據改變觀念,改造社會,改革製度的故事,無論人與事件,都是栩栩如生,發人深省。這本書讓我們有目標有信心,也給我們創新的無限空間。
——王巍中國金融博物館理事長
大數據的江湖有兩派,國傢治理派和産業升級派。塗子沛先生無疑是國傢治理派的宗師,這本書在美國200多年的政界商海、刀光劍影中勾勒齣雄渾的數據思維、文化、價值觀和方法論。
——吳甘沙英特爾中國研究院院長
塗子沛先生已經成為中國大數據和數據分析領域*前沿的思想者和專傢,如果您想瞭解大數據的曆史、現實和未來,這本書將是您的必讀書目。
——托馬斯H達文波特巴布森學院教授,麻省理工學院數字商務中心研究員
ZipeiTuhasbecometheforemostthinkerandexpertonbigdataandanalytics
inChina.Ifyouwanttoknowthepast,present,andfutureofbigdatainthatcountry,youmustreadthisbook.
ThomasH.Davenport
DistinguishedProfessor,BabsonCollege
Fellow,MITCenterforDigitalBusiness
塗子沛先生不僅在寫書,還在用書來傳遞他的熾熱激情:大數據時代是上帝恩賜給中國人的,國人切切不可錯過這個經濟發展和社會進步的時代機遇。如其書中所言,在這個新的時代,我們不僅要用數據來說話,還要用數據來創新。
——劉鷹清華大學社會科學學院教授
在全球化、信息化和市場化的今天,國際競爭本質上是軟實力的競爭,即製度和文化的競爭。塗子沛先生倡導的客觀、精確、理性和邏輯的“數據文化”理念,不僅是挖掘中國傳統優秀文化、吸納西方文明,重塑中華文化的新範式,也是推進國傢治理體係和治理能力現代化的利器。
——周超中山大學公共政策研究中心主任、教授
《數據之巔》以數據為軸綫洞察人類社會的發展規律,描繪未來的趨勢和走嚮,力透紙背的還有作者嚴謹的治學風格及其赤子情懷。塗子沛老師的這本新書就是一座橋梁,實現瞭中西方之間、曆史與現實之間、政治與商業之間的貫通融閤,深入研讀,可以幫助我們進入通達無礙的智慧境界!
——付偉中國銀聯支付學院院長
身處國內喧囂浮華的互聯網金融蜃景,此書恰似撥雲見日,塗子沛先生跨洋而來的目光深邃地看清瞭中華文明與西方文明在虛與實上的認知鴻溝。民主的細節在於數據,金融的血液中流淌的也是數據,《數據之巔》,眾心嚮往!
——郭宇航點融網創始人、首席執行官
作為《大數據》*早的一批讀者,我曾於2012年10月專程前往美國拜會塗子沛先生。塗先生的格局和視野、勤奮和雅靜以及時代的責任感令我印象深刻。這本新書立意高遠、數往知來,把數據從科技符號演進到文化符號,在今天這樣一個尤其需要高瞻遠矚的大變革時代,相信《數據之巔》會再次成為熱點話題,推動中國數據文化的普及。
——陳登坤金蝶集團執行董事、高級副總裁、金蝶醫療軟件公司總經理
塗子沛先生的新作《數據之巔》揭示瞭在人類近、現代文明進程中,在民主和共和體製的創立演化中那無形的數據之手。國內鮮有類似的作品。把數據與人類社會的進步、民主體製的演化聯係起來,這是真正的人文關懷。當下的中國,從不缺“民主自由”的口號,但口號建不起先進的人類文明,數據纔能。
——趙嘉敏譯言網聯閤創始人、首席執行官
通過《數據之巔》,塗子沛先生再次深入美國曆史中的細節,以真正治學之人的責任與良心,發掘“數據”所凝聚的可以再生的思想文化資源。數據文化是一個全新的視角,非常值得教育工作者探索和思考。在智能型社會、人機共生的時代敲響鼓點、加速到來的時刻,本書的閱讀,也是一場自我啓濛之旅,將為我們推開那扇未來世界之門。
——潘江雪上海真愛夢想基金會理事長
數據自古存在。本書截取曆史長捲中的數據剖麵,或古今中外,或政經産學,案例生動,立意高遠,令人心生欽敬。
——趙國棟中關村大數據産業聯盟秘書長

在綫試讀部分章節 第七章大數據時代:通往計算型的智能社會
大數據是人類文明新的土壤,在這片土壤之上,人類將開始建設一個智能社會。
—本書作者,2014年
世上本沒有數:正解大數據
傳統意義上的“數據”,是指“有根據的數字”,數字之所以産生,是因為人類在實踐中發現,僅僅用語言、文字和圖形來描述這個世界是不精確的,也是遠遠不夠的。例如,有人問“姚明有多高”,如果迴答說“很高”、“非常高”、“*高”,彆人聽瞭,隻能得到一個抽象的印象,因為每個人對“很”、“非常”有不同的理解,“*”也是相對的,但如果迴答說“2.26米”,就一清二楚。除瞭描述世界,數據還是我們改造世界的重要工具。人類的一切生産、交換活動,可以說都是以數據為基礎展開的,例如度量衡、貨幣的背後都是數據,它們的發明和齣現,都極大地推動瞭人類文明的進步。
數據*早來源於測量,所謂“有根據的數字”,是指數據是對客觀世界測量結果的記錄,而不是隨意産生的。測量是從古至今科學研究*主要的手段,可以說,沒有測量,就沒有科學;也可以說,一切科學的本質都是測量。就此而言,數據之於科學的重要性,就像語言之於文學、音符之於音樂、形色之於美術一樣,離開數據,就沒有科學可言。
除瞭測量,新數據還可以由老數據經計算衍生而來。測量和計算都是人為的,也就是說,世上本沒有數,一切數據都是人為的産物。我們說的“原始數據”,並不是“原始森林”這個意義上的“原始”,原始森林是指天然就存在的,而原始數據僅僅是指**手的、沒有經過人為修改的數據。
傳統意義上的數據,和信息、知識也是完全不同的概念:數據是信息的載體,信息是有背景的數據,而知識是經過人類的歸納和整理
但進入信息時代之後,“數據”二字的內涵開始擴大:不僅指代“有根據的數字”,還統指一切保存在電腦中的信息,包括文本、圖片、視頻等。其中的原因是,20世紀60年代軟件科學取得瞭巨大進步、發明瞭數據庫,此後,數字、文本、圖片都不加區分地保存在電腦的數據庫中,數據也逐漸成為“數字、文本、圖片、視頻”等的統稱,也即“信息”的代名詞。
文本、音頻、視頻本身就已經是信息,而且其來源也不是對世界的測量,而是對世界的一種記錄,所以信息時代的數據又多瞭一個來源:記錄。
圖7–2數據的三大來源
圖7–3現代意義上的“數據”:範疇比信息還要大
注:進入信息時代之後,數據成為信息的代名詞,兩者可以交替使用。一封郵件雖然包含很多條信息,但從技術的角度齣發,可能還是“一個數據”,就此而言,現代意義上的數據的範疇,其實比信息還大。
除瞭內涵的擴大,數據庫發明之後,還齣現瞭另外一個重要現象,那就是數據的總量在不斷增加,而且增加的速度不斷加快。
20世紀80年代,美國就有人提齣瞭“大數據”的概念。這個時候,其實還沒有進入數據大爆炸的時代,但有人預見到,隨著信息技術的進步,軟件的重要性將下降,數據的重要性將上升,因此提齣“大數據”的概念。這時候的“大”,如“大人物”和“大轉摺”之“大”,主要指價值上的重要性;到瞭21世紀前10年,尤其是2004年社交媒體産生之後,數據開始爆炸,大數據的提法又重新進入大眾的視野並獲得瞭更大的關注。這個時候的“大”,含義也更加豐富瞭:一是指容量大,二是指價值大。
從這個角度齣發,大數據可以首先理解為傳統的小數據加上現代的“大記錄”,這種大記錄的主要錶現形式是文本、圖片、音頻、視頻等,和傳統的測量完全是兩迴事。而且大數據之所以“大”,主要是“大記錄”的增長,基於信息技術的進步,人類記錄的範圍在不斷擴大:
大數據=傳統的小數據+現代的大記錄
(源於測量)(源於記錄)
但到底多大纔算大呢?針對這一問題,十多年來爭議頗多。這首先涉及衡量數據大小的單位,2000年的時候,一般認為,“太”(T)級彆的數據就是大數據瞭,當時擁有“太”級彆數據的企業並不多,但自此之後,互聯網企業開始崛起,這些企業擁有各種各樣的數據,其中大部分都是文本、圖片和視頻,其數據量之大,傳統企業根本無法望其項背。
理解幾個主要的存儲單位
一首音樂≈4兆(M)
一部電影≈1吉(G,1吉=1024兆,相當於250首歌麯的大小)
一個普通圖書館的藏書≈1太(T,1太=1024吉,相當於1024部電影的大小)
我認為,不僅僅是互聯網行業,其實各行各業的數據都在爆炸,隻是規模不同。如果僅僅把大數據的標準限定在互聯網企業,認為隻有互聯網企業纔擁有大數據,那就嚴重窄化瞭大數據的意義。畢竟容量隻是錶象,價值纔是本質,而且大容量並不一定代錶大價值,大數據的真正意義還在於大價值,價值主要是通過數據的整閤、分析和開放而獲得。大數據是指人類有前所未有的能力來使用海量的數據,在其中發現新知識、創造新價值,從而為社會帶來“大知識”、“大科技”、“大利潤”和“大智能”等發展機遇。
以上論述,是從概念上分析“數據”和“大數據”的區彆,而掌握一個概念*好的方法,還是從動態上瞭解其成因。大數據的成因,還是人類信息技術的進步,而且是信息技術領域不同時期多個進步交互作用的結果,其中*重要的原因,當數摩爾定律。
改變世界的三股力量:大數據的成因
1965年,英特爾的創始人之一戈登?摩爾(GordonMoore)在考察瞭計算機硬件的發展規律之後,提齣瞭著名的摩爾定律。該定律認為,同一麵積芯片上可容納的晶體管數量,一到兩年將增加一倍。1
要理解這種增加的意義,並不簡單。摩爾的本意是,由於單位麵積芯片上晶體管的密度增加瞭,計算機硬件的處理速度、存儲能力,即其主要性能一到兩年將提升一倍。本來性能提升瞭,價格也應該上升纔對,但現實卻很詭異:半個多世紀以來,硬件的性能不斷提高,價格卻持續下降。之所以這樣,竟然還是因為晶體管越做越小,這種體積的縮小也導緻其成本下降,再加上人類對晶體管的需求越來越大,大規模的生産也導緻價格不斷下降。
迴顧這半個多世紀的曆史,硬件的發展基本符閤摩爾定律。以物理存儲器為例,其性能確實不斷上升,與此同時,價格不斷下降。1955年,IBM推齣瞭**款商用硬盤存儲器,一兆字節的存儲量需要6000多美元,此後,其價格不斷下降:1960年,一兆字節下降到3600美元;1993年,下降到大概1美元;2000年,再降至1美分左右;到2010年,每兆價格約為0.005美分。半個多世紀,存儲器的價格下降瞭1億多倍,這種變化的速度既巨大又劇烈,令人瞠目結舌。事實上,考察人類全部的曆史,沒有其他任何一種産品的價格下降空間能夠如此巨大!
圖7–41971~2011年中央處理器上的晶體管數量和摩爾定律
注:縱坐標為晶體管數量,橫坐標為年份。該麯綫錶明,在1971~2011年,大概每兩年相同麵積的中央處理器集成電路上的晶體管數量就增加1倍。需要注意的是,縱坐標從2300到10000再到
100000,其實不成比例,如果嚴格按比例作圖,這將是一條非常陡峭的麯綫,頁麵將無法容納。(資料來源:維基百科)
晶體管的産量多過全世界的大米顆粒
晶體管由矽構成,相當於一個開關,通電的時候錶示“1”,不通電時候錶示“0”,是電子産品*小的組織單元。一部手提電腦大概有400億個晶體管,一部智能手機約有10億個晶體管。晶體管行業(即半導體行業)堪稱人類曆史上*高産的行業。現在一年生産的晶體管比全球一年消耗的大米顆粒還要多:2002年,人類生産的晶體管數量大概是大米顆粒的40倍,買1粒米的錢可以購買100個晶體管2;2009年,晶體管的産量上升到大米顆粒的250倍,1粒大米的價錢可以購買10萬個晶體管3。
摩爾定律發展到今天,一根頭發尖大小的地方,就能放上萬個晶體管。當然,晶體管不可能無限縮小,所以十幾年來,業界曾圍繞以下問題展開激烈爭論:摩爾定律所揭示的現象還會不會持續,即單位麵積上的晶體管還能不能繼續增加甚至翻倍?如果能,又能持續多久?
作為摩爾定律的發現者,2003年,戈登?摩爾也被問到這個問題。他認為:“創新無止境,下一個10年摩爾定律可能還將有效。”
事實證明,摩爾是對的。2011年,英特爾公司宣布發明瞭22納米的3D(三維)晶體管,這使爭論暫時畫上瞭句號。此前的晶體管為31納米,22納米的晶體管小瞭大約1/3,因為小,新的晶體管比現在更便宜、更節能。2012年,英特爾又宣布將投資50億美元在美國亞利桑那州建廠,計劃2014年投産14納米的晶體管,這比21納米的尺寸又將縮小1/3。
英特爾的發明使大部分科學傢相信,摩爾定律的生命將延續到2020年。預計到2020年,1太硬盤的價格將下降到3美元,這相當於一杯咖啡的價格。前麵我們提到,美國的國會圖書館是全世界*大的圖書館,其印刷品館藏量約為15太;一所普通大學的圖書館,其館藏量可能也就一兩個太。也就是說,到2020年,隻需花上一杯咖啡的錢,就可以把一個圖書館的全部信息拷進一個小小的硬盤。信息保存的過程如此方便、成本如此低廉,曆史上從來沒有過。
圖7–51太容量的硬盤價格變化
注:1太容量的硬盤價格正在持續下降,已經從2012年11月的94.99美元下降到2014年3月的49.99美元。以上數據是作者在***網站上跟蹤的希捷硬盤在不同時段的報價。
摩爾定律已經成為描述一切呈指數級增長事物的代名詞,它給人類社會帶來的影響非常深遠。正是因為存儲器的價格在半個世紀之內經曆瞭****的下降,人類纔可能以非常低廉的成本保存海量的數據,這為大數據時代的到來鋪平瞭硬件道路。這相當於物質基礎,沒有它,大數據無異於水中月、鏡中花。
摩爾定律促使硬件成為大眾消費品
摩爾定律導緻的硬件價格大幅下降,*終使曾經昂貴的硬件成為大眾消費品,原來“高大上”的産品,如激光打印機、服務器、智能手機,已經逐漸從科研機構、大型企業進入普通傢庭。由於這些設備的普及,美國的一些公司甚至齣現瞭一種新趨勢:鼓勵員工自己帶設備來上班(BYOD),公司隻提供網絡和辦公場地,成為“輕”公司。
除瞭便宜、功能強大,摩爾定律也導緻各種計算設備變得越來越小。這個現象在1988年被美國科學傢馬剋?韋澤(MarkWeiser)概括為“普適計算”。普適計算理論認為,計算機發明以後,將經曆三個主要階段:一是主機型階段,指的是很多人共享一颱大型機,一颱機器就占據半個房間;二是個人電腦階段,計算機變小,人手一機,韋澤當時就處於這個時代,這似乎已經是很理想的狀態,但韋澤天纔般地預見到,人手一機不是時代的終結;在第三個階段,計算機將變得很小,小得將從人們的視綫中消失,人們可以在日常環境中廣泛部署各種各樣微小的計算設備,在任何時間、地點都能獲取並處理數據,計算*終將和環境融為一體,這個階段,被稱為普適計算階段。
今天,第三股浪潮正嚮我們奔湧而來,小小的智能手機,其功能已經毫不遜色於一颱計算機,各種傳感器正越做越小,RFID(射頻識彆)標簽方興未艾,可穿戴式設備又嚮我們走來。
RFID標簽已經在零售、醫療、動物飼養等領域得到瞭廣泛應用。近兩年,美國費城等城市在垃圾桶內安裝RFID傳感器,垃圾裝滿或者因為腐爛而散發異味時,傳感器就會發齣信號,這可以優化垃圾車的巡迴路綫,減少城市管理人員收集垃圾的次數。
可穿戴式設備是指可以穿戴在身上、不影響個人活動的微型電子設備,這些設備可以記錄佩戴者的物理位置、熱量消耗、體溫、心跳、睡眠模式、步伐多少以及健身目標等數據。2013年,德國霍芬海姆足球俱樂部(TSG1899Hoffenheim)已經把傳感器裝到瞭足球和每個球員的護膝或衣服上。這些傳感器可以實時記錄運動員的活動軌跡、奔跑速度、加速過程、控球時間,一場比賽打下來,係統可以收集6000萬條記錄,球員、教練都可以對這些數據做齣分析,並藉此提高訓練質量、製定*佳組閤、減少運動員受傷的概率。
除瞭足球,傳感器還進入瞭網球場。法國的運動器材製造商Babolat把傳感器安裝在瞭網球拍的手柄上,它可以記錄球員擊球時的狀態,例如正反拍、擊球點、擊球的力量、球速、球的鏇轉方嚮等參數。這些數據以幾乎實時的速度傳到現場的智能手機和平闆電腦上,運動員和教練可以隨時查看。2014年在澳網封後的中國網球一姐李娜,用的就是這個品牌的球拍。為瞭配閤這種球拍的使用,2013年,國際網球聯閤會(InternationalTennisFederation,ITF)已經修改瞭章程,從2014年1月起,允許運動員在國際比賽中使用帶有傳感器的球拍,以記錄、分析自己的數據。在未來的比賽中,如果運動員同意,這些數據甚至可以實時齣現在比賽場地的大屏幕上,供觀眾分析參考。
除瞭足球、網球,傳感器也在快速進入棒球、橄欖球等領域。美國的一些研究機構認為,美國運動産業的營收,近年內會有大幅增長,主要原因就是,基於傳感器的數據收集和分析技術將改寫整個領域的生態。
除瞭運動,可穿戴式設備還有很多。2014年2月,日本東京大學的研究人員發明瞭一種比羽毛還輕的傳感器,把它放置在紙尿片內,紙尿片一濕就會發齣信號,看護就會知道並及時更換。這種傳感器的成本隻有幾美分,不僅適用於嬰兒,還適用於老人、病人。此外,作為可穿戴式設備*經典的産品,風靡一時的榖歌眼鏡也在娛樂之外得到瞭更廣泛的應用:美國紐約市的警察準備在日常巡邏中佩戴榖歌眼鏡,以快速記錄事故現場的情形,並通過網絡和同事共享數據。
普適計算的根本,是在人類生活的物理環境中廣泛部署微小的計算設備,實現無處不在的數據自動采集,這意味著人類數據收集能力的增強。在此之前,電子化的數據主要由各種信息係統産生,這些信息係統記錄的主要是商業過程的數據,而傳感器的齣現及其技術的成熟,使人類開始有能力大規模記錄物理世界的狀態,這種進步推動瞭大數據時代的到來。
但人類數據的真正爆炸發生在社交媒體時代。
從2004年起,以臉譜網(Facebook)、推特(Twitter)為代錶的社交媒體相繼問世,這拉開瞭一個互聯網的嶄新時代—Web2.0。在此之前,互聯網的主要作用是信息的傳播和分享,其*主要的組織形式是建立網站,但網站是靜態的;進入Web2.0時代之後,互聯網開始成為人們實時互動、交流協同的載體。2011年8月23日,美國弗吉尼亞州發生5.9級地震,紐約市居民首先在推特上看到這個消息,幾秒鍾之後,纔感覺到地震波從震中傳過來的震感,社交媒體把人類信息傳播的速度,帶到瞭比地震波還快的時代!
除瞭把交流和協同的功能推到瞭一個登峰造極的高度,社交媒體的另外一層重要意義就是,給全世界無數的網民提供瞭一個平颱,使其隨時隨地都可以記錄自己的行為、想法,這種記錄其實就是貢獻數據。我們談到過,所有的數據都是人為産生的,所有的數據都是對世界的測量和記錄。從1946年人類發明**颱計算機並進入信息時代算起,到社交媒體産生之前,主要是信息係統、傳感器在産生和收集數據,但由於社交媒體的橫空齣世,人類自己也開始在互聯網上生産數據,例如發推特、微博和微信,記錄各自的活動和行為,這部分數據也因此被稱為“行為數據”。
圖7–6各種數據類型和大小
注:數據是對人類生活和客觀世界的測量和記錄。過去,是我們選擇什麼東西需要記錄,纔對它進行記錄;在大數據時代,是選擇什麼東西不需要記錄,纔取消對它的記錄。隨著記錄範圍的不斷擴大,可以肯定,人類的數據總量還將呈滾雪球式擴大。
由於社交媒體的齣現,全世界的網民都開始成為數據的生産者,每個網民都猶如一個信息係統、一個傳感器,不斷地製造數據,這引發瞭人類曆史上迄今為止*龐大的數據爆炸。除瞭數據總量驟然增加,社交媒體還使人類的數據世界更為復雜:在大傢發的微博中,你的帶圖片、他的帶視頻,大小、結構完全不一樣。因為沒有嚴整的結構,在社交媒體上産生的數據,也被稱為非結構化數據。這部分數據的處理,遠比結構嚴整的數據睏難。2012年,喬治敦大學的教授李塔魯(KalevLeetaru)考察瞭推特上産生的數據量,他做齣估算說,過去50年,《紐約時報》總共産生瞭30億個單詞的信息量,現在僅僅一天,推特上就産生瞭80億個單詞的信息量。也就是說,如今一天産生的數據總量相當於《紐約時報》100多年産生的數據總量。
在這種前所未有的數據生産速度下,社交媒體的齣現雖然還不到10年,目前全世界的數據大約75%都是非結構化數據。今天迴頭看,社交媒體的齣現,纔是讓大數據一錘定音的力量。基於以上分析,我們也可以這樣認為:
大數據=結構化數據+非結構化數據
但我們前麵談到,大數據之大,不僅在於其大容量,更在於其大價值。價值在於使用,如同埋在地底下的石油,遠古即已有之,人類進入石油時代,是因為掌握瞭開采、冶煉石油的技術,現在進入大數據時代,*根本的原因,也是人類使用數據的能力取得瞭重大突破和進展。
這種突破集中錶現在數據挖掘上,數據挖掘是指通過特定的算法對大量的數據進行自動分析,從而揭示數據當中隱藏的規律和趨勢,即在大量的數據當中發現新知識,為決策者提供參考。數據挖掘進步的根本原因是人類能夠不斷設計齣更強大的模式識彆算法4,這其實是軟件的進步,其中*重要的裏程碑,是1989年美國計算機協會(ACM)下屬的數據挖掘及知識發現專委會(SIGKDD)舉辦瞭**屆數據挖掘學術年會,齣版瞭專門期刊,此後數據挖掘得到瞭如火如荼的
發展。
正是通過數據挖掘,近幾十年來,各大商傢譜寫瞭不少點“數”成金的傳奇故事,例如沃爾瑪通過捆綁“啤酒和尿布”提高銷量。又如,奈飛公司利用客戶的網上點擊記錄,預測其喜歡觀看的內容,實現精準營銷。再如,阿裏巴巴等互聯網公司憑藉長期以來積纍的用戶資金流水記錄,涉足金融領域,在幾分鍾之內就能判斷用戶的信用資質,決定是否為其發放貸款……
近年來,數據挖掘在企業的應用還在不斷推陳齣新,有望到達一個新高度。例如,2014年1月,美國的電子零售巨頭***宣布瞭一項新的專利:“預判發貨”(AnticipatoryShipping),即在網購時,顧客還沒有下單,***就將包裹寄齣。這種顧客未動、包裹先行的做法聽起來有些不可思議,中國的新聞媒體甚至驚呼:“***這是要逆天嗎?”5
在商言商,***當然不會做賠本生意,預判發貨的核心技術還是數據挖掘。其本質是,通過預測,把發貨這個過程“外包”給算法,讓算法自動發貨,實現智能化!***解釋說,發貨的根據是顧客以前的消費記錄、搜索記錄以及顧客的心願單,甚至包括用戶的鼠標在某個商品頁麵上停留的時間。根據這些數據,**如果判斷某位顧客對一件新商品有購買意願,就會直接將商品寄給他,或者將該商品發送到離他*近的倉庫,顧客一旦下單,那收貨時間就將以“小時”計,而不是以“天”計。***認為,正是從下單到收貨之間的物流延遲,導緻人們購買意願降低,如果能夠縮短物流時間,將極大地改善客戶體驗。
***還提到,並不是所有的商品都會采用預判發貨的形式,這種形式比較適閤在上市之初就容易吸引大量買傢的商品,例如暢銷書。為瞭降低預判發貨的風險,***還有一些配套技巧,例如模糊填寫用戶的收貨地址,隻將商品配送到離他*近的倉庫,如果在配送過程中收到訂單,再將地址信息補充完整,在這個等待的過程中,***還會嚮這位潛在顧客推送信息,以提升這筆交易成功的可能性。
但這些都不是其算法的關鍵,預判發貨這種模式之所以有商業價值,是因為***會鎖定其適用的群體,例如年收入較高的傢庭,他們對某些消費有固定的預算;又如某一領域的狂熱粉絲,他們願意為*新的時尚一擲韆金。這批高端用戶更注重購物體驗,如果把發貨流程外包給算法,顧客就不用操心自己想買什麼,這相當於節省瞭他的時間;流行物品在**時間就送上門,這是急顧客之所急。可以想象,當這些傢庭拆開郵包時,更多的可能是欣喜,這種欣喜將強化顧客的忠誠度。當然,假如顧客真的堅持退貨,***還有解決辦法:一是打摺銷售,二是作為禮物免費贈送,這也有利於***在高端客戶中提升口碑。
***有1億客戶,這些人的消費記錄日積月纍,可以說是海量數據,但數據雖然多,卻沒有人會直接將自己的收入高低和興趣愛好告訴***,所有的預判,***都必須靠數據挖掘來完成。
2013年5月,加拿大濛特利爾交通局(SociétédeTransportdeMontréal,STM)宣布,將利用SAP(思愛普)公司的大數據處理平颱,對所有顧客的消費曆史和個人信息進行分析,然後按照其偏好、習慣和需要,為每位顧客定製專門的消費計劃和個性化票價。濛特利爾交通局共有120萬名顧客,這意味著這120萬人都將得到不同的票價,其目的是優化公共交通的運營,提高顧客的忠誠度。
濛特利爾交通局之所以能夠這麼做,還是因為其掌握瞭大量顧客的數據。在信息時代之前,受限於記錄手段,商傢對於自己産品及服務的銷售和流嚮,隻有一個粗略的記錄,但現在的信息技術已經可以把一件産品的流嚮、每位消費者的情況都記錄下來,再通過數據挖掘,為客戶量身定製,把消費和服務推嚮一個高度個性化的時代。
數據挖掘技術的不斷成熟也在挑戰現有的統計體係。在第五章我們談到,20世紀30年代,由於抽樣技術的齣現,統計科學發生瞭一場革命,即社會調查可以通過選取有代錶性的樣本來完成,而不必像人口普查一樣,把全社會的人都問一遍。但前文也談到,即使是抽樣技術,也有其缺陷。1948年,杜魯門和杜威競選,蓋洛普通過抽樣調查預測杜威將當選,但結果讓所有人都大跌眼鏡。其失敗的原因在於,抽樣調查需要經過問捲設計、信息收集、數據分析等多個步驟,這導緻它掌握的數據滯後於真實的情況,在*後兩周裏,蓋洛普不得不停止調查,而杜魯門恰恰在*後的關頭扭轉瞭乾坤。在大數據時代,對誰將當選總統的預測已經齣現瞭新方法:在投票前後,對社交媒體上的數據進行觀點的挖掘,可以較為準確地預測齣誰能當選。*近兩次美國總統的選舉,都有人通過挖掘推特、臉譜網上的數據,準確預測到奧巴馬的當選。
這種基於網絡數據的挖掘,不需要製定問捲,也不需要逐一調查,成本低廉。更重要的是,這種分析是實時的,沒有滯後性,所以有越來越多的科學傢相信,因為大數據的齣現,統計科學將再次發生革命,進入統計2.0時代。在這個新的時代,數據挖掘將成為越來越重要的分析預測工具,抽樣技術將下降為輔助工具。
錶7–1數據挖掘和統計抽樣的區彆
數據樣本
數據來源
數據時效
數據成本
數據挖掘
用的是已經存在的大數據,樣本偏差可能很大,但如果數據量足夠大,偏差又可能縮小
多個源頭
實時
基本免費
統計抽樣
根據設計好的問捲,收集自己需要的數據,如果設計科學,那樣本會比較均勻、偏差小
比較單一
滯後
比較昂貴
注:數據挖掘的優越性,也集中反映瞭大數據“量大、多源、實時”等三個特點。
雖然數據挖掘正如日中天,但在一定程度上,數據挖掘已經不是大數據的前沿和熱點,取而代之的是機器學習。當下興起的機器學習憑藉的也是計算機算法,但和數據挖掘相比,其算法並不是固定的,而是帶有自調適參數的,也就是說,它能夠隨著計算、挖掘次數的增多,不斷自動調整自己算法的參數,使挖掘和預測的結果更為準確,即通過給機器“喂取”大量的數據,讓機器可以像人一樣通過學習逐步自我改善、提高,這也是該技術被命名為“機器學習”的原因。
除瞭數據挖掘和機器學習,數據的分析、使用技術已經非常成熟,並且形成瞭一個譜係,例如數據倉庫、多維聯機分析外理(MultidimensionOLAP)、數據可視化、內存分析(In-memoryAnalytics)都是其體係的重要組成部分,在人類數據技術的進步過程中,都扮演過重要的角色。6
迴顧半個多世紀人類信息社會的曆史,正是因為1966年提齣的摩爾定律,晶體管越做越小、成本越來越低,纔形成瞭大數據現象的物理基礎,這相當於鑄器,人類有能力製造巨鼎盛載海量的數據;1989年興起的數據挖掘,則相當於把原油煉成石油的技術,是讓大數據産生“大價值”的關鍵,因為如果沒有技術,石油再多,我們也隻能“望油興嘆”;2004年齣現的社交媒體,則把全世界每個人都變成瞭潛在的數據生成器,嚮摩爾定律鑄成的巨鼎當中貢獻數據,這是“大容量”形成的主要原因。
圖7–7大數據的三大成因
分析瞭大數據的靜態概念和動態成因,我們更清楚地理解瞭大數據的特點,現在可以從以下角度來理解、定義大數據:
圖7–8大數據的概念和維度
注:正如前文討論的,當前人類的數據約75%都是非結構化數據,大記錄的錶現形式主要就是非結構化數據,而大記錄、非結構化數據要體現齣價值,當前主要的處理方法,還是把它們轉化為有嚴整結構的數據,即傳統的小數據,因此我認為,大數據的價值維度主要體現在傳統的小數據和結構化數據之上,而大數據的容量維度主要體現在現代的大記錄和非結構化數據兩個方麵。
大數據産生之後,全世界的科學傢都在預測和展望。這股由信息技術掀起的新浪潮將對人類社會産生何種影響,將帶領我們的世界走嚮何方?我認為,有更多的數據,就必定會有更多的使用,而使用數據*根本的方法就是計算,大數據時代就是大計算的時代,無處不在的計算標誌著一個計算型社會的興起。
有數據,還要有計算:計算型社會的興起
前文談到,進入信息時代之後,“數據”這個概念的內涵擴大瞭,它不僅僅指代傳統的數字,還包括文字、圖片甚至音頻、視頻等。
由於數據的內涵擴大,可以想象,計算的內涵也應該發生相應的變化。計算是以數據為基礎的,其本質是對輸入的數據,經過一定規則的處理後,例如加、減、乘、除,輸齣一個新數據,從這個意義上說,計算就是對數據進行有規則的轉換。
傳統的計算自然以傳統的“數字”為基礎,例如:8×8=64,而在大數據時代,文本是數據,視頻是數據,這些數據是否也能計算?例如,輸入一段文本,經過一定規則的處理,得齣另外一段文本或者一張圖片,甚至一個視頻,那是不是也應該算作“計算”?
這個新型的數據轉換過程,其實就是我們熟悉的搜索和數據挖掘。
按照我們對計算的定義:計算是按照一定的規則對數據進行轉換的過程,而文本、圖片、音頻和視頻都是大數據時代的數據,那以上的過程就應該是計算。換句話說,在大數據時代,計算的內涵也擴大瞭,搜索就是計算,數據挖掘也是計算!它們依照的規則,並不是簡單的加、減、乘、除,而是特定的、更為復雜的算法。
我們的世界主要由物理環境、人和社會構成,如果按此劃分,人類的計算也可以分為兩大類:物理環境的計算、人和社會的計算。社會領域的計算主要是研究個人和群體的行為,包括過去和現在的行為,也包括有組織的群體行為和無組織的群體行為,傳統學科如經濟學、政治學、社會學、曆史學等都屬於這個範疇;物理環境領域的計算主要研究人類生活環境的狀態,傳統學科如物理、化學、天文學、地理學、動物學、植物學等都屬於這個範疇。
在大數據時代,人和社會、物理環境這兩大領域的計算都將蓬勃興起。物理環境領域的計算由來已久,大數據時代*大的亮點就是人和社會的計算,越來越多的社會問題都將通過計算得到解決。換句話說,由於大數據的齣現,社會正逐漸變得可以計算!
可以計算的原因是,個人在真實世界的活動和社會狀態被前所未有地記錄,這種記錄的粒度很高,頻度也在不斷增加,為社會領域的計算提供瞭極為豐富的數據。
2011年10月,美國佛羅裏達州勞德代爾堡市(FortLauderdale)發生瞭一起惡性交通事故,事故原因是一名退休警察超速行駛。佛羅裏達州《太陽哨兵報》的記者剋斯汀(SallyKestin)在查閱曆年的數據後發現:從2004年起,整個佛羅裏達州發生過320起警察超速導緻的交通事故,並且導緻19人喪生,而*後的結果,隻有一名警察入獄服刑。剋斯汀意識到,這可能是一個非常值得關注的社會問題,她甚至懷疑這個數據隻是冰山一角,類似的警察很多,開快車可能是其經常性的行為。
但懷疑隻能是懷疑,剋斯汀知道,要證明它,無異於要證明警察這個群體知法犯法、淩駕於法律之上,這是個很大的挑戰,*大的睏難就在於取證。
為瞭取證,剋斯汀嘗試過跟蹤警車,獲取其超速的**手記錄。她抱著測速雷達,一連幾天守在高速公路邊,一看見有超速的黑點,就驅車直追,但她很快發現,這無異於守株待兔,難度太大:一是路上車輛太多,難以確定目標,追來追去,常常發現不是警車,一到晚上,目標更是難以辨認;二是就算運氣好、碰上的恰好就是警車,剋斯汀也無權截停,僅僅通過照片或錄像,證據還是不夠充分,事後也無法服人。
剋斯汀*後想齣的辦法,是根據美國內開放1.0時代製定的《信息自由法》,嚮當地的交通管理部門申請數據開放,因為警車是公務用車,公民有權瞭解其使用狀態,她因此獲得瞭110萬條當地警車通過不同高速路口收費站的原始記錄。在專業數據分析人員的幫助下,剋斯汀用瞭3個月的時間對這些記錄進行瞭整閤和分析。
剋斯汀的分析方法是:她選取兩個特定的收費站並測算兩點之間的距離,再在110萬條記錄中找到每一輛警車通過這兩個不同收費站的時間點,兩點之間的距離除以其時間差,即為該警車在這段路程中的平均行駛速度。
剋斯汀的分析得到瞭令人震驚的結果。她發現,在13個月期間,當地的
3900輛警車一共發生瞭5100宗超速事件,也就是說,警車超速的行為幾乎每天都在發生;96%的超速在144公裏/小時至176公裏/小時之間,當地1/5的警車都有時速超過144公裏的“劣跡”,而且,時間記錄錶明,絕大部分超速行為發生在上下班時間和上下班的途中。這意味著,他們開快車並不是為瞭執行公務。
剋斯汀的懷疑終於得到瞭證實,2012年2月,她利用這些數據分析的結果,在《太陽哨兵報》上發錶瞭一係列報道,頭篇報道的標題為“他們淩駕法律之上?”7。在大量數據和調查訪談的基礎上,剋斯汀得齣結論說,因為工作需要和警察身份的特權意識,開快車成瞭警察群體的普遍習慣,即使下班之後身著便服,其駕駛速度也沒能降下來,而路上值勤的警察也警警相護,互相理解並縱容這種行為。
鐵數如山。可以想象,剋斯汀的報道一見報,輿論一片嘩然。接下來一個月,《太陽哨兵報》的電話響個不停。全國各地的讀者紛紛打來電話,有的錶示感謝,有的要來取經。當地警務部門則發生瞭一場“大地震”,5100宗超速案件涉及12個部門近800名警察,一些被“坐實”的警察陸續受到處理:48名州高速公路巡警被處以警告處分或者被勒令紀律反省;44名地方刑警被剝奪開車上下班的權利並迴爐參加安全駕駛培訓;邁阿密市的38名警察被處理,其中1名開除、10名停發工資;各地還有33名基層警察也受到警告、剝奪駕駛權利等不同程度的處罰。
故事到這裏,還沒有完。警務部門的整頓是否有效呢?2012年12月,剋斯汀又嚮交通管理部門申請開放瞭*新的原始數據。她對新的數據又做瞭分析,並和2011年的同期數據進行瞭對比。數據錶明,從2012年2月到10月,警察超速的個案已經從2011年同期的3179宗下降為495宗,下降幅度高達84%。剋斯汀又在《太陽哨兵報》上發錶瞭一篇新報道—《警察猛踩刹車!》8。在這篇報道中,她甚至把數據分解到瞭各個警務部門,詳細地列齣瞭每一個部門的改進水平。
圖7–9哪些部門的警察還在開快車?(2012年2月至10月與2011年的同期對比)
《太陽哨兵報》隻是美國一個縣的地方報紙,總發行量不足23萬份,但因為剋斯汀的報道,該報名聲大振,並於2013年4月獲得瞭2013年度的普利策新聞奬,其獲奬理由是:“剋斯汀的報道以無可辯駁的技術調查,記錄瞭警察在非公務期間開快車、危及市民生命的事實,這種緻命的威脅在報道引發的討論和整頓中得到消減。”
可以想象,如果不是通過使用數據,如果沒有上百萬條充沛的數據記錄以及成熟的數據分析手段,類似於“警察群體普遍開快車”的社會問題,人類可能永遠都無法在法庭上得到證實,這種知法犯法的特權行為,也永遠得不到有效的治理和糾正。
通過計算來解決社會問題,正變得越來越普遍。2013年,美國肯塔基大學利用大數據平颱,對學生的各種行為數據進行整閤,例如各門課程的成績、齣勤率、在綫學習平颱的活躍度、使用圖書館等各種設施的記錄,再通過數據挖掘,快速確認可能存在問題的學生,對他們開展專門的輔導,以減少學生流失。其實,國內也有類似的應用。2013年7月,有報道稱,華東師範大學的一位女生收到校方的短信:“同學你好,發現你上個月餐飲消費較少,不知是否有經濟睏難?”9這條溫暖的短信也要歸功於數據挖掘:校方通過挖掘校園飯卡的消費數據,發現其每頓的餐費都偏低,於是發齣瞭關心的詢問,但隨後發現這是一個美麗的錯誤——該女生其實是在減肥。可以想象,誤會之所以發生,還是因為數據不夠大,大數據的特點除瞭“量大”,還有“多源”,如果除瞭飯卡,還有其他來源的數據作為輔助,判斷就可能更加準確。
社會領域的計算,也被很多學者稱為“社會計算”(socialcomputing),這個概念的提齣已經有20多年的曆史。20世紀90年代,美國的學者*早提齣這個概念之時,是從“社會軟件”(socialsoftware)這個角度齣發的,*早的社會軟件是指支持群體交流的軟件,如MSN(微軟網絡服務)、QQ(騰訊公司的一款即時通信軟件)等。社會軟件也是相對於“商業軟件”的一個概念,兩種軟件的目的不同:傳統的信息係統降低的是商業交易的費用,但社會軟件降低的主要是人際交往的成本,使大規模的閤作成為可能。
2004年,社交媒體産生之後,社會軟件的功能被發揮得淋灕盡緻,個人的行為和思想通過臉譜網、推特、微博等工具被廣泛記錄,有學者進一步明確主張,將基於社交媒體的行為分析稱作“社會計算”。近年來,隨著大數據的崛起,越來越多的學者認為,關於人和社會本身的數據現在已經極為豐富,而且這類數據還在快速增長,未來一切的社會現象、社會過程和社會問題,都可以而且應該通過以計算為特點的定量方法分析解決,這樣更加精確、更加科學。
雖然關於“社會計算”的定義正在演進當中,國際共識也還未形成,但這並不妨礙相關研究的開展。近年來,美國的國傢人文研究基金會(NationalEndowmentfortheHumanities,NEH)甚至還大力鼓勵利用基於曆史的大數據來研究、解決社會問題。2012年,美國的喬治梅森大學聯閤英國的兩所大學,將英國倫敦市240年的罪犯庭審記錄輸入電腦,然後對這些數據加以分析和挖掘,以研究各種案件的發展趨勢、觸發原因以及和社會背景的關係。另外一個研究更有意思,1918年,美國曾經發生一起大流感,死亡上百萬人,曆史學傢認為,大部分死亡其實都可以避免,但問題究竟齣在哪裏呢?美國弗吉尼亞技術大學的一個課題組著手收集瞭當年各個地區的死亡人數,並將這個時期全國各地所有的新聞報道都電子化,他們試圖研究信息傳播的時序、路綫和死亡人數的關係,例如,什麼樣的報道方式、新聞措詞*有效,什麼樣的傳播渠道*有可能減少死亡人數。
又如,文藝復興期間,歐洲的思想界群星璀璨,齣現瞭一大批思想先驅,但曆史研究的一個睏難在於,某一特定新思想的首倡者往往難以確定。隨著新證據的齣現,早年曆史學傢認定的事實,常常被發現是張冠李戴。美國大學的一個課題組提供瞭一個新的方法和思路:他們把文藝復興時期幾韆封名人之間的通信電子化,然後進行文本挖掘和分析,追蹤確定一個新思想、新概念的首倡者,同時研究這些新思想和新概念又是怎樣在人們的交流和互動中發展成形的。
就此而言,通過社會計算,一些精細的、微妙的、在人類曆史上曾經難以捕捉的關係和知識,現在都可以捕捉到,並被上升為顯性知識。對此,麻省理工學院的教授布林約爾鬆(ErikBrynjolfsson)比喻說,大數據的影響,就像4個世紀之前人類發明的顯微鏡一樣:顯微鏡把人類對物理環境的觀察和測量水平推進到瞭“細胞”的級彆,為人類社會帶來瞭曆史性的進步和革命,而大數據,將成為我們下一個觀察人類自身行為以及社會行為的“顯微鏡”。
當然,社會領域的計算、對類似知識和關係的捕捉,不僅能夠有效推動社會治理,還能産生商業價值。
2012年6月歐洲杯足球賽期間,中國國內齣現瞭多篇《男人一看球,女人就網購》的相關報道10。報道稱,根據淘寶網的銷售數據,歐洲杯開賽以來,女性網購的成交量明顯上升,而且“網購的高峰期延時兩個小時,變成瞭23點到24點”,此外,在“淩晨1點45分**場球結束到淩晨2點45分第二場球開始前”,齣現瞭一個新的網購高峰,這個新的高峰和賽前的同時段相比,成交量“增長超過260%”。
這個現象背後的邏輯不難理解。球賽期間,男性沉迷於球賽,冷落瞭妻子(女朋友)和孩子,女性,特彆是已婚女性會覺得沮喪、惱火、失落。每天晚上球賽開始的時候,在個體層麵,每位女性都有很多選擇,她可以做傢務、輔導孩子、跟閨蜜聊天、和母親通電話以及逛街購物,也就是說,其行為具有不確定性,她究竟會做什麼,難以預測。但是,當我們把幾個電子商務平颱的交易數據一匯總、一分析,就會發現,群體的行為有規可循。隨著球賽的開始,女性在網上購物的成交量就開始增加,其中的高檔物品也較平時明顯增多,也就是說,平時捨不得買的東西,這時候終於齣手瞭。在小數據時代,“男人一看球,女人就網購”永遠是一個猜測,無法得到證實,但在大數據時代,很容易就能證實,甚至連成交的商品有什麼特點,都可以進行分析。等到明年球賽再開始的時候,商傢的廣告就可以更有的放矢,不僅可以把廣告對象瞄得更準,推廣的商品也會更有針對性,猜測上升為知識,知識將創造利潤。
關於個人行為和社會狀態的數據已經無處不在,這些數據是多源的、即時的、分散的、多形式的、碎片化的,同時又是海量的。高明的商傢通過大數據的整閤和挖掘,可以從這些海量的、零散的數據中找到規律,發現大眾行為背後的心理機製。這些心理機製,在個人層麵,可能是隱性的需要、無意識的訴求或者無法言說的欲望,但通過整理大量的數據,商傢就可以理清大眾生活中這些無意識的原型,掌握消費者背後真正的心理動機,從而提供創造性、突破性的産品和服務,獲得更多的消費者和更大的市場份額。事實上,這也正是大數據用於精準營銷的*高境界。為什麼當年沃爾瑪啤酒和尿布的故事能讓全世界津津樂道幾十年?原因就在於,即使是在購買尿布時喜歡順便購買啤酒來犒勞自己的年輕父親,可能也不清楚這個行為背後的心理動機,但沃爾瑪通過數據,捕捉到瞭這個無意識的原型,並通過數據分析的驗證,將其提升為知識。
普適計算:即將到來的超級數據爆炸
除瞭社會領域的計算正在興起,物理環境領域的計算也在麵臨一場革命,其中的原因,就是上文中提到的普適計算。傳感器、可穿戴式設備等微小的計算設備將進一步普及,裝備到全世界的各種物體之上,包括機器、電器、人體、動物、植物等需要監測的目標,真正形成“萬物皆聯網、無處不計算”的狀態。
隨著這場革命的到來,人類的數據總量還要爆炸,這場爆炸將達到****的規模。
其中,機器將是**梯隊。人類在進入機器大生産的時代之初,機器的效率在不斷提高,但到達一個臨界點之後,機器的效率就很難再優化瞭。當機器和機器相聯、形成一個係統的時候,其效率問題就顯得更為顯著,一颱機器的效率可能成為係統的瓶頸,一颱機器的故障可能導緻整個係統癱瘓,係統的復雜性使工程師常常顧此失彼,難以優化係統的效率。如果能通過傳感器監測機器的運行狀態,通過計算確認各類設備的良好程度,算準時間進行設備優化和維修更新,就能控製生産過程中的不確定性,減少意外情況帶來的損失。
全球*大的工業製造商通用電氣將這種運營效率的提高總結為“1%現象”。該公司經過估算指齣,如果全世界的飛機引擎維護效率提升1%,每年全世界就可以節省2.5億美元;能源行業的發電設備每提高1%的效率,就可為全球經濟貢獻40億美元;醫療器械的效率如果提升1%,則可以幫助全球醫療行業節約630億美元。也就是說,所有機器隻要提高1%的效率,就能為全世界帶來非常可觀的收入。
目前,全世界現在大概有300萬個重要的、巨大的、日夜運行的機器,這些機器都在一定的溫度、濕度、壓力、振動、鏇轉狀態下工作,這些參數都是重要的監測指標。此外,全世界還有上百億颱帶有微處理器的機器或者電器,未來都可以裝上傳感器,全球人口共有60多億,當社交媒體被發明的時候,每個網民都成瞭一個數據生成器,就已經引起瞭一次數據大爆炸,而機器遠比人多,而且日夜不停地鏇轉、工作,可以想象,這次即將到來的數據爆炸,遠非上次可比,將是超級大爆炸。
通用電氣公司為此發布瞭專門的研究報告、製訂瞭相應的規劃,並且計劃在旗下大至飛機、小至激光手術刀等數萬種産品上都安裝傳感器,通過網絡將設備運行狀態數據實時傳至平颱,並將該計劃稱為“工業互聯網”。2012年7月,通用電氣公司投資1.7億美元在紐約州斯剋內剋塔迪市(Schenectdy)開設瞭一傢電池工廠,1.6萬平方米的廠房內安裝瞭1萬個傳感器。這些傳感器分布在各條生産綫上,監控、記錄生産過程中的溫度、氣壓、濕度、生産配料、能源消耗等數據,工廠的管理人員則通過隨身攜帶的iPad(蘋果平闆電腦)獲取這些數據,以便在第一時間發現問題,對生産進行監督和調整。
通過傳感器監測生産過程,還隻是通用電氣工業互聯網計劃的一部分,通用電氣的目標是“讓每件産品産生記憶”:未來,産品在齣廠前就被植入瞭傳感器,記錄瞭它的生産過程,在産品抵達顧客、進入服務狀態之後,傳感器將每時每刻都記錄産品的運行情況,一旦齣現問題和故障,通用電氣可以快速地整閤生産記錄、銷售記錄、産品運行記錄這三種數據進行分析。
除瞭通用電氣高調突進的工業互聯網,還有生活物聯網,即生活電器入網。2014年1月,榖歌以32億美元的現金收購瞭智能傢居設備商Nest。業界紛紛認為,生活物聯網的腳步越來越臨近,我們即將邁進一個智能傢居的時代:你坐在辦公室裏,就可以調節傢裏電冰箱的溫度;你在下班的路上,就可以控製電飯煲的開關,並關上窗戶、打開空調。
但智能傢居的作用可能還遠遠不止自動化這麼簡單。例如,大部分美國傢庭都有自己的車庫,每個車庫都有一個電動捲簾門,電動門利用一個小感應器來監測電動門伸縮期間的震動情況。現在有人提齣來,北美大地上有幾百萬個這樣的車庫門,傳感器都是現成的,如果把它們全部連接到互聯網上,房主可以監控自傢的大門不說,美國大地上每平方米的麵積上震動一下,互聯網上都知道,這種網絡對地震監測是不是有輔助作用?這啓發人們思考,機器、電器入網可能在功能上還會有外部性,起到意想不到的作用,因為世界的萬事萬物都是普遍聯係、高度相關的。
物理環境領域的計算的崛起將給全世界帶來巨大的機遇。新一代的機器是能夠記錄自己行為以及與其他機器的交換數據的智能機器,在機器“齣生”的時候,傳感器就已經和機器一體化瞭。麵對機器産生的海量數據,各行各業都需要製定很多數據標準,使同一類彆的機器、同一品牌的機器産生的數據能夠自由整閤、對比和分析。我們還需要新的分析平颱和工具,同時,因為生産過程中機器工作過程中實時數據的獲得,我們需要製定新的生産流程和商業規範,以提高各種決策的效率,在這個過程中,全世界會需要一大批數字機械工程師、軟件工程師、數據科學傢和人機交互界麵專傢。
此外,因為這種超級大爆炸,全世界的數據中心將大量增加,這將拉動硬件産業的發展。通用電氣公司估計,數據中心的需求將每兩年翻一倍。2015年,對數據中心的投資將增長到1000億美元;到2020年,數據中心的數量會增長40倍;到2025年,這一數字將達到2000億美元。數據中心是耗電大戶,據統計,美國所有數據中心每年的耗電量是整個紐約城居民用電量的兩倍。建設清潔、高效、具有彈性的數據中心將是未來的一個重大挑戰。此外,數據中心的增加還將推動寬帶網、光縴網的建設,使各種數據中心能夠跨地區、跨産業相聯。
數據和計算:第三次工業革命的CPU
2012年以來,第三次工業革命、新工業革命、數字工業革命等各種工業革命論的提法頻頻在全球激起討論、見諸報端,雖然這些提法各異,但其中心思想是一緻的,即全球的製造業正在麵臨一場挑戰和變革,未來的工業製造將呈現數字化、智能化、定製化、互聯化以及綠色化等特點。而且,無論哪種提法,都離不開對3D打印機的關注和討論。學界的共識是,3D打印已經成為第三次工業革命當中*活躍的因素之一,它將終結人類大規模工業生産的曆史,引發商業組織和管理形態的重大變革。
前文我們談到物理環境領域的計算即將爆炸,討論瞭工業互聯網如何引導未來的工業製造進入一個智能化、互聯化的時代,而3D打印將實現的是生産製造過程的數字化和定製化。隨著下文討論的展開,我們將看到,3D打印對未來設計、生産、流通和消費等各個環節産生的影響,離不開數據的驅動和協同。也就是說,第三次工業革命離不開數據!
3D打印是一種加式製造
3D打印是一種以數字文件為基礎,運用粉末狀金屬或塑料等可黏閤材料,通過逐層打印的方式來構造物體的技術。傳統的製造方式是“減式製造”,即通過模具,利用機器外力對原始材料進行“壓、切、割、衝”等機械加工,將原材料轉化成産品,在這個過程中,原材料縮減瞭,因此叫作減式製造。而3D打印是通過逐層疊加、不斷增加材料的方式,一次性完成生産過程,所以被稱為“加式製造”。
首先,3D打印是以“數據包”為基礎的生産,隻要這個數據包在打印機上運行,並且具備打印的原材料,生産就可以完成。2013年5月,美國有人把製造槍支各種零部件的數據包上傳到瞭互聯網上,在美國政府做齣反應、發布禁令之前,該數據包被下載瞭數十萬次,民間就有人利用這些數據包打印齣瞭可以發射子彈的塑料手槍。半年後,美國的科技工程公司SolidConcepts公司又用3D打印機打印瞭一支真正的金屬手槍,並試射瞭幾十發子彈。除槍支這種高危管控物品外,近一兩年以來,在世界各國科學傢的努力下,可以打印的物品種類迅速增多,大到飛機的零部件、房子的建築材料,小到下顎骨、心髒瓣膜、電路闆等,不斷刷新人們的想象力。可以肯定,隨著數字化生産的擴大,未來任何可見的物理實體的背後都會有一個數據包與其對應存在。從這個意義上來看,3D打印為大數據時代貢獻瞭一種新的數據種類:物理實體數據。
圖7–10數字工業革命將豐富大數據時代的數據類型
除瞭可以打印的物品越來越多,更重要的改變是,由於摩爾定律的持續作用,3D打印機的價格也在不斷下降。目前,不少3D打印機隻需要一兩韆美元,可以預計,就像其他曾經“高大上”的硬件設備一樣,3D打印機也將快速走進普通傢庭。
3D打印機的普及對人類的意義非同小可。在全麵暢想其對未來社會帶來的衝擊和改變之前,我們還必須瞭解一個重要的概念:眾包。
“眾包”是美國的兩位記者在2005年發明的新詞,意思是利用互聯網將工作打包分配齣去,其關鍵在於,分包時並不知道接包人是誰,這正是“眾包”區彆於“外包”的地方。更有意思的是,接包人的目的可能並不是為瞭報酬,而是為瞭公益、興趣,或者尋求一種幫助他人的滿足感,甚至在一些情況下,連接包人自己也沒意識到,就在不知不覺中幫助發包人把任務完成瞭。
眾包*經典的例子是維基百科。這個人類社會*大的知識分享網站、*重要的“百科全書”成立於2001年,目前僅僅英文詞條就有近450萬個,全部由誌願者完成。2011年3月11日下午2點46分,日本發生瞭有觀測記錄以來規模*大的地震,其後引發瞭大海嘯,導緻瞭核泄漏和火災,日本東北部分地區因此遭受到毀滅性的破壞。地震發生後的半小時不到,3點18分,維基百科上就建立瞭相應的詞條“2011Tōhokuearthquakeandtsunami”(2011年日本東北地區近海地震),這之後,該英文詞條經過瞭全世界2122人共計6781次的修改和完善,如今已經形成瞭一個圖文並茂、帶有352條引用、兩萬多字、非常復雜和完善的詞條,在英文詞條的基礎上,還衍生齣近80種不同語言的翻譯和補充11。
圖7–11“2011年日本東北地區近海地震”英文詞條的變化
注:左上為該詞條在2011年3月11日日本時間下午3點18分建立時的曆史記錄,隻有短短一句話;右下為該詞條在2014年2月的截屏,詞條已經分為十幾個部分,有兩萬多字的介紹。(圖片來源:網絡截屏)
對於眾包當中蘊藏的巨大社會能量,我也有親身體會。2012年的一個下午,我決定為華人曆史學傢許倬雲先生在維基百科建立一個英文詞條。為瞭證明資料的真實性,維基百科規定新建的詞條必須至少有三個引用。詞條建好之後,係統提示我還缺一個引用,我於是迴頭去找資料。僅僅一分鍾之後,我一刷屏,發現第三個引用竟然已經被人加上瞭!我的心頭如過電般湧起一股驚訝和欣喜之情:在世界的另一個角落,竟有人在協同我的工作!短短幾十秒的時間,在這個廣袤的大韆世界,就有人看到瞭我在互聯網上搭建的這個新頁麵,而且,他和我一樣關心許先生的詞條,並且幫助我補充瞭*後需要的一個引用。
除瞭基於興趣和公益的誌願貢獻,眾包也已經成為一種可以創造價值和利潤的商業模式,驗證碼(CAPTCHA)的應用就是另外一個經典例子。2002年,卡內基梅隆大學的博士生路易斯(LuisvonAhn)發明瞭我們熟悉的驗證碼,即用一排人為扭麯、奇形怪狀的字符來判斷當下程序的使用者是“人”還是“機器”。因為機器無法自動識彆這些變形的字符,所以驗證碼可以用來防止互聯網上廣泛存在的惡意機器注冊。恰恰在這個時候,《紐約時報》正麵臨一個令人頭痛的任務:他們試圖把100多年的曆史報紙全部電子化,當時*可行的方法就是通過掃描進行光學字符識彆(OCR),但因為舊報紙上油墨的痕跡、摺疊的印記和發黃變色,加上幾十年前的字體與現在的也不一樣,因此識彆率很低。當然,還有一個*笨的方法就是逐字敲打,再找人校對,但這樣不僅速度慢,效果也不好。這時候,路易斯想到瞭一個天纔的辦法:全世界每一天都有幾億個驗證碼在被校驗,他把《紐約時報》的文章切成小片,把它當作驗證碼發給全世界的人,這些人在使用驗證碼的時候,在不知不覺中就幫助《紐約時報》完成瞭輸入和校對。對於難以識彆的字符,係統可以發給多個校驗者,當幾個人返迴的結果一緻的時候,就說明識彆的結果是正確的,然後再把這個結果返迴係統進行整閤。2007年,路易斯成立瞭驗證碼公司reCAPTCHA,該公司利用這個辦法把《紐約時報》幾十年的報紙都電子化瞭。2009年,該公司被榖歌收購。
類似的例子還有很多,例如Airbnb網站,通過它,個人可以將多餘的房間臨時齣租給旅遊者;又如將翻譯任務打包發給其他國傢的外語學習者作為練習素材,以較低的成本,甚至免費的形式就可以完成大量翻譯;再如中國的知乎、大眾點評網等問答型網站,都成功地應用瞭眾包這種商務模式。說到底,眾包是通過互聯網,在全球範圍內利用、整閤分散的、閑置的、廉價的勞動力、技能和興趣等資源,為軟件業和服務業提供一種新的勞動力組織方式。
隨著3D打印機的普及,眾包這種新的商業模式,將從服務業進入製造業,改變整個社會的生産製造方式。
今天的製造是以大規模的減式製造為基礎的,對每種産品而言,製造商隻能就若乾款式,對流水綫進行定製,然後進行大規模生産。例如,今年的女式高跟鞋可能流行立體的鞋麵花飾,製造商在市場調研的基礎上,認為牡丹花和山茶花的花形可能*受歡迎,於是就生産這兩種花形的鞋子,而玫瑰花、百閤花、菊花等其他花形,因為市場需求過小,生産商限於成本,就無法生産。
事實上,一雙鞋子的樣式可以韆變萬化。類似於立體花形的改變還有很多,例如鞋跟的形狀、鞋麵的花紋、紋理的綫形等。每個顧客都可能有不同的喜好和需求,這些需求之間可能就是一個微小的區彆,所以需求的種類雖多,但每一種需求的消費者群體都不大。也正因如此,製造商如果投産,將無利可圖。這部分需求被形象地稱為長尾需求,對於長尾需求,製造商無法一一滿足,即傳統製造業無法滿足所有消費者的要求。
圖7–12傳統的製造商無法滿足市場上的長尾需求
注:此圖為消費市場上的長尾現象,在短頭區,代錶著為數不多的大規模需求;在長尾區,有很多不同的需求,但每種需求的消費者群體都不多,如果投産,製造商將無法獲得利潤。
但以數據包為基礎的3D打印將有能力解決這個難題。數字化製造不需要在流水綫上定製,隻需要找到數據包,對其中的代碼和數據進行修改,一個花形、綫形的區彆,可能隻是幾個參數值的大小不同,在對它們做齣修改和調整之後,在3D打印機上再運行一次,一款新的鞋子就生産齣來瞭。
圖7–13個性化的需求可以通過修改數據包來實現
3D打印技術為滿足消費者個性化的長尾需求提供瞭契機,將開啓一個製造業的新時代。在這個新時代,因為3D打印機正在走進傢庭,生産活動可能在工廠之外的地方進行。更復雜的情況是,每款3D打印機的打印範圍可能不同,你的能打印鞋子、我的能打印杯子、他的能打印玩具……為瞭找到閤適的3D打印機,必須進行搜索。
不妨假設一位女性消費者心儀的高跟鞋是這個樣子:玫瑰花的立體花形;5.5厘米的高跟,後跟為圓形,圓形麵積為0.8平方厘米;鞋麵有細條紋,條紋間隔為1.5厘米……其要求可能無比細緻且韆奇百怪,傳統製造業絕對無法實現,但在3D打印時代,“想法即産品”,一個完整的設計、生産、消費流程在很短的時間內就能完成:首先上網搜索類似産品的數據包,或者搜索懂得修改這個數據包的設計師,再委托他按照新的要求進行修改,一個有經驗的設計師可能在幾分鍾之內就能夠完成修改;這之後,進入生産環節,消費者要尋找願意給她提供打印服務的3D打印機,這又需要搜索,當然,她*後可能就在自己居住的小區附近找到瞭閤適的打印機,雙方達成協議之後,就可以委托生産。
這個搜索的過程,就是計算。我們前麵談到過,搜索就是一種計算,而且是一種典型的基於大數據的計算。在這裏,通過搜索,社會需求和生産資料將實現動態的、實時的、*經濟的對接;搜索完成之後,委托、授權對方進行設計、生産的過程就是眾包。
當然,未來可能齣現一個互聯網平颱,擁有3D打印機的生産方也可以在這個平颱上通過搜索主動尋找其潛在客戶,提前感知並且響應用戶的個性化需求。這個平颱將不僅僅是現在的“電商”平颱,還將是“互聯網製造”的平颱!生産方和消費方在平颱上通過搜索對接,完成整個設計、生産和消費流程。也就是說,通過搜索和計算,全社會的生産需求和社會資源將在*短的時間內,以*經濟的方式實現對接,數據和計算,將是未來生産製造的CPU(中央處理器)!
2012年,中國科學院的研究員王飛躍先生率隊考察瞭美國的加式製造産業。他認為,這場新的産業革命已經觸手可及,未來的新型製造模式可以稱為“社會製
書摘與插畫










用户评价

评分

评分

评分

评分

评分

评分

评分

评分

评分

相关图书

本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 tushu.tinynews.org All Rights Reserved. 求知書站 版权所有