发表于2024-12-23
數據不說謊:大數據之下的世界 pdf epub mobi txt 電子書 下載 2024
專業數據分析團隊“城市數據團”全新力作,“團支書”結閤社會熱點,用大數據和數據挖掘分析數據背後的故事。趣味性強,語言幽默,知識豐富,教會讀者用大數據做齣正確的判斷。
這是一本讓你“腦洞大開”的圖書,讓你嘗試從大數據角度來解讀這個世界,你會發現,有些問題,和你的直覺完全不一樣。本書內容分為三部分:第一部分可概括為“腦洞大開”,以淘寶、旅遊、餐館取名等不同的角度切入,說明數據可以用於做許多有趣的事情。第二部分數據與工作,包括瞭做公務員、二三綫城市的衰落、創業等若乾熱門話題。第三部分數據與生活,包括用數據幫助理解生活現象、用數據挖掘生活中的趣味、以及用數字看房市三個專題。
城市數據團的媒體平颱包括微信公眾號“城市數據團”和知乎賬號“團支書”。2015年2月以來,我們持續發錶原創數據研究,希望能讓更多普通人熱愛數據,並用數據重新認識我們身邊的世界。截止2016年底,我們的文章在互聯網上纍計傳播數韆萬次,擁有20萬訂閱讀者。其中,《逃離你終將衰落的傢鄉》、《人口疏解,讓城市更擁堵》、《淘寶改變瞭哪些城市》、《上海的房子都被誰買走瞭》等均有百萬級彆閱讀量。
第1章
數據,另一種視角 / / 0011.1數據之下的中國 / / 003
1.1.12015年,中國人是怎麼花錢的 / / 003
1.1.2遊遍全國,我們的假期夠嗎 / / 017
1.1.3淘寶改變瞭哪些城市 / / 025
1.2數據之下的城市 / / 35
1.2.1人口疏解,讓城市更擁堵 / / 035
1.2.2在上海上班,地鐵和開車哪個快 / / 048
1.2.3上海餐館取名大法 / / 056
第2章
數據之於工作 / / 0672.1學習/就業指南 / / 069
2.1.1好好學習,是另一種童年 / / 069
2.1.2應該去哪裏買書呢 / / 077
2.1.3月薪多少纔配坐高鐵 / / 086
2.1.4哪些公務員最辛苦 / / 095
2.1.5奔赴大城市,還是迴傢鄉 / / 103數據不說謊: 大數據之下的世界目錄 2.2在創業的風口上 / / 112
2.2.1一個估值10億美元的養豬O2O項目 / / 112
2.2.2大鵬豬肉,為紅燒而生 / / 121
2.2.3如何在上海開一傢靠譜的餐館 / / 130
2.2.4快捷連鎖酒店選址的空間陷阱 / / 140
第3章
數據之於生活 / / 1533.1理性生活: 那些你所不知道的事 / / 155
3.1.1你的消費水平給上海拖後腿瞭嗎 / / 156
3.1.2如何麵對注定平庸的人生 / / 165
3.1.3下雨天外賣會變多嗎 / / 175
3.1.4“雙12”規避“假摺扣”指南 / / 183
3.1.5上海的水源安全嗎 / / 189
3.1.6“控製人口”——開給上海的一劑毒藥 / / 198
3.2感性生活: 八卦新玩法 / / 212
3.2.1高顔值的人都在哪兒 / / 212
3.2.2中國正在二次元化嗎 / / 221
3.2.3如何像白富美一樣生活 / / 232
3.2.4長三角城市那些不得不說的八卦 / / 242
3.2.5上海哪所高校的吃貨最幸福 / / 249
3.3生活之重: 生為房奴 / / 259
3.3.1上海的房子都被誰買走瞭 / / 259
3.3.2上海購房攻略 / / 268
3.3.3遙不可及的學區夢 / / 278
3.3.4房地産泡沫有多大 / / 287
附錄1:
我們是怎麼學會玩城市數據的? / / 297
附錄2:
城市數據團工作方法簡介 / / 305
第章
////第1章
數據,另一種視角你消費嗎?旅遊嗎?上班嗎?
你知道彆人是怎麼消費、怎麼旅遊、怎麼上班的嗎?
我們對於世界和城市的認知,往往來源於自己和身邊其他人的生活經驗。
所以,我們的認知往往是主觀化和碎片化的。
但是,當我們擁有瞭“數據”這個工具的時候,我們就獲得瞭重新認識世界的機會。
1.1數據之下的中國
本節內容主要涉及一個主題:如何腦洞大開地搜集和利用各種數據,以非常規的方式呈現齣中國經濟發展的三個截麵。
數據之下的中國,是一個讓你既熟悉又新鮮的中國。
1.1.12015年,中國人是怎麼花錢的
在一波接一波的寒潮侵襲之後,期盼已久的春節假期終於到瞭。同事同學們紛紛放假迴傢,連親愛的學姐也不在上海,隻留我一個人淒冷地坐在工作颱前,獨自迎接假期前最難熬的幾天。
一個人的時候,總是會想很多。
是的。迴首即將逝去的羊年,我感慨萬韆。雖然不齣意外地又(為什麼要加一個又字呢)窮睏潦倒地度過瞭漫長的一年,但幸運的是在這期間認識瞭不少天南海北的朋友。
因此,雖然還在孤獨地加班,但我仍然心係著祖國人民,安靜地準備完成春節前的最後一項數據工作:
數據不說謊:大數據之下的世界第1章數據,另一種視角0000年度全國消費數據總盤點。
好吧,問題來瞭——
Q1:2015年,全國人民到底花瞭多少錢?
2015年全球範圍內可使用銀聯卡商戶共3390萬傢,ATM共200萬颱,境外共發行銀聯卡5200萬張。
根據刷卡交易統計,2015年全年,全國人民的刷卡交易總金額達到53.9萬億元。
53.9萬億元,是個什麼概念呢?
我們可以想象一下:如果把這53.9萬億元全換成100元的人民幣鈔票,並將其一張一張緊挨著排列起來的話,這些錢大概可以繞地球赤道2100圈;從地球排到太陽的話,可以走一半多一點的路程。
假如這還想象不齣來的話,我們可以換個角度來看:
根據國傢統計局的數據,2015年,全國GDP總額約為67.7萬億元。也就是說,僅是刷卡消費,全國人民就刷掉瞭年度國內生産總值的79.6%。
親愛的,你2015年創造瞭多少GDP?又刷掉瞭多少份額呢?
算好瞭嗎?
好的話,我們不妨再來研究一下第二個問題,看看你的消費和全國總體水平相比如何呢?問題來瞭。
Q2:這53.9萬億元,都是怎麼花掉的呢?
首先,讓我們來看看這些錢是在什麼時間內被花掉的呢?
我們統計瞭境內日均刷卡的交易金額,並將其細分到每一個小時。2015年日均逐小時交易麯綫見圖1��1,銀聯卡交易類型占比見圖1��2。
圖1��1日均逐小時交易麯綫
圖1��22015年銀聯卡交易類型占比
假如我們把2015年全年濃縮到一天來看的話,可以發現:14:00~15:00和8:00~9:00是全國人民刷卡的高峰時段,分彆占全天交易總額的12%與8%。
親愛的,你的卡是不是在這個時段內被刷爆的呢?
看完瞭交易時間,我們再來看一下交易的類型。我們將年度刷卡交易總金額分配到交易類型上,如下所述。
(1)從全國尺度上來看,最多的刷卡交易金額發生在批發行業,份額第一,大概可以購買16個阿裏巴巴。
(2)份額第二的是金融行業,大概可以購買7個中國工商銀行。
(3)份額第三的是零售行業(俗稱買買買),大概可以購買5個沃爾瑪。
也許你會覺得,這種全國宏觀尺度上的消費特徵,和個人沒什麼關係。那麼,我們不妨從個人消費者的角度齣發,看一下與市民生活關係最大的消費門類吧。
一般而言,各種消費類型中,與市民生活關係最大的應該是衣食住行金融教育六個大類。結果如何呢?
(1)排名第一:金融。毫無懸念。
(2)排名第二:住房。其交易總額大約是金融類的三分之一。
(3)排名第三:旅遊。雖然交易總額排名第三,但也不過是住房類的零頭而已。
(4)排名第四:衣(衣物類零售)。其總額大約是旅遊的三分之一。
(5)排名第五:吃(餐飲)。交易總額與衣物類零售不相伯仲。
(6)排名最後:教育。其交易總額大約是餐飲的70%。沒錯,這個結果毫不意外、發人深省。
親愛的,你的消費結構和全國人民相比,究竟怎樣呢?
每個人的消費結構自然韆奇百怪。
且不說個人,即使從省市的角度上去區分,也可以看到消費結構上的巨大差異。我們來看看:
Q3:全國各省的消費結構有什麼樣的偏好呢?
我們仍然將數據聚焦在衣物、餐飲、住房、旅遊、金融和教育六個大類上。然後將各類消費金額占總消費金額的比例作為消費偏好的核心指標,分配到各省,可以得到以下結果。
(1)衣物類消費偏好前五名省市:雲南、浙江、甘肅、山西、湖北。
想必雲南四季如春,民族眾多,姑娘們想怎麼打扮就怎麼打扮吧。見圖1��3。
(2)餐飲類消費偏好前五名省市:海南、上海、西藏、寜夏、北京。
吃貨集聚在上海、北京,這點毫不意外。但沒想到海南、西藏、寜夏等邊遠地區的吃貨能量同樣驚人,見圖1��4。
圖1��3各省衣物類消費占比
圖1��4各省餐飲類消費占比(3)住房類消費偏好前五名省市:海南、四川、貴州、北京、安徽。
非常齣乎意料的,前三名竟然不是以高房價著稱的北上廣哦!看來雖然北上廣的絕對房價居高不下,但從真實的消費結構上,海南和四川的房價水平也不容小覷。相比北京排名第四,而上海甚至都沒有擠進前五,見圖1��5。
圖1��5各省住房類消費占比
(4)旅遊類消費偏好前五名省市:西藏、海南、青海、新疆、雲南。
從圖1��6可以看到,西部的旅遊消費偏好明顯高於東部。而排名前五的省市,也都是以旅遊勝地著稱的地區。
圖1��6各省旅遊類消費占比
(5)金融類消費偏好前五名省市:福建、重慶、廣東、湖南、上海。
從圖1��7可以看到,我國東南地區在金融類消費偏好中可謂一枝獨秀,福建省拔得頭籌。排名前五的省市中,上海市已經是最北方的地區瞭。
圖1��7各省金融類消費占比
(6)教育類消費偏好前五名省市:陝西、四川、北京、海南、湖南。
從圖1��8可以看到,陝西省、四川省在教育類消費上的偏好明顯高於全國其他地區。我在想,這些地方的孩子們是不是從幼兒園就開始上補習班瞭?
圖1��8各省教育類消費占比
說明一下:本書消費數據中沒有統計到中國颱灣地區的數據,所以地圖上颱灣地區的顔色與其他省市不同。
看完各省的比較,我們不妨再來聚焦北上廣深四個一綫城市的情況。
00哪個城市最土豪呢?
從卡均消費金額的平均數來看,
深圳市人民卡均消費金額達到11.7萬元,高居首位;廣州市以7.6萬元居第二位;而上海市以6.4萬元的微弱優勢戰勝北京市的6.3萬元,位居第三。
在感嘆深圳市人民真土豪的同時,你是不是發現自己又拖後腿瞭?沒關係,我們再來看看中位數,這次數字就變得和諧多瞭,見圖1��9。
圖1��92015年四大城市卡均消費金額(中位數)(單位:元)深圳市人民卡均消費的中位數金額達到20000元,仍然居首,北京市、上海市以15000元並列第二,而廣州市則以11000元收尾。
順便說一句題外話:從刷卡消費特徵上看,四個城市的市民最愛的餐飲品牌也截然不同。
(1)北京市民最愛海底撈,熱氣騰騰的火鍋既熱鬧又抵禦寒氣。
(2)上海市民則最愛王品,上海市民依然很小資,對牛排情有獨鍾。
(3)廣州市民最愛百勝(肯德基、必勝客的老東傢),原來除瞭當地特色美食,肯德基、必勝客等西式快餐同樣也受市民歡迎。
(4)深圳市民則最愛春滿園,經典粵式老牌餐廳還是深深地徵服瞭深圳人民的胃口,讓其他外來飲食遜色不少。
以上,我們盤點瞭全國刷卡總交易、各類型及各省市交易的特徵。接下來,我們聚焦進入一個更核心的問題:
Q4:2015年,都是哪些人在花錢呢?
我們以上海為參照吧。
我們選齣瞭常住城市在上海、一年中刷卡交易筆數在20筆以上的銀行卡50萬張,作為研究的樣本。並按照性彆、年齡將持卡人分為6組,統計其在零售方麵的消費特徵。
結論來瞭:
男性花錢多、老人花錢多。
首先,我們不區分消費類彆,計算齣各個分組的刷卡交易總金額,得到圖1��10。
圖1��102015年交易金額的年齡性彆分布
從交易總金額來看,各個分組之間的差異並不太明顯,但仍然可以看到:
(1)消費最多的是老年男性,其次是中年男性和青年男性;
(2)而在女性組中消費能力最強的中年女性,其消費份額也沒能超過男性組中份額最小的青年男性。
這不科學啊!難道女性的花錢能力還不如男性?
我們再計算齣每個組彆的人均(取中位數,下同)刷卡交易金額,見圖1��11。
圖1��11各組持卡人年均交易金額(單位:元)
沒錯,無論在哪個年齡組,男性的人均交易金額都比女性要高。
另外,可怕的是,隨著年齡的增長,男性會花得越來越多!
……
我們在用數據做什麼
在這本書的最開始,我們想要提齣這樣一個問題:
誰最瞭解你?
是自己?
是配偶/戀人?
是父母/子女?
是同學/同事/朋友?
毫無疑問,以上幾種人都存在於我們的生命中。
但是,跟“它”比起來,以上幾種人對我們的瞭解恐怕都不夠全麵和客觀。
沒錯,“它”就是手機,與我們形影不離的手機。
看看你手機上的那一大堆APP——
微博和朋友圈知道,你今天心情好不好。
支付寶知道,你買瞭什麼東西、花瞭多少錢。
微信和QQ知道,你都有哪些朋友,你跟哪些朋友的交流更密切。
豆瓣、知乎、每日頭條知道,你都喜歡瀏覽哪些帖子和新聞。
蝦米和酷狗知道,你喜歡聽什麼歌。
優酷和B站知道,你喜歡看什麼視頻。
餓瞭麼和美團知道,你喜歡什麼菜係和口味。
……就算你什麼APP也沒裝,隻要你有一部手機,“它”就知道你什麼時候工作,什麼時候休息,知道你去瞭哪裏,待瞭多久。
在手機麵前,我們簡直無所遁形。手機所知道的你,可能比你所知道的自己,更為真實。
而這些,都是我們自己告訴手機的。我們的每一次瀏覽、點贊、評論、下單、聊天,都以數據的形式被記錄、被沉澱,最終塑造齣瞭我們自己。
所以,請不要被“大數據”“開放數據”“數據挖掘”“深度學習”“神經網絡”“雲計算”“DMP”等奇奇怪怪的詞匯所嚇倒。我們每個人每天的生活起居、衣食住行,都在産生數據,並享受著數據給我們帶來的便利服務。
事實上,數據已經和我們的視覺、聽覺、觸覺一樣,成為瞭幫助我們去瞭解自己、瞭解他人、瞭解事物的重要方法。
與其他信息源相比,數據更有可能提供全麵和客觀的信息,從而幫助我們更快速和高效地瞭解問題、解決問題。
數據不說謊:大數據之下的世界前言我們在用數據做什麼例如,你母親催你去相親,並提供瞭100位相親者的資料。顯然,你不可能一個個把他們約齣來見麵,一個個去瞭解和評價他們——你甚至都不可能仔細讀完這100份資料。
我們通常的做法是,設立一些限製條件,對年齡、身高、學曆、收入等進行篩選,再逐份閱讀符閤條件的相親者的資料,直到將相親對象數量減少到個位數。如此,我們的相親效率就大大提高瞭。
然而,在享受數據給我們帶來的高效便利的同時,我們還必須意識到:數據分析隻能提供結果,不能提供結論;數據之所以能做許多事情,是因為使用數據的人做瞭很多的思考。
例如,2013年,AmazonStudios和Netflix,美國的兩傢傳媒公司,都對自己網站上客戶的視頻瀏覽行為進行瞭分析。接受分析的瀏覽行為包括客戶看瞭什麼視頻、什麼時候看的、在何處暫停、在何處跳過、在何處反復觀看、給視頻的評分等。
根據數據分析的結果,兩傢公司一緻認為觀眾會對政治主題感興趣,但在視頻的體裁、製作等方麵則有著完全不同的認知。而後,AmazonStudios推齣瞭由四位議員作為主角的情景喜劇,Netflix則推齣隻有一位議員作為主角的電視連續劇。前一部作品名為《阿爾法屋》(AlphaHouse),觀眾反應平平;後一部作品則是風靡一時、獲奬無數的《紙牌屋》(HouseofCards)。
所以,即使在一個“大數據”炙手可熱、喧囂塵上的時代,人仍然是主體,是人的智慧讓數據具有瞭價值。
我們,城市數據團的小夥伴們,就是這樣一群人:利用數據去瞭解城市的發展、挖掘城市生活中有趣的故事。對我們而言,數據是幫助我們認識城市的工具、幫助我們在城市裏更好地生活的工具,而通過數據發現的東西纔是價值和樂趣所在。我們樂意將這些發現拿齣來共享。
本書由城市數據團組織編寫,並寫作瞭本書的大部分章節。城市數據團的主要成員包括高路拓、湯舸、王詠笑、王宇鵬等。參與瞭本書部分章節寫作的其他數據團成員和閤作夥伴包括(按文章收錄順序):
陳宇佳(1.1.2)、郭斌亮(1.2.1)、陳至奕(1.2.3/2.1.1)、馮裏婧(2.1.2)、錢駿傑(3.1.2)、張慈(3.1.3)、曹新(3.1.5)、曹湛(3.2.4)、韓旭(3.2.5)、方嫻(3.3.1)、張健(3.3.2)、衣霄翔(3.3.3)、陳晨(3.3.4)。
除寫作團隊之外,感謝以下機構對本書內容提供瞭數據支持和技術支持(按文章收錄順序):
�r銀聯智惠信息服務(上海)有限公司(1.1.1/3.1.1/3.2.3)
�r滴滴大數據研究中心(1.2.2/3.2.2)
�r小猿搜題(2.1.1)
�rBDP個人版(2.1.2/3.1.4)
�rTalkingData(2.1.4/3.2.2/3.2.4)
�r阿裏研究院(2.2.1)
�r大眾點評研究院(2.2.2/3.1.2/3.1.3/3.2.5)
�r上海道融自然保護與可持續發展中心(3.1.5)
�r同策房産谘詢(3.3.1)
本書由城市數據團這個活躍在互聯網上的大數據團隊完成。如果您看完本書以後,能夠增加一些對這個數據時代的瞭解、願意去熱愛數據和使用數據,將是對我們莫大的鼓勵。
城市數據團
2017年3月
嗯,書剛剛到貨,還沒來得及看,應該很不錯的樣子,等看瞭,再寫一個讀後感。
評分送貨很快,包裝閤理,好評
評分很不錯,數據翔實,分析視角獨特
評分很好很快。贊瞭
評分很好,非常好
評分不錯
評分大數據之下的世界多麼豐富多彩,數據是不會說謊的。
評分泥馬很水的一本垃圾數字。
評分視角獨特。很喜歡!學到很多知識
數據不說謊:大數據之下的世界 pdf epub mobi txt 電子書 下載