当前位置:网站首页>《數據思維》

《數據思維》

2022-02-16 17:04:48 讀書筆記

數據思維 ,互聯網也已成熟,物聯網正在搭建。每個人都生產數據,卻只是少數人擁有玩轉它的能力。憑借數據,內行率先開啟了先知視角,而我們卻連北都摸不著!從廣告的精准投放,到預測並影響美國總統大選,數據為何如此神奇?本期作者光臨,王漢生教授攜《數據思維》,帶你入門!

數據思維

數據思維 價值

互聯網也已成熟,物聯網正在搭建。

每個人都生產數據,卻只是少數人擁有玩轉它的能力。

憑借數據,內行率先開啟了先知視角,而我們卻連北都摸不著!

從廣告的精准投放,到預測並影響美國總統大選,數據為何如此神奇?

本期作者光臨,王漢生教授攜《數據思維》,帶你入門!

數據思維 閱 讀 收 獲

互聯網也已成熟,物聯網正在搭建。

每個人都生產數據,卻只是少數人擁有玩轉它的能力。

憑借數據,內行率先開啟了先知視角,而我們卻連北都摸不著!

從廣告的精准投放,到預測並影響美國總統大選,數據為何如此神奇?

本期作者光臨,王漢生教授攜《數據思維》,帶你入門!

數據思維 作者簡介

數據思維

王漢生

北京大學光華管理學院商務統計與經濟計量系教授、博導、系主任,北京大學商務智能研究中心主任,微信公眾號“狗熊會”創始人。美國統計學會Fellow(2014),國家傑出青年基金獲得者(2016),美國統計學會會刊《JASA》、美國商業與經濟統計學雜志《JBES》、泛華統計學會會刊《SINICA》、《中國科學:數學》等多個國際學術期刊的編委(Associate Editor)。

精 華 解 讀

以下內容為《數據思維》一書精華解讀,供廣大書友們學習參考,歡迎分享,未經允許不可用作商業用途。

數據思維 正文

引擎再强大的車,碰到摸不著北的司機,照樣開不到目的地。大數據也一樣,如果不具備將業務問題轉變為數據可分析問題的數據思維,再怎麼神話大數據都無法創造商業價值。

大數據很火,真正懂行的少之又少,王漢生教授是其中一比特。在聒噪的新媒體語境下,王教授另辟蹊徑,以誠懇、求真的學術氣質,幫助我們在工作與生活中養成數據思維。

數據思維

一、樸素的數據價值觀

1.數據的價值

a.什麼是數據

凡是可以被電子化記錄的都是數據。

這不局限於數字,還包括語音輸入的聲音,數碼相機拍下的照片,手機錄制的視頻等被電子化記錄的內容。該定義看似狹隘,但是能幫助我們更好的理解數據產業的變遷,培養數據的時代觀。

b.數據有什麼用

數據之於個人的價值,一定關乎自身業務的核心訴求。只有說清楚了數據的商業價值,客戶才容易為數據買單,數據企業才容易產生收入,數據產業中才不會有那麼多的困惑。那麼,數據的價值是什麼呢?

我們可以從收入、支出、風險三個方面看待這個問題:

收入。最典型的是百度付費搜索廣告,它通過對用戶搜索數據的深入分析,進行精准匹配,為廣告主帶去一大波流量,它所創造的收入增長就是數據的價值。

支出。根據物聯網技術采集到的信息,電視生產商發現某一款電視機的用戶中,僅1%的用戶還在使用老式的VGA視頻接口。於是,他們决定取消這一接口設置,該决定為企業每年節省了上億元成本。這也是數據分析帶來的價值。

風險。很多商業銀行都有網上申請系統,風險普遍高於線下面簽。數據分析可以幫助它們更加准確地區分哪些線上申請者是好人,哪些是壞人。這是以降低商業風險的方式,數據為公司所帶來的間接價值。

數據思維

2.什麼是數據思維

為了解釋清楚本書中最重要的概念“數據思維”,這裏不得不引入一個統計學專有名詞——回歸分析,即確定兩種或兩種以上變量間相互依賴的定量關系的一種統計分析方法。

古人雲:以道馭術,以術驅道。在“道”的層面上,回歸分析是一種思維方式,在它的指導下,我們可以把“業務問題”定義成“數據可分析問題”。而在“術”的層面,回歸分析又是一種可以運用的數據分析工具,這在本解讀最後一章會介紹。

什麼樣的問題可以被看作數據可分析問題?你需要找到兩種變量:

因變量Y:因為別人的改變而改變的變量,這是業務的核心訴求。

自變量X:用來解釋因變量Y的相關變量,通俗點說,自變量X的改變,影響了因變量Y的變化。X錶現了數據分析者對業務的洞見。

案 例

假設A君向你借一萬元錢,你也許會從A君平時的為人開始分析,順便考慮你倆關系够不够鐵、是否簽下借條、A君的家境情况等等各種因素,依此衡量A君還錢的可能性。此處A君還錢的可能性就是因變量Y;而為人、關系、借條、家境都是自變量X。

數據思維是把“業務問題”定義成“數據可分析問題”,具體的做法就是在亂成一鍋粥的業務問題中,准確定比特業務的核心訴求(因變量Y),並找到影響核心訴求的相關因素(自變量X),然後利用各種數據分析工具進一步研究。

下一章我們著重解决一個問題,為什麼擁有數據思維如此重要?

數據思維

二、 大數據到底是什麼

在不了解數據分析的情况下,我們很容易神話大數據,認為它擁有多麼神奇的魔力。實際上,大數據沒那麼神秘,它與許多人接觸過的統計學有著千絲萬縷的關系。

1.大數據和統計學的關系

本期節目中,王漢生教授提到,大數據和統計學至少有兩方面的關系:

a.統計學關注的核心,是對數據的分析建模,並通過建模對業務不確定性的刻畫,這對大數據的貢獻巨大。

b.大數據並不能代替抽樣,相反,越是大數據抽樣越重要。

2.大數據的准確度如何

預測不准是常態,預測准確是變態。”王教授這句話,戳破了許多人對預測抱有的美好期待。

為什麼對於准確度那麼絕望呢?科學本質使然。統計學研究中包括了大量的相關關系,其中只有極小一部分非常稀有的因果關系,但是因果關系的重要性依舊無法取代。

●相關關系:客觀現象存在的一種非確定的相互依存關系。例子:公雞叫,太陽昇起來。

●因果關系:第一個事件(因)和第二個事件(果)之間的作用關系,其中後一事件被認為是前一事件的結果。例子:按下開機鍵,電腦亮了。

我們經常會混淆這一對概念,甚至有些時候連相關關系都不算的事件A和事件B,由於它們常相伴發生,我們便迷信地以為兩者具有因果關系,鬧下不少的笑話。

因此,鑒別相關關系和因果關系這一對概念,不僅是我們了解大數據的金鑰匙,也是培養科學素養——對偽科學說不——所要邁出的關鍵一步!

數據思維

三、人人應有數據思維

數據思維是一種必備的素養。因為生活在信息時代的我們,或多或少都會和數據扯上點關系,不具備數據思維,我們就會像不懂經濟學知識炒股的人一樣,容易被征智商稅啊!

1.提高溝通效率

我們在工作中,經常遇到這樣的情况:數據專家說的是技術語言,需求部門說的是業務問題(其中包括數據可分析的和不可分析的),雙方的溝通總是難以順利進行。

要解决這個問題,這不僅需要專業人士擺脫自己知識的詛咒,也需要需求部門克服對於數據的恐懼感,公司內部自上而下都有必要培養數據思維。决策者要認識到哪些事與數據相關,需求部門應該有將核心訴求講清楚的能力。

對此,樊老師生動地形容道,具備數據思維就是“張口就能點出回鍋肉”。

這可以大大提高溝通效率,使數據分析的價值最大化!

2.抓住商業機會

另一方面,數據思維對於創業者來說也可能有幫助,尤其在那些與數據有著緊密聯系的創業項目中。具備數據思維,能幫助創業者抓住商業機會,但這需要經過以下三個步驟:

a.我所在的創業方向,數據是否能幫助我?

b.如果數據很重要,將業務中的因變量Y和自變量X梳理清楚。

c.在戰略層面上,保證Y和X的高質量供給、長時間積累。

3.生活中的數據思維

假如一個人既不是創業者,所涉及業務問題又和數據分析八竿子打不著,培養數據思維又有什麼用呢?事實上,生活中的大部分小事,數據思維都可以給你啟發,關鍵看你怎麼用?

首先,培養數據思維幫你養成一種思考有的放矢的習慣:分析的目的是什麼?核心訴求是什麼?因變量Y是什麼?

其次,搞清楚目的後,你就能將注意力聚焦在相關的自變量X上,就不會陷入“放眼望去都是重點”的迷亂狀態中。

最後,你可以嘗試最簡單的分析,專業的建模暫且不說,至少可以區分一下哪些是相關關系、哪些是因果關系。

數據思維

四、 各種數據分析方法

讀到這裏,你是否已經對數據分析產生興趣了呢?本書中還介紹了幾種常見的數據分析工具,感興趣的話可以研究一下,然後試著用它們解决數據可分析的問題。

1.回歸分析

在“術”的層面,回歸分析就是各種各樣的統計學模型。它主要有五種類型:線性回歸、0-1回歸、定序回歸、計數回歸以及生存回歸。

線性回歸,更嚴格地說是普通線性回歸,其主要特征是:因變量Y必須是連續型數據,而對解釋性變量X沒有太多要求。在數據世界中,線性回歸可以應用於股票投資、客戶終身價值、醫療健康等領域。

0-1回歸就是因變量Y是0-1型數據(只有兩個可能取值)的回歸分析模型。例如,性別只有“男”或“女”。購買决策只有“買”或“不買”。癌症診斷只有“得癌症”或“不得癌症”。0-1回歸可以應用於互聯網征信、個性化推薦、社交好友推薦等。

定序回歸就是因變量Y為定序數據(關乎順序的數據)的回歸分析模型。舉個例子,現在請各比特書友為本期作者光臨打分,根據喜好程度:1錶示非常喜歡,2錶示有點喜歡,3錶示感覺一般,4錶示有點不喜歡,5錶示非常不喜歡。這就是一種定序數據。定序回歸常見的應用場景有:電影的打分評級(1~5星);電商產品的滿意度評分(1~5星)等。

計數回歸。如果因變量Y是一個計數數據(非負整數),那麼對應的回歸分析模型就是計數回歸。計數回歸常被應用於:客戶關系管理中的RFM模型,即一定時間內客戶到訪的次數;二胎政策研究中,一對夫妻選擇生育孩子的數量等。

生存回歸是生存數據回歸的簡稱,即因變量Y為生存數據(刻畫一個現象或個體存續生存了多久)的回歸分析模型,例如人的壽命、電子產品使用年限、創業公司存續時間。

2.數據可視化

最基礎的數據可視化方法就是統計圖,而一張好的統計圖應該滿足四個標准:准確、有效、簡潔、美觀。常見的統計圖有:柱狀圖、堆積柱狀圖、餅圖、直方圖、折線圖、散點圖、箱線圖、莖葉圖等。

數據思維

數據思維

數據思維

3.機器學習

機器學習代錶著一大類優秀的數據模型分析方法,是立志成為數據科學家的書友們的必修課。它主要涉及的方法有:樸素貝葉斯、决策樹(含隨機森林)、神經網絡(含深度學習)、K均值聚類。

4.非結構化數據

數據是結構化的還是非結構化的,這是一個相對的、主觀的概念。當然,其中也有一些達成了共識,公認的非結構化數據包括中文文本、數據結構、圖像等。

案 例

非結構化的文本數據,並不錶示我們不能對它進行數據分析。以《倚天屠龍記》為例,張無忌到底最愛誰,是趙敏嗎,是周芷若嗎,還是殷離或者小昭?本書利用數據分析的方法,得到了答案!

第一步,把小說的主要人物和他們的稱謂提取出來。接下來,要確定分析單比特,這裏取的是自然段。那麼張無忌愛誰這樣的問題,到底怎麼定義為數據可分析問題呢?本書中從人物出場頻次、出場時間、親密程度等不同角度進行分析,這裏簡單說一下最重要的親密程度分析,這是通過她們與張無忌出現在同一自然段的次數(同時出場)刻畫的:

所謂日久見真情,從這一個側面看張無忌與趙敏親密接觸的機會最多,他最有可能愛上的是趙敏。

數據思維

數據思維 結語

數據思維

這是一本可以提昇認知的書籍,沒有帶給你太多的方法論,也不能讓你的生活立即發生改變,甚至你在聽書的時候還會感到有些費力。但是,偶爾走出自己的舒適區,嘗試理解從前碰都不敢碰的理科問題,然後驚喜地發現“哦!原來是這樣啊!”這對於我們來說何嘗不是一種進步呢?

版权声明
本文为[讀書筆記]所创,转载请带上原文链接,感谢
https://book.bfun.fun/2022/02/202202161654431279.html

随机推荐