- 產(chǎn)品
- 產(chǎn)品解決方案
- 行業(yè)解決方案
- 案例
- 數(shù)據(jù)資產(chǎn)入表
- 賦能中心
- 伙伴
- 關于
-
數(shù)據(jù)治理
-
醫(yī)療衛(wèi)生
制造
-
億信動態(tài)
時間:2022-05-25來源:花落未央瀏覽數(shù):365次
統(tǒng)計學在大數(shù)據(jù)時代的重要性。大數(shù)據(jù)不能被直接拿來使用,統(tǒng)計學依然是數(shù)據(jù)分析的靈魂。
全文共6416個字,閱讀需12分鐘
數(shù)據(jù)是信息社會的基礎,本文以隱喻(Metaphor)的方式聊聊數(shù)據(jù),旁征博引,四通八達,希望可以徹底解決一些關于數(shù)據(jù)的概念性、關聯(lián)性問題。 01 數(shù)據(jù)科學信息(information)的原料(原始材料/料理食材)是資料(data)或稱數(shù)據(jù)。數(shù)據(jù)科學(data science)需要有三個領域的知識:統(tǒng)計學、計算機科學、產(chǎn)業(yè)專業(yè)。產(chǎn)業(yè)專業(yè)知識是領域知識(domain knowledge)。機器學習是要有統(tǒng)計學知識和計算機科學知識。危險區(qū)域是包括黑客、電商等變動很快的知識,會有判斷錯誤的危險。數(shù)據(jù)科學雖然是這三個領域的交集,實際上是要包括這三個領域的知識。
02 數(shù)據(jù)江湖金庸《笑傲江湖》說:只要有人的地方就有恩怨,有恩怨就會有江湖,人就是江湖。恩怨改為數(shù)據(jù):只要有人的地方就有數(shù)據(jù),有數(shù)據(jù)就會有江湖,人在江湖。武俠小說是在寫江湖傳奇,通常的故事是:主角經(jīng)過奇遇如靈丹怪獸,遇到師父傳授功力招式,得到武功秘籍,學成武功,然后快意恩仇,行俠仗義,消滅惡徒,稱霸江湖。大數(shù)據(jù)(big data)的江湖故事是:企業(yè)得到珍貴數(shù)據(jù),機器學習數(shù)據(jù)挖掘方法,獲得信息、知識、智能,創(chuàng)造市場份額和優(yōu)勢,打敗競爭對手。《笑傲江湖》將華山派武功分為劍宗和氣宗,劍宗是注重劍法招式,氣宗是注重氣功內(nèi)功。大數(shù)據(jù)分析、數(shù)據(jù)挖掘、機器學習就是大數(shù)據(jù)的劍宗。
數(shù)據(jù)江湖 (《大話數(shù)據(jù)科學》 圖1.23)以下是大數(shù)據(jù)的江湖門派:
1. 華山派劍宗 --- 大數(shù)據(jù)分析的招式,數(shù)據(jù)挖掘十大算法是獨孤九式。大數(shù)據(jù)分析的??? 分類、回歸、聚類、關聯(lián)規(guī)則等是數(shù)據(jù)挖掘機器學習。
2. 華山派氣宗 --- 大數(shù)據(jù)技術,處理程序,計算框架,存儲文件系統(tǒng),分布式并行處理,Hadoop, MapReduce,Spark等。大數(shù)據(jù)的計算能力,就是內(nèi)功。
3. 鑄劍師 --- 大數(shù)據(jù)分析的函數(shù)與程序包(package),以R語言和Python語言為工具。?? R語言的程序套件的開發(fā)者,Python應用在神經(jīng)網(wǎng)絡、深度學習等平臺的開發(fā)商。
4. 武館 --- 大數(shù)據(jù)分析平臺。Google的Tensorflow,F(xiàn)B的 PyTorch,Alibaba PAI機器學習平臺。鑄劍師和武術館有要付費的和免費的分享平臺開發(fā)者。現(xiàn)代大數(shù)據(jù)平臺不只是武術館,而好像是武器館,只要會:選擇武器如手槍(模型),會裝子彈(數(shù)據(jù)),會瞄準(調(diào)參),會扣板機(指令),檢查命中率(驗證),就可以殺敵(應用)。于是:手槍原理(模型理論),彈道理論(算法過程),裝拆手槍(程序設計處理),是黑箱可交給專家或?qū)W術機構(鑄劍師/武術館)處理。
5. 少林武當派 --- 中國BAT:百度、阿里巴巴、騰訊;美國 FAANG:Facebook、Amazon、Apple、Netflix、Google,這些可以說是大數(shù)據(jù)的少林武當派。
6. 丐幫?--- 數(shù)據(jù)和程序共享平臺。R 語言是開源免費共享平臺,R 提供2萬個以上的套件,這些套件就像是丐幫的大小分舵,有數(shù)據(jù)有算法函數(shù)。而 Python 語言的框架,一樣是免費共享平臺,例如Tensorflow有谷歌的支持,就像是少林武當?shù)拇笏聫R。
7. 概幫 --- 大數(shù)據(jù)概念幫,介紹大數(shù)據(jù)應用在醫(yī)學、保險、零售、會計、工業(yè)、制造、農(nóng)業(yè)、金融、電商、地理、運動等各行業(yè)。多數(shù)是概念,紙上談兵。對于概幫,我們要問:大數(shù)據(jù)的問題種類,數(shù)據(jù)來源,數(shù)據(jù)類型,分析方法,模型和算法,信息結果,驗證評價,應用價值,這是CRISP-DM 跨行業(yè)數(shù)據(jù)挖掘標準過程。如果無法回答上述問題,就是概幫。當然,有些概幫是因為商業(yè)機密,無法提供這些說明。
8. 蓋幫 ---?在臺灣 “蓋” 是騙人、唬弄人的意思。蓋幫的分析結果是常識,不用計算就已經(jīng)知道的結果,或者是編造詐騙的結果。數(shù)據(jù)科學的計算結果應該是未知的、潛在的、可理解的、有價值的、和有用的信息。
9. 藏經(jīng)閣 --- 大數(shù)據(jù)相關書籍和出版社,大數(shù)據(jù)案例探討。
10. 媒樓 --- 大數(shù)據(jù)的宣傳機構,幫助蓋幫宣傳、炒作(如虛擬貨幣或NFT)的媒體。
11. 魔教(邪派) --- 制造假數(shù)據(jù),竊盜數(shù)據(jù)。
12. 修真玄幻(穿越) --- 虛擬貨幣,區(qū)塊鏈。
13. 鏢局 --- 大數(shù)據(jù)保護,數(shù)據(jù)安全。
14. 武林聯(lián)盟 --- 電子商務,共享平臺。
15. 錢莊 --- 大數(shù)據(jù)存儲,云計算。
16. 刑部神捕司 --- 大數(shù)據(jù)執(zhí)法的政府機構,維護國家和個人隱私安全,個資保護。
17. 護法 --- 門派內(nèi)大數(shù)據(jù)的安全保護,大數(shù)據(jù)平臺運行安全,企業(yè)的法務部門。大數(shù)據(jù)目前沒有倚天劍、屠龍刀 (武林至尊,寶刀屠龍,號令天下,莫敢不從!倚天不出,誰與爭鋒?)。沒有一個天下無敵的招式,沒有一個招數(shù)可以打敗所有的武功。天下沒有一個藥方疫苗可以治百病防千毒。大數(shù)據(jù)沒有一個模型(或算法)可以解決所有的數(shù)據(jù)分析。所以,應用數(shù)據(jù)挖掘,每個方法都有優(yōu)點缺點,有適用環(huán)境和范圍,實戰(zhàn)需要經(jīng)驗和商業(yè)知識。大數(shù)據(jù)和武俠世界有一點不同的是,武俠的內(nèi)功(氣宗)是基本功比較不會變,劍招(劍宗)是會改變的,要講 “無招勝有招”是有些過分。相對來說,大數(shù)據(jù)的氣宗(計算機技術)比劍宗(數(shù)據(jù)挖掘技術)容易創(chuàng)新改變的,因為計算機科學的技術(量子計算機計算,不只是武俠而是仙俠),可以說是日新月異。數(shù)據(jù)挖掘已經(jīng)有二三十年的歷史,是因為網(wǎng)絡和計算機技術才有大數(shù)據(jù)。三四十年前的算法求解,因為計算機的速度和儲存能力,所以斤斤計較于計算的復雜性(Computational complexity)。現(xiàn)在用分布式并行處理,就可以解決很多計算的問題。所以,因為計算機的快速能力,使得以前統(tǒng)計學、數(shù)據(jù)挖掘、人工智能(記得有AI之冬),無法處理的模型,現(xiàn)在可以用訓練和驗證數(shù)據(jù)解決。這就說明了武俠小說的一句話:天下武功,無堅不摧(數(shù)據(jù)),唯快不敗(氣宗),唯準能勝(劍宗),唯狠無敵(無友),唯義稱王(共享)。
03 斜杠老人陳博士求學從數(shù)學系到工業(yè)工程所,直到退休,經(jīng)歷下列學院:理/工/法/商/管理/信息/醫(yī)教過下列課程:管理數(shù)學/生產(chǎn)管理/統(tǒng)計學/作業(yè)研究(運籌學)/信息管理/電子商務/網(wǎng)絡營銷/電子化企業(yè)等。出版下列書本:
《資訊管理》(2002年)? / 《管理科學》(2010年)? / 《統(tǒng)計學》(2012年) /
《大話數(shù)據(jù)科學 : R語言》(清華大學出版社2020年) /
《大話統(tǒng)計學 : R語言 + 中文統(tǒng)計》溢彩實訓版(清華大學出版社2022年4月) /
《運籌學 :R + Python + 運籌學2.0》(預計2023年出版) /
《人工智能: Python》(預計2024年出版)。
04 數(shù)據(jù)模型數(shù)據(jù)科學除了數(shù)據(jù)的取得很重要,求解的方法也很重要,求解方法就是模型(model),模型不是唯一的。利用數(shù)據(jù)科學模型,要注意是否符合假定條件(assumption),不要削足適履非穿不可,不要因為“這個”方法比較熟悉、比較容易用,就要用它來找答案,結果找到的答案根本不對。統(tǒng)計學通常是抽樣數(shù)據(jù)的模型選擇,數(shù)據(jù)科學有訓練和驗證數(shù)據(jù)的模型評價。

圖2? 數(shù)據(jù)分析的類型 (《大話統(tǒng)計學》 圖1.8)
Wonnacott說:“He uses statistics as a drunkenman uses lampposts --- for support rather than for illumination.”? (人們利用統(tǒng)計,就好像醉漢利用路燈,是為了支撐,而不是照明。)一個醉漢在夜晚的路燈下找錢包。有路人幫他找,找了很久。
路人問:你確定是掉在“這里”嗎?
醉漢說:我不知道掉在“哪里”。
路人問:為什么要在“這里”找?
醉漢說:因為“這里”有路燈比較亮。George Box說:“Statisticians, like artists,have the bad habit of falling in love with their models.”(統(tǒng)計學者像藝術家,有壞習慣:會愛上他們的模型(模特兒))。Box又說:“All models are wrong, but someare useful.”(所有的模型都是錯誤的,但是? 有些是有用的。)斜杠的蘇軾是:(蘇東坡才是真正的斜杠,元Meta的境界,我只是在數(shù)據(jù)打轉(zhuǎn))文學家/詩人/詞人/畫家/書法家/哲學家/政治家/犯官/農(nóng)夫/建筑師/工程師/美食家/廚師。蘇東坡說:“橫看成嶺側(cè)成峰,遠近高低各不同。不識廬山真面目,只緣身在此山中。”上述是模型的隱喻。基于“關系和因果”的統(tǒng)計學元模型 (提升高度的模型),請參考《大話統(tǒng)計學》,見下圖:
圖3? 基于“關系和因果”的 統(tǒng)計學 元模型 (《大話統(tǒng)計學》 圖1.6)商業(yè)模式或商業(yè)模型(business model)分三大部分:價值主張(顧客價值與獲利公式)、關鍵資源(設備技術伙伴顧客關系)、關鍵流程(因果與活動)。人的三觀:價值觀、人生觀、世界觀。商業(yè)模式的 三觀 :價值主張(價值觀、政績觀)、關鍵資源(人生觀、事業(yè)觀)、關鍵流程(世界觀、工作觀)。所謂,羊毛(價值主張) 出在狗身上(關鍵資源),豬來買單(關鍵流程)。
05 數(shù)據(jù)料理民以食為天,以食物來比喻,數(shù)據(jù)是食材,數(shù)據(jù)模型就是食譜,不同的食材(例如數(shù)據(jù)尺度:比率、區(qū)間、順序、分類,或正態(tài)分配),有不同的調(diào)味(參數(shù)選擇)和烹煮(算法步驟)。《中文統(tǒng)計》《運籌學2.0》(基于 Excel 2019, 2021的加載項)是 有菜單料理,有菜單料理是親切友善的選擇畫面輸入數(shù)據(jù)。R和Python是無菜單料理,以函數(shù)/指令操作,無菜單料理有豐富多樣的自助加料(程序),但是要熟悉 廚師 (鑄劍師、R或Python的包或庫)。《中文統(tǒng)計》、《運籌學2.0》、R語言和Python都是免費的軟件,天下有白吃的午餐。R 好像是丐幫有許多分舵(package),Python 像是免費的少林/武當/大飯店師傅。那么,高價的統(tǒng)計數(shù)據(jù)分析 商業(yè)軟件怎么經(jīng)營?大概要走向擺飾漂亮的米其林餐廳。你可以做氣宗、武館或錢莊,如:廚師技巧烹飪教室、廚房的設備或食材的供貨商;也可以做武術分享平臺,如大眾點評、外送平臺;還有自動化烹飪機器人——這就是商業(yè)模式。06? 元宇宙2021年10月底Facebook臉書集團名字要改名為Meta,造成“元宇宙” (Metaverse)的熱火朝天。以下引用:陳文賢《大話數(shù)據(jù)科學》,清華大學出版社2020年,第30頁。希臘語:μετ?(metá),意思是“之后”、“之上”、“超越”、“關于”、“整合”、“變化”、“再轉(zhuǎn)換”、“再詮釋”,翻譯為“元”或“后設”。meta是 關于什么的什么 。元模型/后設模型(metamodel)是模型之上,超越模型的模型、關于模型的模型。元分析/后設分析(meta-analysis)是指將多個研究結果加以整合、再詮釋的分析方法。形而上學(Metaphysics):超越自然之上,易經(jīng):“形而上者謂之道,形而下者謂之器”。元數(shù)據(jù)(Metadata):關于數(shù)據(jù)的數(shù)據(jù)、超越數(shù)據(jù)的數(shù)據(jù)。元知識(Metaknowledge):關于知識的知識、超越知識的知識。元語言(Metalanguage):描述語言的語言。元文法(Metagrammar):描述文法的文法。后設理論(Metatheory):解釋理論的理論。后設認知(Metacognitive):認知自己的認知。后設學習(Metalearning):整合學習的學習,數(shù)據(jù)科學的 集成學習(ensemble learning)。生物學的世代交替(Metagenesis), 蛻變(Metamorphosis)。后設大數(shù)據(jù)MetaBig data ? 后設人工智能Meta AI ? 后設元宇宙 ?百度或谷歌地圖右下角的 “+”號,是使地圖更 “加” 詳細,但是高度降低,范圍更小,像鉆地機,這就是通常的學術研究,把簡單的變復雜,在數(shù)據(jù)科學/機器學習,這是 過擬合(overfitting)。百度地圖右下角的 “-”號,是 “減”去無關因素,提升高度,范圍變大,視野更廣,像空拍機,把復雜的變簡單。減法的人生,會提升人的高度。因為 無欲則剛。因為verse是詩,universe是宇宙。Meta verse應該是 元詩:超越詩的詩,圣經(jīng)的詩篇。翻譯為“元宇宙”,有點抬舉:整合宇宙的宇宙?臉書新名Meta Platforms(整合平臺的平臺)。元宇宙希望要整合 區(qū)塊鏈Blockchain, 虛擬現(xiàn)實VR, 增強現(xiàn)實AR, 混合現(xiàn)實MR, 人工智能AI, 5G與人的互動等平臺。請見 表 1元宇宙價值鏈(Metaverse Value Chain)。表 1? 元宇宙價值鏈 (Metaverse Value Chain)
Metaverse源自科幻小說《Snow Crash》(1992年),講的是虛擬網(wǎng)絡和現(xiàn)實世界的互動。現(xiàn)實與虛擬的關鍵技術、交易機制、規(guī)范準則、經(jīng)濟社交、互通互補、商業(yè)模式、價值倫理等,需要有新的定義、普世公認、不斷修改。藝術品的非同質(zhì)化代幣(Non-fungible token, NFT) 也許是元宇宙的一個規(guī)范準則。但是在股票市場,小型股(小盤股)比較容易炒作(控盤容易),NFT是獨一無二的不可互換,又沒有公開的市場如股市,不是更容易炒作嗎?宋真宗趙恒:“富家不用買良田,書中自有千鐘粟。安居不用架高堂,書中自有黃金屋。出門莫恨無人隨,書中車馬多如簇。娶妻莫恨無良媒,書中自有顏如玉。”從前,虛擬世界(書) 中的 千鐘粟、黃金屋、車如簇、顏如玉,轉(zhuǎn)換成為現(xiàn)實世界的良田(食)、高堂(住)、出門(行)、娶妻(育樂/成家),其 規(guī)范準則 是 科舉考試。通過科舉制度,可以當官取得功名和俸祿。現(xiàn)在或未來,虛實之間的規(guī)范準則與商業(yè)模式,在食衣住行育樂名利哪部分的元宇宙是可行?在元宇宙的爆火中,現(xiàn)實的食衣住行育樂 都往元宇宙里裝,問題是其 商業(yè)模式 是什么?元宇宙的 虛擬食品和飲料有何 價值?畫餅充饑、望梅止渴、想象美味、氣氛環(huán)境、歡樂共享、品牌虛榮?可以吃的NFT食物?吃飯要戴虛擬現(xiàn)實VR眼鏡 ;虛擬衣服設計可能有NFT的價值 ; 虛擬住房有 地點(Location) 物以稀為貴的價值 ; 旅行、教育、會議和娛樂有 虛擬現(xiàn)實或增強現(xiàn)實VR/AR的效果價值。元宇宙在虛擬生活的 食衣住行育樂 之上,還有 安全、名、利、情感和成就 (人生追求的需求層次),后兩者是 網(wǎng)絡游戲 和 虛擬小說(fiction)的世界。因為,在網(wǎng)絡游戲里可以滿足? 刺激性和成就感,在虛擬小說中可以找到 愛恨情仇。元宇宙是否會成為 暴發(fā)戶的丐幫?中實戶的概幫?還是 詐騙戶的蓋幫?四十多年來,信息管理在產(chǎn)業(yè)界、學術界、顧問界的推波助瀾,不斷的創(chuàng)造新名詞,有的名詞可以風行很久,有的名詞只是曇花一現(xiàn),有的名詞是流行、負面、沉寂、再爆發(fā)。元宇宙會如何?我不知道,讓子彈飛一會兒吧! “
這篇文章作者是臺大資訊(信息)管理系系主任 陳文賢,他自詡“斜杠老人”我覺得是太謙虛了,如果你看了陳老師的新書《大話統(tǒng)計學》,你就會知道這哪里是“斜杠老人”,這觀點比很多90后、00后還超前,明明是“斜杠小伙兒”思密達~~~
為什么要推薦大家學習統(tǒng)計學?因為統(tǒng)計學是數(shù)字化時代每個人都需要掌握的思維和技能。為什么推薦陳文賢老師的這本《大話統(tǒng)計學》,因為這本書我能看懂,哈哈~
數(shù)字化時代,你需要惡補統(tǒng)計學! 我們都知道,21世紀是數(shù)據(jù)科學的時代,而統(tǒng)計學則是數(shù)據(jù)科學的基礎,任正非在一檔訪談節(jié)目中也著重談到了統(tǒng)計學在大數(shù)據(jù)時代的重要性。大數(shù)據(jù)不能被直接拿來使用,統(tǒng)計學依然是數(shù)據(jù)分析的靈魂。
其實,數(shù)據(jù)分析就是從數(shù)據(jù)中挖寶,小到成本統(tǒng)計,大到人工智能,數(shù)據(jù)量越大,對數(shù)據(jù)分析師的技能要求越高。很多人認為,會EXCEL就夠了。我只能說,你對數(shù)據(jù)分析這個工作存在一定誤解,看輕了數(shù)據(jù)分析師這個職位。往大里說,只要存在數(shù)據(jù),就需要統(tǒng)計,需要用統(tǒng)計學思維和方法去處理問題,當然,很多時候你并沒有意識到,是因為類似EXCEL、SPSS等工具已經(jīng)將統(tǒng)計學思路固化到具體功能中。但是即便用工具進行統(tǒng)計分析(基礎崗位)也需要基本的統(tǒng)計學知識,比如SPSS菜單里的詞匯,很多就是統(tǒng)計學概念,菜單都看不懂,怎么進行統(tǒng)計分析。
所以,不管你是初級崗還是高級崗,統(tǒng)計學必須掌握,而且應用統(tǒng)計學的熟練程度,一定程度的決定著你的職業(yè)生涯天花板的高度。統(tǒng)計學出身于數(shù)學,但是在應用統(tǒng)計學的時候,很多非理工科專業(yè)也要學習,尤其是文科生,學習統(tǒng)計學知識時會??頭疼,主要原因有幾條:
首先,統(tǒng)計學教材??乎都是復雜的推理公式,讓?難以理解,對數(shù)學基礎薄弱的非工科學生,跟天書無異。
其次,統(tǒng)計學概念眾多,新鮮詞匯量可以說多如牛毛,學著學著就迷路了。最后,也是最重要的一點,統(tǒng)計學其實是非常強調(diào)實踐的,很多統(tǒng)計學概念需要用實踐來加深學習效果,目前可以找到的系統(tǒng)學習資料,概念和實踐大都是脫節(jié)的,學起來如同嚼蠟。其實,在學習實踐中,捋清楚關于統(tǒng)計學的概念,以及這些概念之間錯綜復雜的關系,搞清楚這些,可以極大的幫助你們在遇到問題時,應用準確的統(tǒng)計方法去實施。
內(nèi)容涵蓋:描述統(tǒng)計,概率理論,隨機變量,概率分布,抽樣理論,參數(shù)推斷(估計、檢驗),因果關系(兩總體差異、方差分析、回歸相關、分類數(shù)據(jù)),非參數(shù)統(tǒng)計,時間序列和統(tǒng)計指數(shù)。統(tǒng)計學的航拍機(深入淺出、居高臨下、一目了然)。統(tǒng)計學的學習地圖(圖形表達、思維導圖、概念流程)。統(tǒng)計學的交通工具(R語言與中文統(tǒng)計,互補加強學習效果)。
宏觀視角把握學習所在位置
萬無一失的知識路徑
合理合法的學習路線

趣味化解讀
無處不在的詞匯導航
應用方法解析
R語言工業(yè)級實踐
中文統(tǒng)計是有菜單料理,R語言是無菜單料理,兩者都是免費的軟件。中文統(tǒng)計有親切友善的選擇畫面,R語言有豐富多樣的自助加料(程序),每章提供R語言應用食譜,讀完本書,不但可以成為統(tǒng)計學的吃貨,也會是統(tǒng)計學的廚師。
在線咨詢
點擊進入在線咨詢