日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

億信ABI

一站式數據分析平臺

ABI(ALL in one BI)是億信華辰歷經19年匠心打造的國產化BI工具,技術自主可控。它打通從數據接入、到數據建模與處理、再到數據分析與挖掘整個數據應用全鏈路,可滿足企業經營中各類復雜的分析需求,幫助企業實現高效數字化轉型。

億信ABI

一站式數據分析平臺

億信華辰深耕商業智能十多年,
打造一體化的填報、處理、可視化平臺。

怎么培養數據分析的能力?

時間:2019-06-03來源:知乎瀏覽數:632

先從問題本身來回答一下,培養數據分析的能力,簡單說就是? 理論+實踐 理論:是進行分析的基礎1)基礎的數據分析知識,至少知道如何做趨勢分析、比較分析和細分,不然拿到一份數據就無從下手;2)基礎的統計學知識,至少基礎的統計量要認識,知道這些統計量的定義和適用條件,統計學方法可以讓分析過程更加嚴謹,結論更有說服力;3)對數據的興趣,以及其它的知識多多益善,讓分析過程有趣起來。實踐:可以說90%的分析能力都是靠實踐培養的1)明確分析的目的。如果分析前沒有明確分析的最終目標,很容易被數據繞進去,最終自己都不知道自己得出的結論到底是用來干嘛的;2)多結合業務去看數據。數據從業務運營中來,分析當然要回歸到業務中去,多熟悉了解業務可以使數據看起來更加透徹;3)了解數據的定義和獲取。最好從數據最初是怎么獲取的開始了解,當然指標的統計邏輯和規則是必須熟記于心的,不然很容易就被數據給坑了;4)最后就是不斷地看數據、分析數據,這是個必經的過程,往往一個工作經驗豐富的非數據分析的運營人員要比剛進來不久的數據分析師對數據的了解要深入得多,就是這個原因。

這是一個相當寬泛的問題,人們對于數據分析的看法往往會隨著所處環境的差異而發生變化。比如說,人們通常并不會期望高級管理者親自清理數據,優化和檢驗模型。但是,當他們手握分析師整理好的報告時,閱讀和理解圖表的能力是不可或缺的,如果能夠從蛛絲馬跡中發現潛在的問題則更好。這是否也可看作一種數據分析的能力呢?在學校里,學生提交的作業中可以對同一個項目有各種不同結論,老師的評價標準也許涵蓋了從寫作規范到方法科學性的很多方面。但對公司來說,結果是最主要的衡量標準。即使是一個以擲骰子制定策略的團隊,如果常常能夠獲得成功,那么他們同樣會有很高的KPI。不難設想,如果把數據分析的任務結合到業務里具體的場景,那么這個任務的成敗將不是一個單純的技術問題,比如:能不能做好各部門的協調溝通,得到所需要的數據,就是第一個挑戰。即使有了數據,也要看質量好壞。在行業里一句諺語叫Garbage in, garbage out,好數據+簡單模型通常遠勝于壞數據+精妙模型。為了避免大而無當的討論,在這里,我們不妨把問題限定的更狹窄一些。那就是,如果將數據分析看作一項獨立的工作,應該怎樣改善工作的質量。

這可以從兩個方面來分析,一個是思維模式,一個是方法論。

一、思維模式層面基于數據來進行決策,也即Data Driven,是一種思維模式。比如說,當你想要在一條街上選擇某家飯館吃飯時,你可以詢問朋友推薦哪一家,也可以打開某個點評類的App(比如Yelp)來比較用戶的打分。粗略地說,前者可以說是基于專家系統的決策方式,而后者則是基于數據的思維模式。開展數據分析的工作,從最原初的動機來說,一定是源于這種思維模式。僅從前面的例子來看,我們很難斷定,查看評分就一定比求教朋友更加靠譜。朋友也許更加了解你的口味,而基于打分則需要警惕數據的不可靠性(比如水軍)。因此,從一般的角度來講,基于數據的思維模式,本身并不具有天然的優越性。路邊小飯館的老板即使不做數據挖掘,也能大致估計什么時候顧客多,什么時候顧客少。對于絕大多數普通人來講,我們在生活中所做的決策,也未必都是基于數據的,比如人與人之間的情感。當我們認識到這一點的時候,就會發現,用數據來說話,未必是人類的天性,而是一種需要后天訓練和培養的習慣。怎樣在適當的場景下主動地選擇這樣的一種方法,是一種需要學習的能力。創造性的在新場景中利用數據分析,則有可能構建一個新的體系,比如現代的計量歷史學。思維模式看起來是很玄奧的一個概念,然而數據分析所依賴的基礎學科,概率論與數理統計,本身就具有這樣的玄奧性(猶如量子力學)。筆者在讀書時曾聽一位有名的統計學家開玩笑說,統計學是一種神學,或曰信仰,彼時還不以為然。但多年后筆者在給本科生講統計入門課程的時候,首先告訴學生的就是概率論學者Bruno de Finetti的名言:“Probability Does Not Exist.” 概率論領域眾所周知的兩大學派之爭:頻率學派 vs. 貝葉斯學派,如果從根源來考察,恰好對應于啟蒙時期的大陸理性主義和英國經驗主義——再往上大概就得到柏拉圖和亞里士多德。很多細枝末節的分歧,高度抽象后都可以解釋為思維模式的差異。對于各位有志于從事數據分析的同學來說,不妨常常思考這些根本性的概念,正如在游戲《異域鎮魂曲》中的那個著名問題:“WHAT CAN CHANGE THE NATURE OF A MAN?”

二、方法論層面從方法論的角度來說,數據分析的能力可以從字面上分為數據與分析兩部分。有人估計,在數據分析師的工作中,前期的數據清理工作就可能占據70%的時間。這未必是一個很理想的狀況,但這也是一個現實的狀況。尤其在互聯網公司中,管理者往往期待數據方面的人員能夠提供一攬子解決方案,猶如大家常說的“全棧工程師”。對于長期從事數據分析工作的人員來說,一些基本的能力也是在不斷的實踐中自然積累的,正如一個老司機通常總會有點修車的經驗。數據的質量檢驗,比如缺失值和異常值的處理,現在都已經有大量的方法和現成的軟件包以供使用。

從惟結果論的角度來說,即使一個人完全不知道什么Missing at random或Missing at complete random,跑跑程序總是容易學會的。評估結果,大致也有現成的標準。但是筆者仍然希望提示一點,那就是技術要基于實際場景。比如在資源有限的情況下,采用基于模型和蒙特卡洛模擬的方式來進行缺失值填補是否值得,是需要思考的問題。從輸入到輸出的過程,在統計學人們常稱之為模型,在機器學習領域人們常稱之為算法。模型這個概念隱含了“模型假設”這一內涵。所有學過基本的線性回歸的同學都知道,做完之后要進行各種檢驗,看看模型假設是否滿足。有一些模型對于假設的依賴性較弱,也即數據不完全滿足假設的情形下結果依然可控,這通常被稱之為穩健性模型。而對于分布不做假設(如正態分布)的模型則通常稱為非參數模型。比較模型擬合與實際情況差異時,統計學家常常會使用方差+偏差(二者不可得兼)作為整體的衡量標準。這套思維模式,對于機器學習的用戶而言過于理想化。機器學習中常見的思維模式就是把一切問題歸結到優化,優化的目標是損失函數最小,而衡量的方法則包括交叉驗證(Cross Validation)等強調預測能力的手段。

機器學習用戶對于諸如p-value,asymptotic(漸進性)這樣的概念,正如貝葉斯學派一樣,通常不以為然。同樣的一個東西,比如Logistic 回歸,有人認為是最小化損失函數,有人認為是求最大似然估計,有人則認為要研究posterior sample,這些都很正常。因為教育和工作背景的不同,人們對于數據分析往往會有自己的一套方法論,一種方法論只要能夠滿足實際工作的需求,就應該得到正視。至于具體的技術,諸如支持向量機,決策樹,深度神經網絡,網上的文獻汗牛充棟,筆者就不再一一列舉了。

對于數據分析的結果,不同角色的人會期待不同的展示方式。如果老板只有一分鐘的時間看你的結論,那么最好不要把事情說得過于復雜。數據分析本身并不具有生產力,只有落實到具體的業務才有可能創造改變。怎樣能夠推動整個流程,最終讓數據分析具有真正的價值,是一個復雜的問題,已經超出了本文的范圍。

(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢