- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2019-07-10來源:今日頭條瀏覽數:924次
數據科學的框架分為三部分:底層技術框架/數據分析框架/工具選擇框架,接下來依次給大家介紹:
底層技術框是數據科學的基礎設施,我們有所了解就好,處理框架和處理引擎負責對數據系統中的數據進行計算。
流處理系統:流處理系統會對隨時進入系統的數據進行計算。相比批處理模式,這是一種截然不同的處理方式。流處理方式無需針對整個數據集執行操作,而是對通過系統傳輸的每個數據項執行操作。

流處理中的數據集是“無邊界”的,這就產生了幾個重要的影響:
完整數據集只能代表截至目前已經進入到系統中的數據總量。
工作數據集也許更相關,在特定時間只能代表某個單一數據項。
批處理系統:批處理在大數據世界有著悠久的歷史,批處理主要操作大容量靜態數據集,并在計算過程完成后返回結果。
批處理模式中使用的數據集通常符合下列特征:
有界:批處理數據集代表數據的有限集合;
持久:數據通常始終存儲在某種類型的持久存儲位置中;
大量:批處理操作通常是處理極為海量數據集的唯一方法。
批處理非常適合需要訪問全套記錄才能完成的計算工作,例如:在計算總數和平均數時,必須將數據集作為一個整體加以處理,而不能將其視作多條記錄的集合。這些操作要求在計算進行過程中數據維持自己的狀態。
數據數據分析的工作分為倆部分,日常長遠工作(相當于養兵千日)和針對項目/公司需求做的及時響應(相當于用兵一時)。
日常長遠的工作主要是日常監控系統。
2.1 日常監控系統主要分為:測量/建立標準/發現異常
首先是測量
測量就是將具體的產品和業務轉化為數據的過程.本質上來看,這個過程相當于把一個現實世界的對象映射到我們的抽象空間里,先天的會存在很大的誤差,但是意義重大,統一了我們看待業務的方式。從此之后,我們對于業務的討論都在一樣的標準上進行。同時,也由于測量的先天誤差,測量值得不斷更新。
舉個栗子:一個內容產品建立業務指標的邏輯 假設你是內容運營,需要對現有的業務做一個分析,提高內容相關數據,你會怎么做呢?
我們把金字塔思維轉換一下,就成了數據分析方法了, 從內容運營的流程開始,它是:內容收集——內容編輯發布——用戶瀏覽——用戶點擊——用戶閱讀——用戶評論或轉發——繼續下一篇瀏覽。 這是一個標準的流程,每個流程都有指標可以建立。內容收集可以建立熱點指數,看哪一篇內容比較火。用戶瀏覽用戶點擊則是標準的PV和UV統計,用戶閱讀是閱讀時長。
2.2 建立標準和發現異常
有業務指標體系,我們就可以監控產品了,那么數據的波動一定是因為產品本身的問題嗎?其實不然。
想象這樣一種場景:你在一家做玩具跨境電商的公司,在3月份,發現公司玩具銷量出現大幅下滑,結果做了很多分析,提出了N種解決方案,依然收效甚微。被老板一頓痛罵之后,苦惱的回家,打開電視一開,新聞聯播說:中美貿易危機,出口行業受較大影響,領導表示親切關懷。
原來數據異常,并不是公司的問題,而是整個環境變了,而我們卻用了大量的時間精力分析自己的問題。
所以我們要建立正常的標準,我們每次比較都是預期標準比較的,而不是和0比較,也不是和最好的情況比較。
常見的基準:同行業平均水平/宏觀經濟指標/公司運營活動預期。
發現異常:設定標準偏離正常標準3%算作異常,值得我們深入分析。
其實數據分析的日常工作,還可以包括豐富企業的模型庫,這一點在下一部分的敘述會有所涉獵。
上面介紹完了數據分析師的日常工作,接下來介紹工作的另一部分——解決項目實際問題。
3.1 發現并明確問題
問題的來源包括這幾個方面:
(1)業務部門的問題需求
(2)監控發現的異常數據
提出一個好問題,往往比找到答案重要。
業務部門直接給出的問題往往模糊不清,我們需要去分析問題的本質,把他進行簡化抽象。
(3)對問題進行本質分析
剝離自然語言,最后語句中只包含倆類語句結構:A是B,A屬于B。
轉化為集合語言或者系統語言。
(4)把問題歸結到幾種常見問題類型,或者轉化為常見問題的組合,問題的本質類型
價值判斷類,相當于為什么的問題。
首先應該明確判斷的標準,然后進行打分。
現實類,相當于是什么和怎么辦的問題,可以近似為是因果/相關關系探索類的問題。
問題的衍生類型:
預測問題:相當于因果關系探索;
決策問題:相當于價值判斷類問題+因果關系探索;
分析原因問題:相當于因果關系類問題。
3.2 問題的全方位分析
文獻綜述(俗稱百度,當然不僅僅包含百度)
針對提出的問題,搜尋前人的分析,總結前人的經驗。常見的高質量數據源:知乎、知網、谷歌學術。
問題的探索性分析:
頭腦風暴:頭腦風暴法(Brain storming),是指由美國BBDO廣告公司的奧斯本首創,該方法主要由價值工程工作小組人員在正常融洽和不受任何限制的氣氛中以會議形式進行討論、座談,打破常規,積極思考,暢所欲言,充分發表看法。
德爾菲法:也稱專家調查法 德爾菲法,也稱專家調查法,1946 年由美國蘭德公司創始實行。該方法是由企業組成一個專門的預測機構,其中包括若干專家和企業預測組織者,按照規定的程序,背靠背地征詢專家對未來市場的意見或者判斷,然后進行預測的方法。
scrum 項目管理方法:它是由三個角色(產品負責人、scrum專家、團隊成員)、四個儀式(沖刺計劃會、每日站會、沖刺評審會、沖刺回顧會)和三個物件(產品積壓、沖刺積壓、燃盡圖)組成的一套項目管理方法。沖刺,是一次竭盡權力的都安排,scrum的核心,是把整個項目分成若干個沖刺,每次2-4周,沖萬一次再來一次。
3.3 數據收集
內部數據:由公司業務體系決定,公司內部產生的互數據。
常用工具有:GA/百度統計;
也有公司自建數據庫:通過SQL查詢。
外部數據:
常見指數:百度指數、阿里指數、谷歌趨勢指數、騰訊TBI指數、經濟指數(大盤指數等)
競品監控:ALEXA / similar WEB。
3.4 數據的預處理和預分析
我們收集來的數據,并不能直接使用,而是需要先進行清洗。
預處理主要是指清洗好數據之后,可以對數據做一下粗略分析,方便建模的深入。
預分析-主要是 針對對象做描述統計,包括分布、集中/離散趨勢,包括均值/方差/偏度/峰度/分位數等,也包括相關性的探索性分析。
3.5 選擇模型
模型空間的構建:這是個無限集合,其實模型的收集永無止境。我們也可以按照演繹的體系去梳理模型空間,我們主要收集的是三類模型:商業/統計/數據挖掘。
商業分析模型:麥肯錫等咨詢公司根據商業需要總結的一些分析框架,我們的模型大多來自咨詢公司,也可以根據業務理解,自己建立。
比如:波特五力模型是邁克爾·波特(Michael Porter)于20世紀80年代初提出。他認為行業中存在著決定競爭規模和程度的五種力量,這五種力量綜合起來影響著產業的吸引力以及現有企業的競爭戰略決策。五種力量分別為同行業內現有競爭者的競爭能力、潛在競爭者進入的能力、替代品的替代能力、供應商的討價還價能力、購買者的討價還價能力。
統計模型,主要是依靠統計學知識。各種分布和檢驗的關系原理,這部分需要很好的數學基礎,我這里只簡單的給出輸入條件和輸出條件,至于其中的具體原理,有機會做一個概述。
數據挖掘模型:
生成模型:由數據學習聯合概率分布P(X,Y),然后求出條件概率分布P(Y|X)作為預測模型,即生成模型P(Y|X)=P(X,Y)/P(X)——存在隱變量。典型的生成模型:樸素貝葉斯法,隱馬爾可夫模型。
判別模型:由數據直接學習決策函數f(X)或者條件概率分布P(Y|X)作為預測的模型。即對給定的輸入X,應該預測什么樣的輸出Y。典型的判別模型:k近鄰法、感知機、決策樹、邏輯斯蒂回歸模型、最大熵模型、支持向量機、提升方法、條件隨機場。
監督學習三類問題:分類問題、標注問題、回歸問題。
可用于分類問題的統計學習方法:k近鄰法,感知機,樸素貝葉斯法,決策樹,決策列表,邏輯斯蒂回歸模型,支持向量機,提升方法,貝葉斯網絡,神經網絡,Winnow 可用于標注問題的統計學習方法:隱馬爾可夫模型,條件隨機場。
模型的選取標準:
根據業務需求,確定優先級進行打分;
模型在具體問題下的構建:
數據挖掘問題的模型求解;
模型評價:基準模型,其他建模嘗試。
多元線性回歸作為基準模型;
3.6 成果輸出
成果輸出,一般是面向組織內部,比如:同事、老板,也有可能面向吃瓜群眾,這倆種情況的原則很不一樣,組織內部是理性交流,要講邏輯,面向觀眾,則要講情感。
(1)結構化 mece法則
MECE,是Mutually Exclusive Collectively Exhaustive 縮寫,中文意思是“相互獨立,完全窮盡”。 也就是對于一個重大的議題,能夠做到不重疊、不遺漏的分類,而且能夠借此有效把握問題的核心,并成為有效解決問題的方法。 它是麥肯錫的第一個女咨詢顧問巴巴拉·明托(Barbara Minto)在金字塔原理(The Minto Pyramid Principle)中提出的一個很重要的原則。
可視化的本質是面對非本領域專家,為了方便信息的傳達,用圖形直觀的方式展示分析成果(分析模型),圖形主要是各種統計圖表和邏輯框架圖.,圖形的選擇標準主要是根據變量屬性(定量數據還是定類數據),變量個數,希望達成的展示目標決定。
面向吃瓜群眾的成果輸出,感官刺激,如果是面向吃瓜群眾,那么要盡量減少邏輯/說理的成分,盡量用視覺化的表達.視覺想象是第一說服力。生活中我們做事情,并不是理性對理性,更多的時候都是感情對感情。
3.7 模型反饋
知道貝葉斯定理嗎?其實我們最終得到的模型,本質是一個假設,具體有效沒效,需要在實踐中檢驗。
模型評價:模型效果=模型預測-實際情況。
我們需要區分方法和工具,以上談到的數據分析框架是方法,而實現這些方法可以人力完成,也可以借助計算機輔助,目前計算機輔助數據分析工具主要是兩個部分: