日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

億信ABI

一站式數據分析平臺

ABI(ALL in one BI)是億信華辰歷經19年匠心打造的國產化BI工具,技術自主可控。它打通從數據接入、到數據建模與處理、再到數據分析與挖掘整個數據應用全鏈路,可滿足企業經營中各類復雜的分析需求,幫助企業實現高效數字化轉型。

億信ABI

一站式數據分析平臺

億信華辰深耕商業智能十多年,
打造一體化的填報、處理、可視化平臺。

寫給數據分析入門者:一種通用的數據分析思路

時間:2019-07-01來源:CSDN博客瀏覽數:393

數據分析是一個龐大的工程,有的時候過于抽象且依賴經驗。本文是筆者對學習和實踐數據分析的一個總結,希望提供一種通用的數據分析思路,并在分析思路的每個步驟中介紹相關的分析算法及其應用場景,對于算法只做淺層次的介紹,待讀者在實際使用中自行深入了解。

本文主要針對剛剛接觸數據分析或者面對一堆數據不知道如何下手的讀者,經驗豐富的數據分析師們可以跳過。同時,本文介紹的分析思路由于筆者的經驗和知識有一定的局限性,希望讀者在分析中合理參考。

在進行數據分析之前,首先應該做好以下準備:

一、熟悉業務、了解數據來源

這一點是數據分析的前提。數據分析,除了我們面對的數據之外,更多的是這些數據背后隱藏的各種業務。例如當我們看到用戶的消費記錄時,它可能不僅僅是收銀系統購買商品,還包含了為了會員系統的滿減而做的湊單,活動管理系統的開業折扣商品,或者是推薦系統的推薦商品。對于業務深入的了解,有助于更好的發現分析的維度,快速鎖定問題和原因。

二、明確分析的目的

數據分析不是模型算法和可視化的堆砌,而是有目的地發現某種現象,支撐某些決策。所以在分析之前,一定要明確自己分析的目的,切忌照搬其他的項目的分析內容,或者隨意組合手上的分析模型算法,這樣會導致分析結果華而不實。

三、多視角觀察

要想達到某種分析目的,需要從多個視角觀察數據,這樣不僅可以對數據整體有個全面的了解,也有助于發現潛在的信息。例如當我們需要找出潛在的會員的時候,最直接的當然是消費比較多但還不是會員的人。但從促銷活動的角度看,那些熱衷購買打折商品的人很大概率也是潛在的會員,因為加入會員他們會獲得更多的折扣,這是他們希望的。同時,從推薦系統的角度看,那些對推薦系統推薦的商品滿意的人,也不太會拒絕你推薦他加入會員。

做好準備工作后,接下來就進入正題,開始分析:

一、它是什么?

數據分析一定是針對某一些對象的,就像消費記錄針對的是某一店鋪。那首先要做的,就是通過數據來描述這一對象。就像了解一個人一樣,首先要了解他是個怎樣的人,然后便是他的特點,比如我的一位朋友是個學霸,他的特點就是每晚學習到12點,每科成績基本滿分。所以,主要從兩個方面關注一個對象,整體描述和特征:

1、基礎統計

統計是最直接的方法,而且應用起來也很簡單。常用的方法有總和、平均數、最大最小值、中位數、方差、增長率、類型占比、分布、頻率頻次等等。這里不多做介紹。

2、聚類

“物以類聚,人以群分”,聚類屬于非監督學習,聚類可以將一組數據分成多個類別,每個類別內部的數據相似,但兩個類別之間相異。聚類有助于發現數據分布上的特點,可以大量減少分析的數據量。比如在軌跡分析和預測中,通過聚類,我們會發現某個人主要出現在三個地方,宿舍周圍、食堂周圍、教學樓周圍,那么當我們預測他在哪的時候,就可以從對無數經緯度坐標的分析變成對三個地點的分析。

3、特征分析

特征工程是很龐大,正如描述的那樣,數據和特征決定了機器學習的上限,而模型和算法只能逼近這個上限而已。特征工程包含了特征提取和特征選擇,由于其算法眾多且比較復雜,這里不一一介紹。特征分析首先要明確分析的單位,包括時間、空間和類型等等。就像軌跡預測中,分析每十分鐘的所在地要比分析每秒鐘的經緯度坐標要實際得多,而分析每小時的所在地又太過粗糙。然后就是特征提取,特征提取的算法有很多,線性的PCA(主成分分析)、LDA(線性判別分析)、ICA(獨立成分分析),文本的F-IDE、期望交叉熵,圖像的HOG、LBP等。特征分析的主要目的是降維、減少冗余,提高存儲計算能力。舉個不太恰當的例子,比如我們要描述二氧化碳的化學特性,有顏色、氣味、酸性、堿性、氧化性、還原性、熱穩定性等等,同樣一氧化碳也一樣,那這時候我們把這些特性降維到C和O上,那么認為由C和O的組成的一氧化碳和C和2個O組成的二氧化碳有相似的特性,都是無色無味的氣體。

二、它發生了什么?

它發生了什么包涵正常和異常,而我們通常會更加關注異常,這里也著重于異常分析。它發生了什么與它是什么在分析思路和方法上是一致的,只是針對不同的階段,比如時間上本月與上月。對于異常分析,主要有兩部分,發現異常和推送預警。推送預警比較簡單,只要注意預警的級別和推送的人。而異常發現,除了能直接觀察的異常,比如我們的學霸這次居然有一科沒及格,更多的需要注意暗物質。所謂暗物質,就是無法直接觀測的現象和關聯。還是拿我們的學霸君說,這次他依舊像往常一樣全部考了滿分,這是正常的,然而我們發現他這次考試的復習時間只有以往的一半,這就不正常了,而我們又發現這次考試題目很簡單,所以這又正常了?錯,它依舊是異常,因為考試前學霸君并不知道考試的難度,所以對于復習時間減半依舊是異常。所以,重要的事說多遍,一定要熟悉業務和多視角觀察。

在異常判斷的時候,通常會根據具體的業務設置一些系數,通過這些系數的突變來發現潛在的異常。回到剛剛那個例子,我們可以簡單的用成績與復習時間的比值作為系數。這些系數在軌跡分析中尤為重要,例如我們要分析一個人的軌跡是否異常,首先會看他是否出現在從來沒去過的地方,如果沒有,第二步則用一個軌跡的向量去分析。例如通過聚類,我們的學霸君主要出現在教室、圖書館、寢室三個地方,每個地方呆的時間假設都是每天8小時,那這時候就形成一個(8,8,8)的向量,而今天學霸的向量是(2,2,20),通過計算兩個向量的距離來發現異常,通常是歐式距離和余弦距離。

三、為什么發生?

每當發生什么的時候,我們都會問一句為什么?為什么是對數據的深層次挖掘與診斷,精確的問題診斷有利于正確的決策。一般可以用到以下的方法:

1、趨勢、同比環比

這是很簡單的方法,既觀察其過去和其他周期的情況,這里不多介紹。

2、下鉆

下鉆絕對是最常用且有效的找原因的辦法,既一層層抽絲撥繭,直到找到最根源的原因。只是在下鉆的過程中,一定要注意下鉆的區域和方向,就像挖井一樣,并不是隨便找個地方向任何方向打下去就會出水的。就拿某商場的銷售額下降來說,要找出銷售額下降的原因,首先會想到去找那些銷量減少最多的商品,比如我們發現咖啡減少最多,為什么咖啡減少呢,因為氣溫變高,人們更偏愛冷飲了。但是對比去年前年,每年這個時候咖啡都會減少,而取而代之的是冷飲的增加,它恰好彌補了咖啡的減少。所以這時我們需要變化思路,去尋找那些以往銷量很好而當下銷量很少的產品。而為了不犯上述的錯誤,我們可以分為多個層次下鉆,既一開始只關注大的分類的變化,如服裝、飲食等等,再從變化較大的類開始繼續下鉆。

3、相關分析

相關分析是對不同特征或數據間的關系進行分析,發現業務的關鍵影響和驅動因素。例如時間到春運了,車票就不好買了一樣。相關分析常用的方法有協方差、相關系數、回歸和信息熵等,其中相關系數和回歸也可以用于下面將會提到的預測。其中相關是回歸的前提,相關系數表示了兩個變量有關系,而回歸則表示兩個變量是何種關系。其中相關系數與回歸也可以延伸到典型相關分析(多元)與多元回歸。例如經典的“啤酒和尿布”,如果想要知道啤酒銷量為什么增加,可以分析下它與尿布銷量的相關性。

四、它還會發生什么?

它還會發生什么就是純粹的預測了,預測的算法有很多,但也并不是說所有的預測都需要借助難以理解的算法。比如萬精油的趨勢、增長率、同比環比、基本概率等,有的時候就很能說明問題。但在這里,還是介紹一些常用的預測方法:

1、特別的點

對于實時性和連續性要求不高的預測,這絕對是最省心省力的辦法,但是這與具體的業務深度掛鉤,所以,重要的事說多遍,一定要熟悉業務和多視角觀察。比如,我有件事情必須要給我的領導當面匯報,然而他經常不在辦公室,不是在開會就是去現場了,或者正在哪見某個客戶,然而清楚的是,他每天早上8:30-9:00之間一定會來公司打卡,那我只要這段時間在打卡機旁候著就一定能見上他一面。

2、分類與回歸

分類與回歸都是通過已知的數據構建和驗證一個函數f,使得y=f(x),對于未知的x,通過f預測y,不同在于回歸的輸出是連續的而分類的輸出是離散的。例如,我們預測明天的溫度是回歸,而預測明天是下雨天還是晴天則是分類。分類方法有邏輯回歸、決策樹、支持向量機,而回歸一般會用到線性回歸。

當然,預測算法還有很多,比如隱馬爾可夫(HMM),最大熵,CRF等等,這里也不做過多的介紹。只是需要根據預測的數據的具體情況選擇正確的方法,這些可以從我們的算法工程師們那里得到很好的建議,當然前提是我們要將數據的特點和需要預測的東西準確的告訴他們。

五、該怎么辦?

該怎么辦是數據分析的最終目的。大多數情況下,當知道了問題出在哪,為什么出這個問題的時候,都知道接下來該怎么辦了。那么接下來就介紹一些即使知道哪出問題了也不知道該怎么辦的時候可以用的方法:

1、擬合與圖論

這是在做路線規劃的時候最常用的,比如某商場頻發商品被偷的事件,我們發現有幾個地方的商品特容易被偷,那可以將這些地方串連起來,擬合成一條巡邏的路線給保安。同樣,也可以通過構建圖并用求最短路徑的算法(Dijkstra、Floyd等)構建巡邏的路徑。

2、協同過濾

協同過濾屬于是利用集體智慧的辦法,就像那個經典的面試題一樣,當你遇到一個誰也沒遇到過的問題時,你該怎么辦?那就是問那些比你更厲害的人他們會怎么辦。協同過濾最多的是用在推薦引擎之中,一般的方式是尋找一個用戶的n個相似用戶,然后推薦給這個用戶他相似用戶喜歡的產品,或者找到當前用戶喜歡的前n個物品,然后挑選出和這n個物品相似的m個物品推薦給當前用戶。即使不用在推薦,它的思想也很容易延伸在其他方面,比如一個新手偵探不知道這個案件怎么破,那可以去看看柯南君類似的案件破案的步驟。

數據分析不是算法與可視化的堆砌,需要我們對業務深入的了解。

(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢