- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2019-01-02來源:數據分析瀏覽數:1075次
數據分析是一個巨大的項目,有時過于抽象,依賴于經驗。本文是作者對學習和實踐數據科學的分析的總結。我希望提供一般的數據分析思想,并在分析的每個步驟中介紹相關的分析算法及其應用場景。對于算法,僅使用淺層。
在進行任何數據分析之前,您應該首先準備以下內容:
首先,熟悉業務,了解數據來源。
這是數據分析的前提。除了我們面臨的數據之外,數據分析更多地是隱藏在這些數據背后的各種服務。例如,當我們看到用戶的消費記錄時,它不僅可以在收銀系統中購買商品,還可以獲得會員系統全部減少的訂單,活動管理系統的開放折扣產品或推薦系統的推薦。深入了解業務有助于更好地識別分析的維度,并快速查明問題和原因。
二,明確分析的目的。
數據分析不是模型算法和可視化的積累,而是有目的地發現支撐某些決策的某些現象。因此,在分析之前,我們必須明確定義我們分析的目的,避免復制其他項目的分析內容,或隨機組合手頭的分析模型算法,這將導致對結果的分析。
三,多角度觀察。
要實現某種分析,您需要從多個角度觀察數據,這樣您不僅可以全面了解整個數據,還可以幫助發現潛在的新見解。例如,當我們需要找到潛在的成員時,最直接的方法當然是看看更多但不是成員的消費者。但從促銷活動的角度來看,那些熱衷于購買打折商品的人也是潛在會員,因為他們在加入會員時會獲得更多折扣。同時,從推薦系統的角度來看,對推薦系統推薦的產品感到滿意的人更有可能加入會員計劃。
準備好之后,讓我們開始分析并開始分析。
第一,什么是數據分析?
數據分析必須針對某些對象,首先要做的是通過數據描述這個對象。
1.基本統計
統計是最簡單的方法,應用起來也非常簡單。常用方法包括總和,平均值,最大值和最小值,中值,方差,增長率,類型比率,分布,頻率等。這里沒有太多介紹。
2.聚類
“物體聚集在一起,人們被分組?!?聚類是無監督學習。群集可以將一組數據劃分為多個類別。每個類別中的數據類似,但兩個類別不同。群集有助于發現數據分布的特征,并可以大大減少分析的數據量。例如,在軌跡分析和預測中,通過聚類,我們會發現一個人主要出現在宿舍周圍,食堂周圍,教學樓周圍的三個地方,所以當我們預測他在哪里時,你可以從緯度和經度。坐標分析成為對三個位置的分析。
3.特征分析
特征工程非常龐大。如上所述,數據和特征決定了機器學習的上限,模型和算法只能接近這個上限。特征工程包括特征提取和特征選擇。由于其眾多且復雜的算法,因此這里不再介紹。特征分析從明確分析單位開始,包括時間,空間和類型。就像在軌跡預測中一樣,分析每十分鐘的位置比分析每秒緯度和經度的坐標更加實際,并且分析時間的位置太粗糙。然后是特征提取。有許多算法可用于特征提取,線性PCA(主成分分析),LDA(線性判別分析),ICA(獨立成分分析),文本F-IDE,
第二,數據發生了什么?
它發生了什么是正常的和異常的。我們通常更關注異常,所以我也會關注異常分析。數據發生的情況與用于分析的想法和方法一致,但僅適用于不同階段,例如當前月份和上個月。對于異常分析,有兩個主要部分,異常和推送警告。只要你注意警告的級別和推動它的人,推動警告就相對簡單了。除了可以直接觀察到的異常之外,異常發現可能需要更多關注他們的“暗物質”。所謂的暗物質是一種無法直接觀察到的現象和相關性。?
在判斷異常的情況下,通常根據具體業務設置一些系數,并通過這些系數的變異發現潛在的異常。這些系數在軌跡分析中尤為重要。例如,如果我們想分析一個人的軌跡是否異常,我們首先會看到他是否出現在一個從未見過的地方。如果不是,則第二步使用軌跡矢量進行分析。例如,通過聚類,校長主要出現在教室,圖書館和他們的家中。假設每個地方花費的時間是每天8小時,因此形成了一個矢量-(8,8,8)。如果我們采用另一個矢量(2,2,20),我們可以通過計算兩個矢量之間的距離來找到異常,通常是歐幾里德距離和余弦距離。
第三,為什么會發生?
每當事情發生時,我們都會問為什么。深度挖掘和數據診斷是我們如何探究問題的原因,準確的問題診斷有利于做出正確的決策。通常可以使用以下方法:
1.年度趨勢分析
這是一個非常簡單的方法,既可以觀察我們的數據的過去和其他周期,更不用說這里了。
2.深入研究
鉆探絕對是找到因果關系的最常見和最有效的方法,包括分層和拉動,直到找到根本原因。在鉆井過程中,我們必須注意鉆井的面積和方向,就像挖井一樣。它不只是尋找任何方向的方向來獲取水。取決于某個商場的銷售下降。為了找出銷售下滑的原因,首先,我想找到銷量下降幅度最大的產品。比如說,我們發現咖啡減少最少,我們應該問為什么咖啡銷量會減少。
如果我們需要改變我們的策略并尋找過去銷售良好并且銷售額很低的產品,我們可以深入分析多個級別,首先只關注大的分類變化,例如衣服,飲食等,然后繼續從較大的類中深入研究。
3.相關分析
相關性分析是分析不同特征或數據之間的關系,以發現關鍵影響和業務驅動因素。常用的相關分析方法是協方差,相關系數,回歸和信息熵。相關系數和回歸也可用于將在下面討論的預測。相關性是回歸的前提,相關系數表明兩個變量之間存在關系,而回歸則表明兩個變量之間的關系。相關系數和回歸也可以擴展到典型的相關分析(多變量)和多元回歸。例如,經典的“啤酒和尿布問題” -如果你想知道啤酒銷量增加的原因,
4.還有什么會對數據產生影響?
然后我們使用我們的數據進行預測。有許多算法用于進行預測,但并非所有預測分析都需要用難以理解的算法來解決。例如,行業趨勢,增長率,同比率,基本概率等,有時可以解釋問題。但在這里,我將介紹一些常見的預測方法:
1.特別要點
對于低實時性和連續性要求的預測,這絕對是最無憂的方法,但這與特定業務有關,因此必須熟悉業務和多視角觀察。
2.分類和回歸
分類和回歸都構造并驗證來自已知數據的函數,使得y = f(x)。對于未知的x,用f預測y。不同之處在于回歸的輸出是連續的,并且分類的輸出是離散的。例如,我們預測明天的溫度將與今天的溫度相同,并預測明天是下雨還是晴天是一種分類。分類方法包括邏輯回歸,決策樹和支持向量機,而回歸分析通常使用線性回歸。
當然,仍然存在許多預測算法,例如隱馬爾可夫(HMM),最大熵,CRF等。僅需要基于預測數據的細節選擇正確的方法。當然,如果我們想要準確地告訴數據的特征和需要預測的事情,這些可以是我們算法工程師的非常好的建議。
5.我該怎么辦?
怎么做才是數據分析的最終目標。讓我們介紹一些可以使用的方法,即使您知道問題是什么并且不知道該怎么做:
1.擬合和圖論
這是規劃路線規劃時最常用的。例如,當商店經常被搶劫時,我們可以在最容易被盜的地方偷運。然后我們可以連接這些地方并將它們安裝到保安人員的巡邏中。類似地,您可以通過構建圖形并使用找到最短路徑的算法(Dijkstra,Floyd等)來構建巡邏路徑。
2.協作過濾
協同過濾是一種使用集體智慧的方式。就像經典的面試問題一樣,當你遇到一個從未遇到過的問題時,你應該怎么做?答案是詢問那些比你更有經驗的人。協作過濾在推薦引擎中使用最多。總的想法是找到?類似用戶在特定的用戶,則建議用戶喜歡的產品,或者找到的第一個?當前用戶喜歡的項目,然后選擇米類似項目?項目推薦給當前用戶。?
數據分析師也有一種非常普遍的情況。這是在您獲取數據時,但沒有固定目的。這稱為探索性分析。在這種情況下,借助數據分析工具,我們可以做一些一般的探索性分析,查看數據趨勢,并逐步深化我們的見解。
?
下一篇:商業智能和數據倉庫相關性...