日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

億信ABI

一站式數據分析平臺

ABI(ALL in one BI)是億信華辰歷經19年匠心打造的國產化BI工具,技術自主可控。它打通從數據接入、到數據建模與處理、再到數據分析與挖掘整個數據應用全鏈路,可滿足企業經營中各類復雜的分析需求,幫助企業實現高效數字化轉型。

億信ABI

一站式數據分析平臺

億信華辰深耕商業智能十多年,
打造一體化的填報、處理、可視化平臺。

從相關性分析到有監督學習,淺談數據挖掘分析

時間:2020-09-14來源:知乎瀏覽數:440

相關性分析是我們做數據分析時最常用的一種方法。我們在對業務進行分析時,都會思考哪幾個環節時相互影響的,通過層層推理,找到工作中的關鍵問題,從而改進業務,提高工作效率。業務環節相互影響,在數據上的體現就是具有相關性。

我們按照數據的類型來說下,在做數據分析時會碰到哪些相關性分析。

首先,是連續型變量(數值)之間的相關性,這也是最常碰到的。我們會用相關系數來分析,最常用的當然是皮爾遜(Pearson)相關系數,取值-1到1之間,絕對值越接近于1表示相關性越強,正負表示正相關和負相關。另外還有Spearman相關系數和Kendall相關系數,應用的條件不同,在此不深入介紹了。實際上我們一般分析都是線性相關性,連續型變量的相關性除了用相關系數來分析外,還可以用散點圖來分析。

如果存在線性相關性,在散點圖上會趨近一條直線。
另外,就是連續型變量和分類型(字符型)變量之間的相關性了,這就計算不了相關系數了,在這里可以用方差分析來判斷他們之間的相關性,方差分析實際上在檢驗幾組樣本的均值是否相等,就像做對照實驗一樣,把連續型變量按照分類型變量的取值進行分組,再比較每組的均值是否相等,相等說明分組對連續型變量的取值沒有影響,說明他們之間沒有相關性,反之,他們是有相關性的。

最后,就是分類型變量之間的相關性,可以使用列聯表來分析,進行卡方檢驗,可以得到是否相關的結論。

大致說了相關性分析之后,我們再來看有監督學習。有監督學習是機器學習里的概念,是指從有標記的訓練數據中推到出預測函數,具體來說就分類和回歸問題。其實,我們也可以從相關性分析的角度來理解有監督學習,這里的有標記的數據,實際上就是我們要分析的數據字段,相關性分析時我們往往只是在分析兩個字段,1對1 的,而有監督學習,我們要分析的是多個字段了,是多對1了,分析多個字段綜合起來與一個字段的相關性,這個1就是訓練數據中的標記字段,如果這個標記字段是分類型的,就是分類問題,如果這個標記字段是連續型的,就是回歸問題,可以說有監督學習的本質還是在做相關性分析,只是更加復雜了,不是一個相關系數能描述的規律了,往往我們得到的復雜的預測函數。這個函數描述了標記字段和多個影響因素之間的相關性,例如最好理解的2種模型:性回歸方程和決策樹。

在大數據時代,我們收集到的數據越來越多,我們分析的手段也要越來越深入了,從簡單的數據可視化展現,慢慢的要過渡到更深層次的數據規律探索了,相關性分析是個很好的起點。更多干貨,下次再分享哦。

(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢