- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2022-07-05來源:和你遇見瀏覽數:241次
數據離散程度的度量,接近 0,離散度小,越大,離散程度也大;極差就是最大最小值之間的差值;一個包含 0 或 100 的數據集,與一個 [0,50,...,50,100] 的極差相同;一種更復雜的離散度的度量方式為方差(variance);因為方差很難理解,是原始值的平方,所以一般習慣使用標準差
1.1描述單個數據集
描述數據集簡單的方式就是用列表去描述:num_friends = [100, 99, 41, 25]
對于足夠量小的數據集上述描述已經足夠明確,但是數據集較大時,該方法既不實用,也不直觀,盯著 100 萬的數看顯然不夠直觀,就需要用統計學來提取和表達數據的相關特征;第一種方式就是使用 Counter 和 plt.bar 將數量放入直方圖中;利用 Counter 統計每一個數字出現的次數; # -*- coding: utf-8 -*-"""Spyder EditorAThis is a temporary script file."""from collections import Counterimport matplotlib.pyplot as pltnum_friends = [100, 55, 99, 24, 24, 55]friend_counts = Counter(num_friends)xs = range(101)ys = [friend_counts[x] for x in xs]plt.bar(xs, ys)plt.axis([, 101, , 5])plt.title("Histogram of Friend Counts")plt.xlabel("# of freinds")plt.ylabel("# of people")plt.show()

1.2中心傾向
通常了解數據中心,一般采用均值;如果有兩個數據點,均值就是它們的中間點;當添加更多數據點時,均值也會隨之移動;有時候也會對中位數(median)感興趣,是中間的點值或者中間兩個點的均值,取決于數據集是奇數還是偶數;中位數的一個泛化概念是中位數(quantile),標識在排序后的數據中某個百分比位置的值(中位數表示在 50% 位置的數據的值); # -*- coding: utf-8 -*-"""Spyder EditorAThis is a temporary script file."""from typing import Listdef quantile(xs:List[float], p:float) -> float:p_index = int(p * len(xs))return sorted(xs)[p_index]print(quantile([1, 3, 4, 1, 2], 0.25)) #1眾數(mode):出現次數最多的一個或多個值; # -*- coding: utf-8 -*-"""Spyder EditorAThis is a temporary script file."""from typing import List,Counterdef mode(xs: List[float]) -> List[float]:"""因為眾數可能有多個,所以需要返回一個列表"""counts = Counter(xs)max_counts = max(counts.values())return [x_i for x_i, count in counts.items() if count == max_counts]print(mode([1,2,3,41,1,2])) #[1, 2]1.3離散度
離散度(dispersion):數據離散程度的度量,接近 0,離散度小,越大,離散程度也大;極差就是最大最小值之間的差值;一個包含 0 或 100 的數據集,與一個 [0,50,...,50,100] 的極差相同;一種更復雜的離散度的度量方式為方差(variance);因為方差很難理解,是原始值的平方,所以一般習慣使用標準差;

1.4相關
比如想要看用戶在網站上花費的時間與其在該網站上擁有的朋友數量相關;命名一個為 daily_minutes 的列表,該列表中的元素與之前 num_friends 列表的元素對應,以進一步探索關系;協方差:方差的孿生兄弟;方差衡量單個變量對其均值的偏離程度,協方差衡量兩個變量對其均值的共同偏離程度;


上一篇:教練式管理工具與技術...
下一篇:智能制造10步走...