- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2022-05-25來源:花落未央瀏覽數:3442次
數據分類真的很復雜,絕對不是簡簡單單拖出來一個腦圖就能解決問題的。其中最麻煩的地方,是對業務的深刻理解,以及各自管理范圍和管理對象的梳理。
? ? 關于數據資產目錄的分類,這篇文章給了一個方法,即MS-MS-MO,就是管理主體(WHO)、管理范圍”WHERE“、管理對象”WHAT",即誰,在哪些業務范圍,具體管理那些數據,不過講得有點復雜。
正好自己也在做企業數據資產目錄,有一個不成熟的想法拋出來供大家討論,就是分類要以“客戶為中心”的原則,有兩個要點,第一,要符合你的企業的業務人員使用習慣,第二,維護的成本要低,下面是三個建議:
1、管理主體可以按照業務部門分,也可以按照業務部門的類別分,這個應該是比較簡單的。
2、管理范圍就是業務子域,確定業務子域要么根據業務架構來,如果沒搞過業務架構,那就基于現有業務組織的層級架構來定,有些行業雖然有領域劃分的最佳實踐,比如文中提到的證券等等,我覺得可以參考,但不要硬套,因為最終你的目錄是給你的業務部門使用的,不是給一個理性人用的,同時要考慮目錄運維的難度。
3、確定了業務子域后,可以再按照這個子域所轄的系統去劃分,然后再到這個系統的表和字段,簡單粗暴好管理。數據分類容易陷入理想化的困境,但其實業務人員根本不Care你的分類是不是嚴謹,它更關注的是好理解,方便使用,站在用戶的角度思考問題,也許可以走出分類的困境。
其實他們之前做過數據一輪數據資產盤點,做了一個分類,也掛到系統上了,但是后來就沒有后來了。治理做一半,等于啥也沒干。
我之前在群里開了一個玩笑,數據治理這種事情,就跟洗澡一樣,首先得勤快點洗。一天不洗澡,身上就臭了。
另外,標準也很重要,南方和北方對“洗干凈”的定義不一樣。南方洗澡的時候,只要泡泡沖干凈,就算洗干凈了。北方洗澡的時候,身上不搓下來二斤泥都不叫洗干凈了。

還有,洗澡得全面,有些人洗澡不洗頭還說得過去,但是洗澡只洗左胳膊,這算咋回事?最后,洗完澡得維護,水得擦干啊,衣服得換干凈的,不要到外面踩泥巴,要講衛生?。〉呛芏嗳苏J為數據治理就是弄個項目就完事的。這就像是中世紀的歐洲,一生就洗三次澡,出生一次,結婚一次,入殮一次。其他時間都靠香水度日
所以數據治理不是立一個項目就完事的,要么在家弄個浴室,要么定期去外面大眾浴室,條件好可以再叫個搓澡的師傅,上個奶鹽。
這不,跟長時間沒洗澡一樣,長“數據虱子”了,各種指標爆炸、數據質量低下等問題讓數據部門的彭友非常難受,所以他們又要開始做數據治理了。
首先要做的就是數據資產盤點,建立數據資產目錄。盤點的時候好說,就是各種整理唄。
但是到建立數據資產目錄的時候就傻眼了,他們先是按照自己的理解整了一版目錄結構。
但是在把數據資產裝進去的時候就發現有些數據資源不屬于現有的任何一個分類,然后又來調整,但是一會兒又發現有些數據資源放這里也行,放在那里也行,這就蒙圈了

這是因為沒有把握住數據分類的原則。具體可以分為:
1、全量:能夠容納組織全量數據資產;
2、系統:數據分類必須系統化、體系化,層次清晰、邏輯鮮明,形成具有隸屬和并列關系的分類體系,展示數據之間的聯系和區別;
3、規范:目錄名稱要能準確的表達該類目的實際內涵和外延,在整個目錄中保持規范;
4、唯一:目錄體系內,各自界限分明,盡可能保證不重復、不交叉、相互獨立且唯一;
5、穩定可擴展:建立的數據分類要保持一定的穩定性,保持一段時間內的可持續使用,并保留可擴展的余地。
數據分類其實來源于信息分類法,一共有三種:線分類法、面分類法、混合分類法。
線分類法:簡單來說,就是將數據按選定的若干個屬性或特征,逐次分為若干層級, 每個層級又分為若干類別。
同一分支的同層級類別之間構成并列關系,不同層級類別之間構成隸屬關系。同層級類別互不重復,互不交叉。
線分類法適用于針對一個類別只選取單一分類維度進行分類的場景。最典型的線分類法就是生物分類系統,有一個學科專門研究這個,叫“生物分類學”。

你仔細看看上面的圖,就知道線分類法有很大的局限:一個分類只能描述單一的邏輯復雜一點就沒法弄了,比如集團中有好幾個不同的業態...
面分類法:就是把數據依據各種屬性或特征,分成相互之間沒有隸屬關系即彼此獨立的面,每個面中都包含了一組類別。
還可以將某個面中的一種類別和另外的一個或多個面的一種類別組合在一起,可以組成一個復合類別。

比如服裝,有材料、顏色、款式等多個面,可以自由搭配組成任意內容。下面這個例子則是螺絲的面分類法,可以分為材料、直徑、釘頭、表面處理:
面分類法是并行化分類方式,同一層級可有多個分類維度。面分類法適用于對一個類別同時選取多個分類維度進行分類的場景。
混合分類法:顧名思義,就是線分類+面分類結合咯。一般來說,還是得以某一個方法為主,另外一個為輔。
這下就能集合兩種方式的優點,規避它們各自的缺點了。比如用面分類法解決多業態的問題,再用線分類法細化;或者用線分類法搞定前面幾層,再用面分類法進行細化。
會后,彭友還找我要PPT。講真,不是老彭我小氣,關鍵是我還真沒有專門為這個事情做一個PPT。因為這些內容其實早就有很全的指導了,比如《證券期貨數據分類分級指南》里就很全:

這張圖把業務、數據和數據表現形態之間的關系表現的很清楚。我們需要從業務、數據和形態三個視角對數據分類進行理解。
其中,最先要了解的,就是業務。業務可以按條線和子類進行拆分,就算是集團公司,也能拆的很清晰。
然后從業務角度,向下再進行拆解,從數據角度進行分類。所以數據角度的第一個層級應該是業務主題域,而不是純粹的數據角度。
數據分類應該從主題域不斷細分,直到最細顆粒度。一般來說,在數據資產目錄里,是要能看到詳細的樣例數據,并能申請API訪問權限的。在這個時候,我們需要對數據進行分級,便于進行權限分配和安全管控。
最下面,其實不是數據的分類,而是數據的展示形態。數據最終是要在系統中用業務流程、數據查詢、報表分析、大屏展示等各種形態利用起來的。
一般來說,數據分類、分級會在兩個領域出現,一個是數據資產目錄建設,一個是數據安全管控。
數據資產目錄這邊偏分類多一些,因為數據資產太多了,需要歸歸堆,沒有一個樹形的目錄體系,根本沒辦法查找。
當然,樹形目錄的弊端也很多,比如查找困難等。所以現在又出現了多分類、標簽等方法,輔助進行數據資源的檢索。
數據安全管控的方式一般是針對不同級別的數據,施行對應的管控手段,限制人數、可訪問范圍,所以安全這邊主要是數據的分級。
比如《工業數據分類分級指南(試行)》把數據分為一、二、三級,也就是一般、重要、核心數據。《基礎電信企業數據分類分級方法》中按重要敏感程度,把數據分為第四級、第三級、第二級、第一級,大概意思就是高敏感、敏感、不敏感、公開。
所以,分類和分級,是兩個工作。根據其目的,側重點不一樣,先做那個,取決于當前主推那個任務。從老彭參與的項目上來看,一般來說,先做數據盤點,整理數據資產目錄的較多。也就是先進行數據分類的情況較多。
數據分類主要有線分類法、面分類法和混合分類法三種。但是線分法和面分法都有其局限性,所以我們常見的數據分類,還是采用折中的混合分類法較多。
同時,數據分類跟行業屬性、業務也有非常大的關系。
以政務數據分類為例,《貴州省政務數據分類分級指南》中建議政務數據可以采用主題分類、行業分類和服務分類三種分類方法。
本標準采用多維度和線分類法相結合的方法,在主題、行業和服務三個維度對貴州省政府數據進行 分類,對于每個維度采用線分類法將其分為大類、中類和小類三級。業務部門可以根據業務需要,對數據分類進行小類之后的細分。對小類的細分,各部門可以根據業務數據的性質、功能、技術手段等一系 列問題進行擴展細分。本標準采用面分類法將政府數據按照多個維度進行關鍵詞的標簽構造。
按主題分類的方法,可將貴州省政府數據分為以下大類:綜合政務、經濟管理、國土資源、能源、工業、交通、郵政、信息產業、城鄉建設、環境保護、農業、水利、財政、商業、貿易、旅游、服務業、氣象、水文、測繪、地震、對外事務、政法、監察、科技、教育、文化、衛生、體育、軍事、國防、勞動、人事、民政、社區、文秘、行政、綜合黨團。
按行業分類的方法,則將貴州省政府數據分為以下大類:農、林、牧、漁業;采礦業;制造業;電力、熱力、燃氣及水生產和供應業;建筑業;批發和零售業;交通運輸、倉儲和郵政業;住宿和餐飲業;信息傳輸、軟件和信息技術服務業;金融業;房地產業;租賃和商務服務業;科學研究和技術服務業;水利、環境和公共設施管理業;居民服務、修理和其他服務業;教育;衛生和社會工作;文化、體育和娛樂業;公共管理、社會保障和社會組織;國際組織。
以電信數據分類為例,《基礎電信數據分類分級方法》中主要采用線分類的方法,對電信數據進行完整的分類。
根據基礎電信企業業務運營特點和企業內部管理方法,收集企業內所有部門的數據資源,梳理所有數據資源。按照線分類法,按照業務屬性(或特征),將基礎電信企業數據分為若干數據大類,然后按照大類內部的數據隸屬邏輯關系,將每個大類的數據分為若干層級,每個層級分為若干子類,同一分支的同層級子類之間構成并列關系,不同層級子類之間構成隸屬關系。所有數據類及數據子類構成數據資源目錄樹,如圖1所示。目錄樹的所有葉子節點是最小數據類。最小數據類是指屬性(或特征)相同或相似的一組數據。

電信的數據分類如下:
用戶相關數據:
1.用戶身份相關數據(用戶身份相關數據、用戶網絡身份相關數據)2.用戶服務內容數據3.用戶服務衍生數據(用戶服務使用數據、設備信息)
4.用戶統計分析類數據(用戶使用習慣和行為分析數據、用戶上網行為相關統計分析數據)
企業自身相關數據:
1.網絡與系統的建設與運行維護類數據(建設類數據、網絡與系統資源類數據、網絡與系統運維類數據、網絡安全管理類)
2.業務運營類數據(業務運營服務數據、公開業務運營服務數據)
3.企業管理數據(發展戰略與重大決策、業務發展、技術研發類、運行管理類、生產經營類、綜合管理類)
4.其他數據(合作方提供數據)以證券數據分類為例,《證券期貨數據分類分級指引》中主要采用線分類的方法,按照業務條線,對證券數據進行完整的分類。證券的數據分類如下:(以數據匯集型會管單位數據分類為例)1.交易(交易管理、結算管理、行情管理、發行管理、會員管理/機構管理、投資者管理、產品管理)2.監管(監察與評價管理、研究報告、信息披露管理)3.其他(標準化管理、業務管理、技術管理、綜合管理)
其實上篇已經把數據分類的基本方法論說過一遍了。有些彭友覺得不太解渴。今天我們就好好學習一下《證券期貨數據分類分級指引》中的內容。可參考性還是很大的。首先放一張體系圖:

這張圖上篇已經講過了,這里就不復述一遍了?!吨敢防镞€給出了具體的分類分級的流程:

參考上面的圖,《指引》中把數據分類分為兩個階段,即業務細分階段和數據歸類階段,每個階段細分不同的步驟。在業務細分階段,參考他們提出的MS-MS方法(管理主體-管理范圍),將業務進行細分。

管理主體就是“WHO”,管理范圍就是“WHERE”,這兩個對象一確定,就說清楚了是“誰”具體負責“哪里”的事情,職責范圍就清晰了,業務條線自然而然就劃分出來了。
業務細分一共分為四個步驟:
步驟一:確定業務一級子類——基本業務條線。參考《證券期貨行業數據模型》確定的業務條線作為基礎。對!數據分類和模型是緊密關聯的!??!
步驟二:確定每個業務條線下所有的業務管理主體(MS)。
步驟三:確定每個業務管理主體對應的管理范圍,明確對應關系(MS-MS)
步驟四:命名映射關系——業務二級子類。
此方法可以在每一層都這么用,無限套娃,理論上可以把所有的業務細分到足夠細的顆粒度,直到每個人。
但是我們分類的時候一般就分個3、4級就行了,在《指引》里,建議用MS-MS劃分一次就行,剩下的層級放在數據歸類階段進行。
在數據歸類階段,參考他們提出的MS-MO(管理范圍、管理對象)方法,對數據進行歸類。

MS-MO方法其實也很好理解。管理范圍就是延續上面“MS-MS”后面的MS。匯總起來就是MS-MS-MO,就是管理主體(WHO)、管理范圍”WHERE“、管理對象”WHAT",即誰,在哪些業務范圍,具體管理那些數據。
數據歸類總共也分為四步:
步驟一:明確各個業務二級子類的管理范圍(MS)。
步驟二:確定業務二級子類的管理范圍對應的管理對象(MS-MO),即找到業務二級子類下的全部數據。
步驟三:按照數據細分方法對各個“單類業務數據總和”分別細分,得到數據一級子類。

步驟四:命名數據一級子類。
然后,就是對已劃分明確的數據一級子類進一步細分,細分后產生一個或者多個數據子集:

經過上面的兩大階段,8個小步驟,就能得到一個完整的數據分類目錄:


數據分類真的很復雜,絕對不是簡簡單單拖出來一個腦圖就能解決問題的。其中最麻煩的地方,是對業務的深刻理解,以及各自管理范圍和管理對象的梳理。這時候最容易陷入到企業組織本身的缺陷當中。比如A部門和B部門的職責不清晰,管理范圍有交叉、對同一個管理對象都有管理權力,這時候我們就無法劃分清楚數據的Owner,也無法確定某個指標的具體負責人到底是誰。