日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

數據資產管理:數據目錄怎么搞?

時間:2022-07-18來源:可愛的親一口瀏覽數:1292

數據治理與數據資產目錄數據治理定義了數據管理的總體策略,規定了數據管理的組織、制度和流程,明確了數據的權屬,定義了數據標準,為數據資產管理指明方向。數據資產目錄是數據治理策略的具體執行,以業務友好的方式展示企業的數據資產和位置,幫助用戶更好地找到、理解和使用他們的數據。

經過了站在業務視角的自上而下的數據梳理,以及站在IT視角的自下而上的數據盤點,一套“熱騰騰”的數據資產清單終于新鮮出爐了。通過數據資產盤點,企業終于知道他們擁有哪些數據、如何使用數據、是否安全以及數據在哪里。?然而,據筆者觀察,業內大多數的數據資產盤點工作是通過手工作業的方式進行的,使用Excel工具進行記錄。請不要小瞧這種方式,Excel手工盤點數據資產的方式之所以是主流,證明其簡單易用、方便靈活、協作敏捷的特點是被廣泛認可的。這里要提醒廣大的數據產品經理們注意了:如果你能涉及出一款比Excel還靈活、好用的數據盤點工具,一定會大受歡迎!可能有人要問,數據梳理的再好,盤點的再清晰,那輸出的也只不過是一堆Excel,對企業沒有什么價值???

是的。這個時候就需要“數據資產目錄”來發揮他的作用了!

01 ?數據資產目錄是什么?

我經常將書的目錄與數據目錄進行類比,翻開一本書的目錄,它會告訴你這本書寫了啥、內容結構、作者的寫作思路等,如果你對某一章節感興趣,通過目錄就可以快速找到這想看的內容。圖書目錄起到提綱挈領,綱舉目張的作用。數據資產目錄也一樣,它也有都有“字典”的作用,能夠幫助企業相關業務和技術人員快速定位數據,解釋數據,找到數據,并從中提取業務價值。1、數據資產目錄的本質數據資產目錄本質上就是一個元數據的存儲庫,它提供特定范圍內所有數據資產的清單,無論其位置或來源如何。數據目錄包括有關數據資產的關鍵屬性信息,例如:名稱、業務含義、類型、大小、模式和其他相關屬性。數據資產目錄支持數據治理,包括:數據的分類分級,數據權限的管理,識別冗余和不一致的數據并為數據血緣分析和影響分析奠定了基礎。2、數據資產目錄與數據目錄數據資產目錄和數據目錄本質上是一樣的,都是元數據管理。在項目實踐中,數據目錄也叫數據資源目錄,一般是指通過元數據管理工具,對相關數據源(業務系統數據庫、數據倉庫、數據湖等)的元數據進行采集,而形成的數據目錄。由于直接采集過來的基本都是數據庫表結構、數據流、ETL腳本、數據庫操作日志等技術元數據,所以數據目錄要有一定的技術基礎才能看懂,而且它的定位就是給技術人員看的。

而數據資產目錄是數據目錄的子集,更多是站在業務的視角,以利益相關者的數據需求為目標對那些預期能夠為企業帶來價值的數據進行分類分級,業務元數據定義、打標簽,授權等。請參考:《數據資產管理:企業的數據資產怎么盤?》

02 數據資產目錄為何如此重要?

數據驅動是企業數字化轉型的重要手段,而這一目標的需要業務人員能夠快速定位、充分理解和有效利用數據。隨著企業數據體量的不斷增多和數據結構復雜度的增加,數據資產目錄在企業數字化轉型過程中,將發揮越來越大的作用。1、數據資產目錄對業務人員至關重要通常情況下,說到管理數據、準備數據、分析數據,那都是IT的事,業務用戶對 IT 的技術語言和工具感到困惑。然而,只有讓業務人員能夠隨時找到和理解了數據,才能將其轉化為有用的信息和有價值的業務洞察力,以便指導業務實施改進。如果跨部門的關鍵業務決策者不能信任數據,如果他們無法理解數據,如果他們找不到數據,那么他們就無法利用數據來發現他們的業務問題,優化他們的業務。數據資產目錄是一個有組織的數據資產清單,他不僅包含了IT人員擅長的數據庫表、數據結構、數據流等技術元數據,還包含了數據的數據定義、同義詞、使用方式、存儲位置、數據所有者、數據管理者、數據上架時間等關鍵業務屬性。數據資產目錄為業務人員提供了一個理解數據、集中定位數據、快速訪問和評估數據的入口,以便更快、更有效地進行數據洞察和分析。數據資產目錄通過識別數據所有者、管理者和主題專家來實現跨部門協作,因此業務人員在遇到緊急的數據問題時知道該去哪里找。數據資產目錄屏蔽了底層技術復雜性,提供了數據血緣的查詢能力,使業務用戶能夠了解其數據的來源以及數據流轉和加工的全鏈路,而無需或不必了解底層的數據采集、加工算法和過程。借助數據資產目錄,業務用戶可以輕松溝通并確保他們使用正確的數據,以便在正確的時間以正確使用獲得最大的結果。2、數據資產目錄不只服務于業務人員除了業務人員,數據資產目錄的用戶還包括數據分析師、數據工程師、數據科學家、數據管理員和CDO等用戶,他們無不希望能夠輕松訪問到可靠的數據。數據分析師可以通過數據資產目錄了解和分析現有數據,例如:數據結構、數據安全性和數據質量,極大地增強了數據分析建模能力。數據科學家可以通過數據資產目錄進行相關數據的探索,通過利用不同的數據集并構建和評估更復雜的數據模型和算法,從數據中獲取更多的洞察力。數據工程師可以通過數據資產目錄盤查數據鏈路中的相關問題,判斷某個數據的更改將對整個系統產生哪些影響,分析不同數據集的數據結構,建立業務元數據和物理庫表字段的映射等。數據管理員可以通過數據資產目錄實時查看數據狀態,監控數據的質量,控制數據訪問權限,對關鍵數據定義數據標準,并監測貫標情況等。對于數據所有者,CDO等角色,數據資產目錄可以幫助提高運營效率并降低成本。

最后,數據資產目錄為每個用戶提供了授權和訪問控制機制,讓每個人都在其可訪問的級別更輕松地在整個企業中查找和發現數據。

03 數據資產目錄有哪些功能?

數據資產目錄不是一個單獨的系統,它是數據資產管理的重要組成功能,數據資產目錄需要配合其他數據管理工具使用,才能發揮其重要的價值。根據筆者的實踐和觀察,一個優秀的數據資產目錄,可能與數據管理組件都相關。1、元數據采集數據資產目錄支持連接多個數據源,從不同結構的數據源中提取元數據,包括:本地部署的數據源,云中的數據源,物聯網IoT數據源,非結構化數據源等。自動化元數據采集能夠幫助用戶了解整個企業的數據結構和關系,使企業能夠自動分析和發現不哪些不易發現,但卻蘊含價值的數據。2、元數據管理數據資產目錄應支持分類分級、關聯映射,打標簽,用戶自定義注釋,敏感字段識別等形式,對采集的元數據進行管理,以便讓用戶更容易理解和查找數據。這里的元數據包括了技術元數據和業務元數據。技術元數據描述了數據的詳細的存儲位置和結構,例如數據庫、字段和列信息,使IT人員能夠了解數據的物理存儲。業務元數據為用戶提供清晰的業務上下文,包括數據定義、同義詞和業務屬性,幫助用戶了解數據與其他數據集的關系以及發現數據的流動和依賴關系。3、數據血緣數據血緣反義了數據在整個企業中的端到端流動情況,作為數據資產目錄的一部分,它在數據整個生命周期中提供跟蹤和追溯,以了解數據的來源、轉換情況以及誰在使用它。通常,數據血緣是元數據管理的重要功能之一,記錄并展示了系統、表、視圖、字段等之間的關系,并采用DAG(有向無環圖)的模式進行可視化展現。簡單地說就是可視化地展示這個數據是怎么來的,經過了哪些過程和階段。4、數據標準一個數據要從數據資源轉化為數據資產必須要對其進行標準化定義,一個典型的實踐是“業務術語表”。通過數據資產目錄,建立數據標準與技術元數據的關聯映射,是實現數據標準貫標的重要手段。5、數據發現數據資產目錄支持自助服務,允許用戶輕松訪問和理解他們的數據,而無需依賴 IT 的支持。通過自動化的數據標記、分類和關系映射,用戶可以使用關鍵字、過濾器、 查詢條件等進行數據搜索,以定位、訪問和查詢數據。數據發現還提供對數據當前狀態的實時可見性,例如:數據是如何被采集、整合和使用的,是最新的數據、還是過時的數據。6、數據申請/審批數據資產目錄為用戶提供了一個基于元數據的數據資產清單,但是并不是所有用戶都對這個清單擁有全局權限。每一個數據資產都是需要經過確權認責后才能納入數據資產目錄的,只有權限范圍內的用戶才能訪問相關數據。數據資產目錄支持申請/審批功能,為用戶提供了一個訪問更多數據的機會,以提升數據資產的利用率。7、數據API服務用戶通過數據資產目錄可以找到所需的數據,數據資產目錄不僅是告訴你:數據是什么(定義),它在哪里(位置)以及該如何訪問它(所有者),一般還會提供一個基于數據目錄生成數據服務API的功能,以幫助用戶實現數據的集成共享。8、數據資產監控

提供數據資產監控功能,以熱力圖的形式展示哪些數據應用價值高,通過使用次數、使用對象、使用效果評價等指標對數據資產應用情況進行評估。根據數據資產使用情況,對數據資產目錄進行重新組織,最大化釋放數據資產價值。

04 ?數據資產目錄的建設步驟

第 1 步:數據資產盤點數據資產盤點是使用科學的數據盤點方法,以“摸清家底”為目標,對企業的數據資源進行統籌規劃,全面梳理。一方面,從業務視角對數據資源進行梳理和規劃,包括:制度文件的解讀、流程表單梳理、關鍵數據的識別等,并定義數據的分類體系和數據資產的業務屬性。另一方面,從技術視角對系統數據進行盤點,包括:數據關系、數據結構、數據存量、數據增量、存儲方式等,梳理數據資產的技術屬性。數據資產盤點的方法和步驟在《數據資產管理:企業的數據資產怎么盤?》有詳細的描述,此處不再贅述。

第 2 步:數據資產登記根據數據盤點結果,在數據資產目錄完成數據資產概要信息的登記。

數據資產登記主要包含三個方面信息:

第一,業務方面,例如:數據資產名稱,所屬數據域,所屬數據分類、數據資產描述等;

第二,技術方面,數據資產位置(哪個系統,那張表),數據資產類型(結構化數據/非結構化數據),數據資產方式(數據庫/文件/API接口)等;

第三,管理方面,數據資產所有者(歸口部門),數據資產管理員,數據資產上架時間,數據資產共享條件等。數據資產登記可以采用人工方式(據筆者觀察目前大多數是采用這種方式)或者基于AI的數據資產識別。

第 3 步:采集元數據在登記完數據資產基本信息后,接下來關鍵一步是采集數據資產的元數據。數據資產目錄使用元數據來識別數據表、文件和數據庫。元數據采集爬取公司的數據庫并將元數據(不是實際數據)帶到數據資產目錄中。由于數據資產分布在不同的位置,元數據采集的范圍包括:

關系數據庫 - Oracle、SQL Server、MySQL、DB2 等。

數據倉庫 - Teradata、Creenplum等。

存儲對象的元數據。

云平臺 - 阿里云、微軟 Azure Data Lake、AWS 的Athena 和 Red Shift。

非關系/NoSQL 數據庫 - Cassandra、MongoDB。

Hadoop大數據平臺的相關元數據采集。

BI平臺,Tableau、Power BI、國產BI軟件等。

ETL工具,Kettle、DataStage、Informatic等。?

第 4 步:標記數據關系標記關系是管理數據資產的一個重要步驟,通過這一步,用戶可以跨多個數據庫發現相關數據。例如,分析師可能需要整合的客戶信息。通過數據資產目錄,發現五個不同系統中的都有客戶數據。有了數據目錄的幫助,可以構建一個實驗區域,在那里可以連接所有數據,清理數據,然后使用合并的客戶數據來實現業務目標。為表“Accounts”標記的關系示例如下:

第 5 步:建立血緣關系標記關系后,數據目錄會構建血緣,。數據血緣的可視化表示有助于跟蹤從源到目的地的數據,它解釋了數據流中涉及的不同過程。數據分析師能夠根據數據血緣追溯分析中錯誤的根本原因。通常,ETL(Extract、Transfer、Load)工具用于從源數據庫中提取數據、轉換和清洗數據并將其加載到目標數據庫中。一些可以解析血緣關系的ETL工具包括:SQL解析、Alteryx、Informatica、Talend等。第 6 步:數據資產組織采集過來的元數據以技術格式排列,缺少表、列的中文注釋,不利于業務人員理解數據。這時候需要基于這些技術元數據構建語義層,對相關數據表、列進行中文標記,以便業務人員能夠發現、訪問和理解它們。

標記——創建數據語義層

按使用量組織——數據資產熱力圖

按特定用戶使用情況進行組織——推送至用戶的數據門戶

自動化組織,可以高級算法來組織數據

寫在最后:數據治理與數據資產目錄數據治理定義了數據管理的總體策略,規定了數據管理的組織、制度和流程,明確了數據的權屬,定義了數據標準,為數據資產管理指明方向。數據資產目錄是數據治理策略的具體執行,以業務友好的方式展示企業的數據資產和位置,幫助用戶更好地找到、理解和使用他們的數據。數據資產目錄的建設是數據治理中重要的一環,創建可訪問的數據資產目錄允許非技術人員定位和利用整個企業的數據,并自動發現企業系統中的數據源,包括業務、技術和流程的數據血緣提供了完整的數據透明度,因此用戶可以了解數據的來源、流程和依賴關系,以及數據從源頭到完成和消費的流向。因此,用戶可以快速發現數據的影響,使其適合企業業務流程并做出更明智的數據決策。數據資產目錄的構建是實現自助數據準備,自助數據分析的前提。基于數據資產目錄,業務數據分析師可以企業有哪些可用數據資源或已更新的數據資產,知道誰是數據所有者,以及這些數據資產位于哪里、如何處理它。最重要的是,基于數據資產目錄可以提高定位和查詢數據的速度和效率,以推動數據的使用,從數據中獲得洞察力,增強企業競爭力。
(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢