日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數(shù)據(jù)治理平臺(tái)

睿治作為國(guó)內(nèi)功能最全的數(shù)據(jù)治理產(chǎn)品之一,入選IDC企業(yè)數(shù)據(jù)治理實(shí)施部署指南。同時(shí),在IDC發(fā)布的《中國(guó)數(shù)據(jù)治理市場(chǎng)份額》報(bào)告中,連續(xù)四年蟬聯(lián)數(shù)據(jù)治理解決方案市場(chǎng)份額第一。

元數(shù)據(jù)及元數(shù)據(jù)管理策略、方法和技術(shù)

時(shí)間:2022-10-31來(lái)源:睜眼看見(jiàn)你瀏覽數(shù):2013

數(shù)據(jù)已經(jīng)成為增強(qiáng)企業(yè)競(jìng)爭(zhēng)力的核心要素,有效地管理和使用數(shù)據(jù)成為企業(yè)的剛需。缺乏有效的元數(shù)據(jù)管理,企業(yè)的數(shù)據(jù)資產(chǎn)可能會(huì)變成拖累企業(yè)利潤(rùn)的“包袱”。

數(shù)字化時(shí)代,企業(yè)需要知道它們擁有什么數(shù)據(jù),數(shù)據(jù)在哪里、由誰(shuí)負(fù)責(zé),數(shù)據(jù)中的值意味著什么,數(shù)據(jù)的生命周期是什么,哪些數(shù)據(jù)安全性和隱私性需要保護(hù),以及誰(shuí)使用了數(shù)據(jù),用于什么業(yè)務(wù)目的,數(shù)據(jù)的質(zhì)量怎么樣,等等。這些問(wèn)題都需要通過(guò)元數(shù)據(jù)管理解決,缺乏有效的元數(shù)據(jù)管理,企業(yè)的數(shù)據(jù)資產(chǎn)可能會(huì)變成拖累企業(yè)利潤(rùn)的“包袱”。

數(shù)據(jù)已經(jīng)成為增強(qiáng)企業(yè)競(jìng)爭(zhēng)力的核心要素,有效地管理和使用數(shù)據(jù)成為企業(yè)的剛需。越來(lái)越多的企業(yè)使用元數(shù)據(jù)管理工具來(lái)管理云計(jì)算、物聯(lián)網(wǎng)、數(shù)據(jù)湖中所產(chǎn)生的數(shù)據(jù),以便更容易地理解、更快地查找和更有效地管理企業(yè)數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)的價(jià)值。

01?元數(shù)據(jù)管理概述

沒(méi)有元數(shù)據(jù),數(shù)據(jù)其實(shí)就沒(méi)有任何意義。元數(shù)據(jù)看起來(lái)只是一堆毫無(wú)意義的文字和數(shù)字,但本質(zhì)上它為企業(yè)的各類數(shù)據(jù)提供了上下文環(huán)境,使企業(yè)能夠更好地了解、管理和使用數(shù)據(jù)。

1.1 什么是元數(shù)據(jù)?元數(shù)據(jù)是關(guān)于數(shù)據(jù)的組織、數(shù)據(jù)域及其關(guān)系的信息,簡(jiǎn)言之,元數(shù)據(jù)就是描述數(shù)據(jù)的數(shù)據(jù)。概念總是生澀的,對(duì)于沒(méi)有IT背景的人來(lái)說(shuō)比較抽象,不容易理解,下面舉幾個(gè)例子。

示例1:歌詞中的元數(shù)據(jù)有一首很多80后耳熟能詳?shù)母枨小缎》肌罚柙~中有這么一句:“村里有個(gè)姑娘叫小芳,長(zhǎng)得好看又善良。”我們對(duì)這句歌詞做一下分析。姓名,小芳;性別,姑娘(女);長(zhǎng)相,好看;性格,善良;住址,村里。“小芳”是被描述的對(duì)象,而“姓名”“性別”“長(zhǎng)相”“性格”“住址”就是描述“小芳”的元數(shù)據(jù)。

示例2:戶口本中的元數(shù)據(jù)戶口本中除了有姓名、身份證號(hào)、出生日期、住址、民族等信息外,還有家庭關(guān)系,如夫妻關(guān)系、父子關(guān)系、兄弟關(guān)系等。這些信息就是描述一個(gè)人的元數(shù)據(jù),通過(guò)戶口本中的元數(shù)據(jù),我們不僅能夠了解一個(gè)人的基本信息,還能夠了解其家庭關(guān)系。

示例3:圖書館中的元數(shù)據(jù)圖書館都會(huì)用一個(gè)叫作“圖書目錄”的文件夾來(lái)管理藏書,圖書目錄包含圖書名稱、編號(hào)、作者、主題、簡(jiǎn)介、擺放位置等信息,用來(lái)幫助圖書管理員管理和快速查找圖書。元數(shù)據(jù)就如同圖書館的圖書目錄一樣,能夠幫助數(shù)據(jù)管理員管理數(shù)據(jù)。

示例4:元數(shù)據(jù)好比字典字典包含一個(gè)字的注音、含義、組詞、舉例等基本信息及其字體結(jié)構(gòu)、相關(guān)引用、出處等。另外,我們可以通過(guò)拼音或偏旁部首查到這個(gè)字。所有這些信息都是對(duì)這個(gè)字的詳細(xì)描述,它們就是描述這個(gè)字的元數(shù)據(jù)。

示例5:元數(shù)據(jù)就像地圖地圖是按一定比例運(yùn)用線條、符號(hào)、顏色、文字注記等描繪顯示地球表面的自然地理、行政區(qū)域、社會(huì)經(jīng)濟(jì)狀況的圖。通過(guò)地圖,您能夠找到自己所處的地理位置,了解您從哪里來(lái),到哪里去,途中要路過(guò)哪些地方。元數(shù)據(jù)也具備這樣的特點(diǎn),它能夠幫助企業(yè)了解自己有哪些數(shù)據(jù),這些數(shù)據(jù)存放在哪里,數(shù)據(jù)的來(lái)源、去向及加工路徑等。元數(shù)據(jù)與數(shù)據(jù)的不同之處在于:元數(shù)據(jù)描述的不是特定的實(shí)例或記錄,IT部門和業(yè)務(wù)部門都需要高質(zhì)量的元數(shù)據(jù)來(lái)理解現(xiàn)有數(shù)據(jù);元數(shù)據(jù)是比一般意義上的數(shù)據(jù)范疇更加廣泛的數(shù)據(jù),不僅表示數(shù)據(jù)的類型、名稱、值等信息,還提供數(shù)據(jù)的上下文描述,比如數(shù)據(jù)的所屬業(yè)務(wù)域、取值范圍、數(shù)據(jù)間的關(guān)系、業(yè)務(wù)規(guī)則、數(shù)據(jù)來(lái)源等。

可以用5W1H模型來(lái)理解元數(shù)據(jù),如表1所示。

表1? 用5W1H模型理解元數(shù)據(jù)

1.2?元數(shù)據(jù)的3種類型

按照不同應(yīng)用領(lǐng)域或功能,元數(shù)據(jù)一般大致可分為三類:業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)和操作元數(shù)據(jù)。

1.2.1?業(yè)務(wù)元數(shù)據(jù)

業(yè)務(wù)元數(shù)據(jù)描述數(shù)據(jù)的業(yè)務(wù)含義、業(yè)務(wù)規(guī)則等。明確業(yè)務(wù)元數(shù)據(jù)可以讓人們更容易理解和使用業(yè)務(wù)元數(shù)據(jù)。元數(shù)據(jù)消除了數(shù)據(jù)二義性,讓人們對(duì)數(shù)據(jù)有一致的認(rèn)知,避免“自說(shuō)自話”,進(jìn)而為數(shù)據(jù)分析和應(yīng)用提供支撐。常見(jiàn)的業(yè)務(wù)元數(shù)據(jù)有:

業(yè)務(wù)定義、業(yè)務(wù)術(shù)語(yǔ)解釋等;

業(yè)務(wù)指標(biāo)名稱、計(jì)算口徑、衍生指標(biāo)等;

業(yè)務(wù)引擎的規(guī)則、數(shù)據(jù)質(zhì)量檢測(cè)規(guī)則、數(shù)據(jù)挖掘算法等;

數(shù)據(jù)的安全或敏感級(jí)別等。

1.2.2?技術(shù)元數(shù)據(jù)

技術(shù)元數(shù)據(jù)是結(jié)構(gòu)化處理后的數(shù)據(jù),方便計(jì)算機(jī)或數(shù)據(jù)庫(kù)對(duì)數(shù)據(jù)進(jìn)行識(shí)別、存儲(chǔ)、傳輸和交換。技術(shù)元數(shù)據(jù)可以服務(wù)于開(kāi)發(fā)人員,讓開(kāi)發(fā)人員更加明確數(shù)據(jù)的存儲(chǔ)、結(jié)構(gòu),從而為應(yīng)用開(kāi)發(fā)和系統(tǒng)集成奠定基礎(chǔ)。技術(shù)元數(shù)據(jù)也可服務(wù)于業(yè)務(wù)人員,通過(guò)元數(shù)據(jù)厘清數(shù)據(jù)關(guān)系,讓業(yè)務(wù)人員更快速地找到想要的數(shù)據(jù),進(jìn)而對(duì)數(shù)據(jù)的來(lái)源和去向進(jìn)行分析,支持?jǐn)?shù)據(jù)血緣追溯和影響分析。常見(jiàn)的技術(shù)元數(shù)據(jù)有:

物理數(shù)據(jù)庫(kù)表名稱、列名稱、字段長(zhǎng)度、字段類型、約束信息、數(shù)據(jù)依賴關(guān)系等;

數(shù)據(jù)存儲(chǔ)類型、位置、數(shù)據(jù)存儲(chǔ)文件格式或數(shù)據(jù)壓縮類型等;

字段級(jí)血緣關(guān)系、SQL腳本信息、ETL信息、接口程序等;

調(diào)度依賴關(guān)系、進(jìn)度和數(shù)據(jù)更新頻率等。

1.2.3?操作元數(shù)據(jù)

操作元數(shù)據(jù)描述數(shù)據(jù)的操作屬性,包括管理部門、管理責(zé)任人等。明確管理屬性有利于將數(shù)據(jù)管理責(zé)任落實(shí)到部門和個(gè)人,是數(shù)據(jù)安全管理的基礎(chǔ)。常見(jiàn)的操作元數(shù)據(jù)有:

  • 數(shù)據(jù)所有者、使用者等;
  • 數(shù)據(jù)的訪問(wèn)方式、訪問(wèn)時(shí)間、訪問(wèn)限制等;
  • 數(shù)據(jù)訪問(wèn)權(quán)限、組和角色等;
  • 數(shù)據(jù)處理作業(yè)的結(jié)果、系統(tǒng)執(zhí)行日志等;
  • 數(shù)據(jù)備份、歸檔人、歸檔時(shí)間等。

元數(shù)據(jù)的分類及實(shí)例見(jiàn)表2。表2? 元數(shù)據(jù)的分類(以“客戶”信息為例)

1.3?元數(shù)據(jù)的6個(gè)作用

在信息世界,元數(shù)據(jù)的主要作用是對(duì)數(shù)據(jù)對(duì)象進(jìn)行描述、定位、檢索、管理、評(píng)估和交互。

?描述:對(duì)數(shù)據(jù)對(duì)象的內(nèi)容、屬性的描述,這是元數(shù)據(jù)的基本功能,是各組織、各部門之間達(dá)成共識(shí)的基礎(chǔ)。

定位:有關(guān)數(shù)據(jù)資源位置方面的信息描述,如數(shù)據(jù)存儲(chǔ)位置、URL等記錄,可以幫助用戶快速找到數(shù)據(jù)資源,有利于信息的發(fā)現(xiàn)和檢索。

?檢索:在描述數(shù)據(jù)的過(guò)程中,將信息對(duì)象中的重要信息抽出標(biāo)引并加以組織,建立它們之間的關(guān)系,為用戶提供多層次、多途徑的檢索體系,幫助用戶找到想要的信息。

管理:對(duì)數(shù)據(jù)對(duì)象的版本、管理和使用權(quán)限的描述,方面信息對(duì)象管理和使用。

評(píng)估:由于有元數(shù)據(jù)描述,用戶在不瀏覽具體數(shù)據(jù)對(duì)象的情況下也能對(duì)數(shù)據(jù)對(duì)象有個(gè)直觀的認(rèn)識(shí),方便用戶的使用。

交互:元數(shù)據(jù)對(duì)數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)關(guān)系的描述方便了數(shù)據(jù)對(duì)象在不同部門、不同系統(tǒng)之間進(jìn)行流通和流轉(zhuǎn),并確保流轉(zhuǎn)過(guò)程中數(shù)據(jù)標(biāo)準(zhǔn)的一致性。 元數(shù)據(jù)以數(shù)字化方式描述企業(yè)的數(shù)據(jù)、流程和應(yīng)用程序,為企業(yè)數(shù)字資產(chǎn)的內(nèi)容提供了上下文,使得數(shù)據(jù)更容易理解、查找、管理和使用。準(zhǔn)確的元數(shù)據(jù)是必不可少的,也是迅速、有效地對(duì)數(shù)據(jù)去粗取精的關(guān)鍵。沒(méi)有元數(shù)據(jù),數(shù)據(jù)就毫無(wú)意義,只不過(guò)是一堆數(shù)字或文字而已。因此,對(duì)于元數(shù)據(jù)的有效管理是企業(yè)數(shù)據(jù)治理的基礎(chǔ)。

1.4?什么是元數(shù)據(jù)管理

根據(jù)維基百科的定義,元數(shù)據(jù)管理是指與確保正確創(chuàng)建、存儲(chǔ)和控制元數(shù)據(jù),以便在整個(gè)企業(yè)中一致地定義數(shù)據(jù)有關(guān)的活動(dòng)。元數(shù)據(jù)管理是對(duì)涉及的業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)、操作元數(shù)據(jù)進(jìn)行盤點(diǎn)、集成和管理。采用科學(xué)有效的機(jī)制對(duì)元數(shù)據(jù)進(jìn)行管理,并面向開(kāi)發(fā)人員、業(yè)務(wù)用戶提供元數(shù)據(jù)服務(wù),可以滿足用戶的業(yè)務(wù)需求,為企業(yè)業(yè)務(wù)系統(tǒng)和數(shù)據(jù)分析的開(kāi)發(fā)、維護(hù)等過(guò)程提供支持。可以從技術(shù)、業(yè)務(wù)和應(yīng)用三個(gè)角度理解元數(shù)據(jù)管理。

技術(shù)角度:元數(shù)據(jù)管理著企業(yè)的數(shù)據(jù)源系統(tǒng)、數(shù)據(jù)平臺(tái)、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)模型、數(shù)據(jù)庫(kù)、表、字段以及字段間的數(shù)據(jù)關(guān)系等技術(shù)元數(shù)據(jù)。

業(yè)務(wù)角度:元數(shù)據(jù)管理著企業(yè)的業(yè)務(wù)術(shù)語(yǔ)表、業(yè)務(wù)規(guī)則、質(zhì)量規(guī)則、安全策略以及表的加工策略、表的生命周期信息等業(yè)務(wù)元數(shù)據(jù)。

應(yīng)用角度:元數(shù)據(jù)管理為數(shù)據(jù)提供了完整的加工處理全鏈路跟蹤,方便數(shù)據(jù)的溯源和審計(jì),這對(duì)于數(shù)據(jù)的合規(guī)使用越來(lái)越重要。通過(guò)數(shù)據(jù)血緣分析,追溯發(fā)生數(shù)據(jù)質(zhì)量問(wèn)題和其他錯(cuò)誤的根本原因,并對(duì)更改后的元數(shù)據(jù)進(jìn)行影響分析。企業(yè)元數(shù)據(jù)管理的主要活動(dòng)包括:

  • 創(chuàng)建并記錄主題領(lǐng)域的實(shí)體和屬性的數(shù)據(jù)定義;
  • 識(shí)別數(shù)據(jù)對(duì)象之間的業(yè)務(wù)規(guī)則和關(guān)系;
  • 證明數(shù)據(jù)內(nèi)容的準(zhǔn)確性、完整性和及時(shí)性;
  • 建立和記錄內(nèi)容的上下文(數(shù)據(jù)血緣、數(shù)據(jù)影響的全鏈路跟蹤分析);
  • 為多樣化的數(shù)據(jù)用戶提供一系列上下文理解,包括用于合規(guī)性、內(nèi)部控制和更好決策的可信數(shù)據(jù);
  • 為技術(shù)人員提供元數(shù)據(jù)信息,支持?jǐn)?shù)據(jù)庫(kù)或應(yīng)用的開(kāi)發(fā)。

1.5?元數(shù)據(jù)管理的3個(gè)目標(biāo)

企業(yè)元數(shù)據(jù)管理的本質(zhì)是有效利用企業(yè)數(shù)據(jù)資產(chǎn),讓數(shù)據(jù)發(fā)揮出盡可能大的價(jià)值。元數(shù)據(jù)管理可以幫助業(yè)務(wù)分析師、系統(tǒng)架構(gòu)師、數(shù)據(jù)倉(cāng)庫(kù)工程師和軟件開(kāi)發(fā)工程師等相關(guān)干系人清楚地知道企業(yè)擁有什么數(shù)據(jù),它們存儲(chǔ)在哪里,如何抽取、清理、維護(hù)這些數(shù)據(jù)并指導(dǎo)用戶使用。以下元數(shù)據(jù)管理目標(biāo)是企業(yè)的普遍訴求。

1.5.1?建立指標(biāo)解釋體系

滿足用戶對(duì)業(yè)務(wù)和數(shù)據(jù)理解的需求,建立標(biāo)準(zhǔn)的企業(yè)內(nèi)部知識(shí)傳承的信息承載平臺(tái),建立業(yè)務(wù)分析知識(shí)庫(kù),實(shí)現(xiàn)知識(shí)共享。能夠回答以下問(wèn)題:

企業(yè)有哪些數(shù)據(jù)?

什么是企業(yè)有效客戶?有效客戶和客戶有何區(qū)別? 什么是產(chǎn)品的生命周期? 這個(gè)數(shù)據(jù)還叫什么名字? 數(shù)據(jù)倉(cāng)庫(kù)中的存儲(chǔ)過(guò)程是誰(shuí)寫的?它用來(lái)干什么?現(xiàn)在還在用嗎? 典型應(yīng)用有數(shù)據(jù)資源目錄和業(yè)務(wù)術(shù)語(yǔ)表。

1.5.2?提高數(shù)據(jù)溯源能力

讓用戶能夠清晰地了解數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)流的來(lái)龍去脈、業(yè)務(wù)處理規(guī)則、轉(zhuǎn)換情況等,提高數(shù)據(jù)的溯源能力,支持?jǐn)?shù)據(jù)倉(cāng)庫(kù)的成長(zhǎng)需求,降低因員工換崗造成的影響。元數(shù)據(jù)有助于回答以下問(wèn)題:

這張表是從哪個(gè)業(yè)務(wù)系統(tǒng)中抽取過(guò)來(lái)的?

ETL過(guò)程是否對(duì)數(shù)據(jù)進(jìn)行過(guò)加工處理?進(jìn)行了哪些處理? 指標(biāo)數(shù)據(jù)是從哪些表匯總計(jì)算出來(lái)的? 典型應(yīng)用有血緣分析、影響分析、全鏈路分析。

1.5.3?數(shù)據(jù)質(zhì)量稽核體系通過(guò)非冗余、非重復(fù)的元數(shù)據(jù)信息提高數(shù)據(jù)完整性、準(zhǔn)確性。元數(shù)據(jù)管理解決的問(wèn)題是如何將業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)分門別類地進(jìn)行管理,建立報(bào)警、監(jiān)控機(jī)制,出現(xiàn)故障時(shí)能及時(shí)發(fā)現(xiàn)問(wèn)題,為數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)質(zhì)量監(jiān)控提供基礎(chǔ)素材。能夠回答以下問(wèn)題:

今天的在線用戶數(shù)為什么是0?

為什么A報(bào)表中的本月收入值與B報(bào)表中的不同? 典型應(yīng)用有指標(biāo)標(biāo)準(zhǔn)和數(shù)據(jù)質(zhì)量規(guī)則。

1.6?元數(shù)據(jù)管理的4個(gè)挑戰(zhàn)

盡管企業(yè)越來(lái)越意識(shí)到元數(shù)據(jù)管理的重要性,但是在實(shí)際的數(shù)據(jù)治理中,元數(shù)據(jù)管理技術(shù)和方法仍面臨著很多挑戰(zhàn)。

1.6.1?局部的元數(shù)據(jù)管理雖然很多企業(yè)已經(jīng)意識(shí)到元數(shù)據(jù)管理能夠創(chuàng)建對(duì)數(shù)據(jù)的統(tǒng)一描述并確保數(shù)據(jù)的一致性,但是,目前國(guó)內(nèi)企業(yè)的元數(shù)據(jù)管理多數(shù)是建立在新建系統(tǒng)或數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目的局部治理上,而不是企業(yè)級(jí)的元數(shù)據(jù)管理,特別是對(duì)于企業(yè)采購(gòu)的套裝軟件的治理顯得十分薄弱。主要原因是,要將中央元數(shù)據(jù)倉(cāng)庫(kù)的元數(shù)據(jù)與套裝軟件產(chǎn)生的元數(shù)據(jù)進(jìn)行匹配和映射,需要做大量工作。有的企業(yè)的元數(shù)據(jù)管理平臺(tái)成為擺設(shè),或者只有部分IT人員在用,很少甚至完全沒(méi)有嘗試在整個(gè)企業(yè)中使用和推廣集中化的元數(shù)據(jù)。這在一定程度上限制了企業(yè)數(shù)據(jù)資產(chǎn)的共享或重用。因此,元數(shù)據(jù)管理需要全局、集中化的管理策略。

1.6.2?手動(dòng)的元數(shù)據(jù)管理在企業(yè)元數(shù)據(jù)管理項(xiàng)目的實(shí)施中,需要花費(fèi)很長(zhǎng)的時(shí)間來(lái)完成元數(shù)據(jù)的梳理和定義、元數(shù)據(jù)適配器的開(kāi)發(fā)、元數(shù)據(jù)的采集、元數(shù)據(jù)的維護(hù)等任務(wù)。這些任務(wù)絕大多數(shù)是需要人工手動(dòng)處理的,手動(dòng)的元數(shù)據(jù)管理和維護(hù)十分煩瑣且容易出錯(cuò),這使得項(xiàng)目的成本提高,交付的周期變長(zhǎng)。因此,元數(shù)據(jù)管理需要更加有效的方法和自動(dòng)化程度更高的工具。

1.6.3?日趨復(fù)雜的數(shù)據(jù)環(huán)境大數(shù)據(jù)時(shí)代,隨著越來(lái)越多的非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)滲透到企業(yè)的數(shù)字環(huán)境中,采用傳統(tǒng)的元數(shù)據(jù)管理方式來(lái)采集、處理和檢索元數(shù)據(jù)變得越來(lái)越具有挑戰(zhàn)性。尤其是在處理復(fù)雜的數(shù)據(jù)關(guān)系時(shí),雖然人們很容易根據(jù)認(rèn)知關(guān)聯(lián)來(lái)判斷兩個(gè)或多個(gè)事物是否相關(guān),但目前的元數(shù)據(jù)管理工具卻常常無(wú)法做到。因此,元數(shù)據(jù)管理需要更智能化的技術(shù)。

1.6.4?數(shù)據(jù)的頻繁變化企業(yè)的數(shù)據(jù)是在數(shù)據(jù)供應(yīng)鏈中不斷移動(dòng)的。這里所說(shuō)的數(shù)據(jù)供應(yīng)鏈,是指從數(shù)據(jù)創(chuàng)建到數(shù)據(jù)的加工處理、存儲(chǔ)使用的整個(gè)生命周期鏈條。隨著數(shù)據(jù)的不斷創(chuàng)建、抽取和轉(zhuǎn)換,有關(guān)數(shù)據(jù)來(lái)源、血緣、轉(zhuǎn)換過(guò)程、質(zhì)量級(jí)別以及與其他數(shù)據(jù)的關(guān)系的元數(shù)據(jù)也會(huì)隨時(shí)變化。企業(yè)需要將自動(dòng)化算法和規(guī)則應(yīng)用于數(shù)據(jù)資產(chǎn)管理中,自動(dòng)識(shí)別和生成元數(shù)據(jù),減少手動(dòng)維護(hù)的情況,從而確保元數(shù)據(jù)描述準(zhǔn)確可靠。1.7?元數(shù)據(jù)管理的4個(gè)階段

從元數(shù)據(jù)的發(fā)展歷史來(lái)看,元數(shù)據(jù)管理主要經(jīng)歷了4個(gè)階段:分布式橋接階段、中央存儲(chǔ)庫(kù)階段、元數(shù)據(jù)倉(cāng)庫(kù)階段、智能化管理階段(見(jiàn)圖1)。圖1? 元數(shù)據(jù)管理的4個(gè)階段

1.7.1?分布式橋接階段分布式的元數(shù)據(jù)管理使用元數(shù)據(jù)橋?qū)崿F(xiàn)不同工具間的元數(shù)據(jù)集成,這是一種點(diǎn)到點(diǎn)的元數(shù)據(jù)體系結(jié)構(gòu)。分布式的橋接方式自然會(huì)導(dǎo)致分布式的元數(shù)據(jù)分發(fā)機(jī)制,這違背了數(shù)據(jù)倉(cāng)庫(kù)“集中存儲(chǔ),統(tǒng)一視圖”的處理原則,也是它的主要弱點(diǎn)。用這種方式集成元數(shù)據(jù)會(huì)大幅增加開(kāi)發(fā)和維護(hù)費(fèi)用,而且通常將一種格式的元數(shù)據(jù)轉(zhuǎn)換為另一種格式時(shí),都會(huì)有一定的信息損失。分布式的元數(shù)據(jù)結(jié)構(gòu)需要對(duì)互相共享元數(shù)據(jù)的數(shù)據(jù)庫(kù)進(jìn)行同步,尤其是重復(fù)元數(shù)據(jù)的更新須被檢測(cè)并通告,以保持一致性。

1.7.2?中央存儲(chǔ)庫(kù)階段建立具有特定目標(biāo)和需求的元數(shù)據(jù)中央存儲(chǔ)庫(kù),由它來(lái)統(tǒng)一采集、存儲(chǔ)、控制和分發(fā)元數(shù)據(jù)。例如,CRM、SCM等應(yīng)用系統(tǒng)從中央存儲(chǔ)庫(kù)中檢索、使用元數(shù)據(jù)。在這種模式下,元數(shù)據(jù)依然在局部產(chǎn)生和被獲取,但會(huì)集中到中央存儲(chǔ)庫(kù)進(jìn)行存儲(chǔ),業(yè)務(wù)元數(shù)據(jù)會(huì)手工錄入中央存儲(chǔ)庫(kù)中,技術(shù)元數(shù)據(jù)分散在文檔中的部分也通過(guò)手工錄入中央存儲(chǔ)庫(kù)中,而散落在各個(gè)中間件和業(yè)務(wù)系統(tǒng)中的技術(shù)元數(shù)據(jù)則通過(guò)數(shù)據(jù)集成的方式被讀取到中央存儲(chǔ)庫(kù)中。業(yè)務(wù)元數(shù)據(jù)和技術(shù)元數(shù)據(jù)之間全部或部分通過(guò)手工方式進(jìn)行了關(guān)聯(lián)。每個(gè)應(yīng)用系統(tǒng)都必須實(shí)現(xiàn)它自己的數(shù)據(jù)庫(kù)訪問(wèn)層(另一種形式的橋接),各大BI工具廠商通常都保證它們的工具本身就能夠支持元數(shù)據(jù)管理,例如Informatica的Metadata Manager、IBM的MetaStage。然而在具體實(shí)現(xiàn)中,它們的工具只是提供橋梁,從像Oracle這樣的RDBMS、Hyperion Essbase之類的MDDB、BusinessObjects之類的報(bào)表工具,甚至像ERWin這樣的數(shù)據(jù)建模工具中提取信息,然后將提取出的信息存儲(chǔ)到一個(gè)集中式的中央存儲(chǔ)庫(kù)中。使用元數(shù)據(jù)中央存儲(chǔ)庫(kù)可以在一定程度上解決定義全局可用且被廣泛理解的元數(shù)據(jù)的需求,使元數(shù)據(jù)在整個(gè)企業(yè)層面可被感知和搜索,極大地方便企業(yè)獲取和查找元數(shù)據(jù)。但這并沒(méi)有完全根除問(wèn)題:元數(shù)據(jù)仍然在各業(yè)務(wù)系統(tǒng)上維護(hù),然后更新到中央存儲(chǔ)庫(kù),各業(yè)務(wù)豎井之間仍然使用不同的命名法,經(jīng)常會(huì)造成相同的名字代表不同意義的對(duì)象,而同一個(gè)對(duì)象則使用了多個(gè)不同的名字,有些沒(méi)有納入業(yè)務(wù)系統(tǒng)管理的元數(shù)據(jù)則容易缺失。中央存儲(chǔ)庫(kù)仍然需要使用元數(shù)據(jù)橋,無(wú)法根除受制于特定廠商的問(wèn)題。

1.7.3?元數(shù)據(jù)倉(cāng)庫(kù)階段元數(shù)據(jù)倉(cāng)庫(kù)遵循基于CWM(公共倉(cāng)庫(kù)元模型)的元數(shù)據(jù)管理策略。CWM是用來(lái)輸入、輸出共享公共倉(cāng)庫(kù)元數(shù)據(jù)的一個(gè)完全的語(yǔ)法和語(yǔ)義規(guī)范,提供了一個(gè)描述數(shù)據(jù)源、數(shù)據(jù)目標(biāo)、轉(zhuǎn)換、分析和處理的元數(shù)據(jù)管理基礎(chǔ)框架,為不同工具和產(chǎn)品的元數(shù)據(jù)共享和交換提供了一個(gè)切實(shí)可行的標(biāo)準(zhǔn)。通過(guò)構(gòu)建基于CWM的元數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)源、ETL工具、各類報(bào)表和BI工具、各類數(shù)據(jù)庫(kù)系統(tǒng)的元數(shù)據(jù)有了一致的標(biāo)準(zhǔn),各軟件工具只需要建立一個(gè)與元數(shù)據(jù)倉(cāng)庫(kù)連接的CWM適配器就能實(shí)現(xiàn)相互之間的元數(shù)據(jù)交換或共享。與中央存儲(chǔ)庫(kù)模式相比,基于CWM的元數(shù)據(jù)倉(cāng)庫(kù)模式更新數(shù)據(jù)更加及時(shí),并支持增量元數(shù)據(jù)的版本管理,而中央存儲(chǔ)庫(kù)的元數(shù)據(jù)更新周期通常在一天以上,并且需要將所有不同時(shí)期的元數(shù)據(jù)都存儲(chǔ)下來(lái)才能支持元數(shù)據(jù)版本管理。但本質(zhì)上,元數(shù)據(jù)倉(cāng)庫(kù)模式并沒(méi)有多大變化,業(yè)務(wù)元數(shù)據(jù)仍然需要手動(dòng)補(bǔ)錄,業(yè)務(wù)元數(shù)據(jù)和技術(shù)元數(shù)據(jù)之間大多還是需要通過(guò)手工方式進(jìn)行映射,因此管理成本無(wú)法降低很多。當(dāng)前,大部分企業(yè)的元數(shù)據(jù)管理處于中央存儲(chǔ)庫(kù)和元數(shù)據(jù)倉(cāng)庫(kù)這兩個(gè)階段。

1.7.4?智能化管理階段在這個(gè)階段,元數(shù)據(jù)管理的特點(diǎn)是自動(dòng)化、智能化,通過(guò)與人工智能、機(jī)器學(xué)習(xí)等技術(shù)融合,實(shí)現(xiàn)元數(shù)據(jù)提取、整合、維護(hù)等多個(gè)過(guò)程的自動(dòng)化和智能化。

(1)元數(shù)據(jù)提取

對(duì)于半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù),例如文本文件、音視頻文件,采用文本識(shí)別、圖像識(shí)別、語(yǔ)音識(shí)別、自然語(yǔ)言處理等技術(shù),自動(dòng)發(fā)現(xiàn)和提取其元數(shù)據(jù),形成有價(jià)值的數(shù)據(jù)資源池。

(2)元數(shù)據(jù)整合

在元數(shù)據(jù)的整合方面,通過(guò)語(yǔ)義模型,標(biāo)簽體系自動(dòng)采集相關(guān)的技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù),自動(dòng)建立技術(shù)元數(shù)據(jù)與業(yè)務(wù)元數(shù)據(jù)的關(guān)系,并將其存儲(chǔ)進(jìn)元數(shù)據(jù)存儲(chǔ)庫(kù)中。

(3)元數(shù)據(jù)維護(hù)

在人工智能技術(shù)的幫助下,元數(shù)據(jù)的管理和維護(hù)更加智能,例如:通過(guò)自定義規(guī)則探查元數(shù)據(jù)的一致性,并自動(dòng)提醒更新和維護(hù),確保元數(shù)據(jù)質(zhì)量;通過(guò)語(yǔ)義分析為元數(shù)據(jù)自動(dòng)打標(biāo)簽,實(shí)現(xiàn)元數(shù)據(jù)的自動(dòng)化編目等。在這個(gè)階段,邏輯層次元數(shù)據(jù)的變更會(huì)被傳播到物理層次,同樣,物理層次變更時(shí),邏輯層次將被更新。元數(shù)據(jù)中的任何變化都會(huì)觸發(fā)業(yè)務(wù)工作流,以便其他業(yè)務(wù)系統(tǒng)進(jìn)行相應(yīng)的修改。

02?元數(shù)據(jù)管理方法

從實(shí)施層面來(lái)看,元數(shù)據(jù)管理包括業(yè)務(wù)目標(biāo)理解、元數(shù)據(jù)需求規(guī)劃、元數(shù)據(jù)設(shè)計(jì)、元數(shù)據(jù)管理體系的設(shè)計(jì)等

2.1?業(yè)務(wù)目標(biāo)理解

元數(shù)據(jù)管理是利用可視化的用戶體驗(yàn),基于靈活、健壯的元數(shù)據(jù)管理架構(gòu),實(shí)現(xiàn)企業(yè)數(shù)據(jù)資產(chǎn)的標(biāo)準(zhǔn)化、集中化管理。企業(yè)實(shí)施元數(shù)據(jù)管理需要首先從理解業(yè)務(wù)需求入手,只有理清了業(yè)務(wù)需求和目標(biāo),才能做出合理的元數(shù)據(jù)規(guī)劃。通常企業(yè)實(shí)施元數(shù)據(jù)管理的主要業(yè)務(wù)訴求如下。

(1)建立企業(yè)數(shù)據(jù)資產(chǎn)目錄

數(shù)據(jù)即資產(chǎn)的理念已經(jīng)得到企業(yè)的廣泛認(rèn)可。面對(duì)不斷增長(zhǎng)、不斷變化、日益復(fù)雜的數(shù)據(jù)環(huán)境,企業(yè)需要數(shù)據(jù)資產(chǎn)的簡(jiǎn)單發(fā)現(xiàn)和跟蹤能力。通過(guò)管理元數(shù)據(jù),企業(yè)能夠快速發(fā)現(xiàn)數(shù)據(jù)資產(chǎn)的分布和關(guān)系,形成企業(yè)數(shù)據(jù)資產(chǎn)目錄。

(2)消除冗余,加強(qiáng)數(shù)據(jù)復(fù)用

通過(guò)元數(shù)據(jù)管理,建立基于CWM的元數(shù)據(jù)倉(cāng)庫(kù),實(shí)現(xiàn)企業(yè)元數(shù)據(jù)的統(tǒng)一管理,并將元數(shù)據(jù)倉(cāng)庫(kù)作為“單一數(shù)據(jù)源”,為企業(yè)的應(yīng)用開(kāi)發(fā)提供可復(fù)用的數(shù)據(jù)模型和元數(shù)據(jù)標(biāo)準(zhǔn),以實(shí)現(xiàn)元數(shù)據(jù)的重復(fù)利用,減少冗余或未使用數(shù)據(jù),從而提高工作效率,降低軟件開(kāi)發(fā)成本,縮短項(xiàng)目交付時(shí)間。

(3)降低因人員流動(dòng)而導(dǎo)致知識(shí)流失的風(fēng)險(xiǎn)

企業(yè)重要的數(shù)據(jù)資產(chǎn)常常因關(guān)鍵員工的調(diào)離或離職而“消失”,這里所謂的“消失”通常并不是因?yàn)閱T工將數(shù)據(jù)惡意刪除或拿走,而是企業(yè)數(shù)據(jù)資產(chǎn)的存放方式、存儲(chǔ)位置等關(guān)鍵數(shù)據(jù)都只留在關(guān)鍵員工的大腦中,一旦該員工離開(kāi)公司,數(shù)據(jù)資產(chǎn)也就隱沒(méi)在“茫茫數(shù)海”中了!而統(tǒng)一的元數(shù)據(jù)管理能夠降低企業(yè)這種數(shù)據(jù)“消失”的風(fēng)險(xiǎn)。

(4)提供數(shù)據(jù)血緣探查能力,提高數(shù)據(jù)分析的質(zhì)量

數(shù)據(jù)來(lái)自什么地方以及如何產(chǎn)生、處理和交付數(shù)據(jù),這為用戶提供了重要的背景知識(shí)。探查源系統(tǒng)中的數(shù)據(jù)可以暴露和解決數(shù)據(jù)的不準(zhǔn)確、不一致問(wèn)題,從而提升數(shù)據(jù)的質(zhì)量。此外,元數(shù)據(jù)的統(tǒng)一管理,提供變更管理、版本控制等能力為不斷變更的業(yè)務(wù)需求所帶來(lái)的影響提供了支撐,并加快了新應(yīng)用開(kāi)發(fā)項(xiàng)目和數(shù)據(jù)集成項(xiàng)目的開(kāi)發(fā)速度。開(kāi)發(fā)人員可以依賴統(tǒng)一、標(biāo)準(zhǔn)的元數(shù)據(jù)來(lái)輕松、準(zhǔn)確地確定他們的項(xiàng)目所需的數(shù)據(jù),從而節(jié)約項(xiàng)目開(kāi)發(fā)成本,提升項(xiàng)目交付效率。

2.2?元數(shù)據(jù)需求規(guī)劃

在充分理解企業(yè)元數(shù)據(jù)管理訴求和目標(biāo)之后,需要進(jìn)行元數(shù)據(jù)規(guī)劃,設(shè)計(jì)元數(shù)據(jù)管理策略,以促進(jìn)元數(shù)據(jù)目標(biāo)的實(shí)現(xiàn)。元數(shù)據(jù)貫穿企業(yè)數(shù)據(jù)資產(chǎn)流動(dòng)的全過(guò)程,主要包括數(shù)據(jù)源的元數(shù)據(jù)、數(shù)據(jù)采集的元數(shù)據(jù)、數(shù)據(jù)倉(cāng)庫(kù)的元數(shù)據(jù)、數(shù)據(jù)集市的元數(shù)據(jù)、應(yīng)用服務(wù)層的元數(shù)據(jù)和BI層的元數(shù)據(jù)等。進(jìn)行元數(shù)據(jù)的需求規(guī)劃時(shí),需要了解清楚企業(yè)的數(shù)據(jù)環(huán)境,明確數(shù)據(jù)資產(chǎn)的分布,明確數(shù)據(jù)的流向和路徑,從而進(jìn)一步確定元數(shù)據(jù)在數(shù)據(jù)庫(kù)環(huán)境中的存儲(chǔ)情況,如數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)字典、數(shù)據(jù)關(guān)系、報(bào)表工具、其他第三方系統(tǒng)或工具等,以及是否需要元數(shù)據(jù)梳理模板,手動(dòng)整理元數(shù)據(jù)作為補(bǔ)充等。

元數(shù)據(jù)需求規(guī)劃應(yīng)重點(diǎn)關(guān)注的需求如下。

元數(shù)據(jù)模型需求:命名規(guī)范、結(jié)構(gòu)、元素及關(guān)聯(lián)關(guān)系等。

元數(shù)據(jù)接口需求:元數(shù)據(jù)資料庫(kù)及其內(nèi)容,適配器、所有者、系統(tǒng)訪問(wèn)、元數(shù)據(jù)血緣關(guān)系等。

?元數(shù)據(jù)系統(tǒng)需求:元數(shù)據(jù)采集、元數(shù)據(jù)管理、元數(shù)據(jù)應(yīng)用等。

數(shù)據(jù)安全需求:數(shù)據(jù)的分類分級(jí)、敏感數(shù)據(jù)分布、敏感數(shù)據(jù)管理要求等。

數(shù)據(jù)質(zhì)量需求:數(shù)據(jù)質(zhì)量規(guī)則、數(shù)據(jù)標(biāo)準(zhǔn)定義等。

數(shù)據(jù)管理需求:數(shù)據(jù)管理的組織、流程、制度、考核等。 元數(shù)據(jù)需求規(guī)劃的步驟如下:

1)企業(yè)戰(zhàn)略調(diào)研:調(diào)研企業(yè)的業(yè)務(wù)發(fā)展戰(zhàn)略和主要業(yè)務(wù)領(lǐng)域的業(yè)務(wù)發(fā)展規(guī)劃,梳理IT建設(shè)的歷史、現(xiàn)狀和初步規(guī)劃。

2)數(shù)據(jù)管理調(diào)研:調(diào)研企業(yè)數(shù)據(jù)管理的背景、問(wèn)題、目標(biāo),以及企業(yè)數(shù)據(jù)管理目前的相關(guān)制度、流程和組織。

3)元數(shù)據(jù)現(xiàn)狀清單:功能性信息需求、邏輯模型、物理模型、業(yè)務(wù)術(shù)語(yǔ)字典、已有數(shù)據(jù)環(huán)境、系統(tǒng)文檔等。

4)數(shù)據(jù)問(wèn)題分析:基于現(xiàn)狀評(píng)估及成熟度評(píng)估,找出差異,定位問(wèn)題并進(jìn)行問(wèn)題根本原因分析,結(jié)合行業(yè)業(yè)務(wù)、數(shù)據(jù)發(fā)展要求,制定問(wèn)題解決優(yōu)先級(jí)計(jì)劃,并制定改進(jìn)方案。

5)制定行動(dòng)路線:元數(shù)據(jù)實(shí)施路線的制定應(yīng)聚焦企業(yè)當(dāng)前最緊迫、最重要的建設(shè)內(nèi)容,確保項(xiàng)目范圍可控、成效可見(jiàn)。

2.3?元數(shù)據(jù)規(guī)劃設(shè)計(jì)

2.3.1?元數(shù)據(jù)設(shè)計(jì)原則

每個(gè)企業(yè)的業(yè)務(wù)各不相同,元數(shù)據(jù)的設(shè)計(jì)必須圍繞其特定的業(yè)務(wù)需求展開(kāi),需要確保企業(yè)收集正確的元數(shù)據(jù)清單以解決特定的業(yè)務(wù)問(wèn)題。元數(shù)據(jù)設(shè)計(jì)應(yīng)遵循以下原則。(1)簡(jiǎn)單性與準(zhǔn)確性原則對(duì)信息對(duì)象的描述應(yīng)簡(jiǎn)單易懂,應(yīng)盡量基于共識(shí)采用業(yè)務(wù)語(yǔ)言進(jìn)行設(shè)計(jì),盡量避免使用晦澀難懂的技術(shù)語(yǔ)言。當(dāng)然,也要考慮簡(jiǎn)單化可能導(dǎo)致描述不準(zhǔn)確,需在二者之間進(jìn)行權(quán)衡。

(2)互操作性原則元數(shù)據(jù)的互操作性體現(xiàn)在對(duì)異構(gòu)系統(tǒng)間的互操作能力的支持,即在各種元數(shù)據(jù)標(biāo)準(zhǔn)下建立元數(shù)據(jù),不僅要滿足當(dāng)前應(yīng)用對(duì)數(shù)據(jù)的操作,還應(yīng)考慮在企業(yè)整體IT環(huán)境中的互操作性。

(3)可擴(kuò)展性原則企業(yè)的數(shù)據(jù)環(huán)境時(shí)刻在發(fā)生變化,因此元數(shù)據(jù)的設(shè)計(jì)應(yīng)具備一定的可擴(kuò)展性,應(yīng)允許用戶在不破壞既有標(biāo)準(zhǔn)的前提下,擴(kuò)充一些元素或?qū)傩浴?

(4)用戶需求原則元數(shù)據(jù)設(shè)計(jì)的目的是向用戶充分揭示信息資源,因此用戶需求應(yīng)作為元數(shù)據(jù)設(shè)計(jì)的最終衡量標(biāo)準(zhǔn),特別是在數(shù)據(jù)結(jié)構(gòu)與格式的設(shè)計(jì)、數(shù)據(jù)元素的增加與取舍、語(yǔ)義規(guī)則的制定等方面,要盡可能從用戶需求出發(fā),通過(guò)用戶交互和用戶反饋來(lái)完善元數(shù)據(jù)的設(shè)計(jì)。

2.3.2?元數(shù)據(jù)設(shè)計(jì)步驟

元數(shù)據(jù)設(shè)計(jì)一般分為分類、定義、獲取、發(fā)布四個(gè)步驟,并以設(shè)計(jì)結(jié)果作為基線,納入元數(shù)據(jù)平臺(tái)管理中。

(1)元數(shù)據(jù)分類

根據(jù)元數(shù)據(jù)用途及使用者的不同制定元數(shù)據(jù)分類框架,規(guī)劃業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)、操作元數(shù)據(jù)所包含的數(shù)據(jù)類型和集合。明確元數(shù)據(jù)管理的種類,如數(shù)據(jù)字典、邏輯模型、物理模型、報(bào)表定義、維度加工規(guī)則、數(shù)據(jù)映射信息、接口信息等,根據(jù)規(guī)則進(jìn)行元數(shù)據(jù)分類。

常用的元數(shù)據(jù)分類方式有以下兩種:

按照業(yè)務(wù)主題進(jìn)行組織,即通過(guò)從業(yè)務(wù)域到業(yè)務(wù)主題、實(shí)體數(shù)據(jù)、數(shù)據(jù)模型的逐層分解方式,規(guī)劃元數(shù)據(jù)的分類。這是一種站在業(yè)務(wù)視角管理元數(shù)據(jù)的方式,能夠形成業(yè)務(wù)人員容易理解的數(shù)據(jù)目錄。 按照數(shù)據(jù)源進(jìn)行組織,即通過(guò)源數(shù)據(jù)系統(tǒng)、數(shù)據(jù)表、數(shù)據(jù)結(jié)構(gòu)形式展現(xiàn)企業(yè)數(shù)據(jù)目錄,這種方式更便于IT人員使用元數(shù)據(jù)。 在實(shí)際的使用中,通常需要將兩個(gè)分類方式相結(jié)合,以形成企業(yè)級(jí)的元數(shù)據(jù)地圖。

(2)元數(shù)據(jù)定義

元數(shù)據(jù)定義就是對(duì)數(shù)據(jù)的業(yè)務(wù)屬性、技術(shù)屬性、操作屬性進(jìn)行規(guī)范化的定義,主要是描述數(shù)據(jù)屬性的信息,如屬性名稱、用途、存儲(chǔ)位置、歷史數(shù)據(jù)、文件記錄等。

(3)元數(shù)據(jù)獲取

元數(shù)據(jù)的基本要素包括業(yè)務(wù)術(shù)語(yǔ)、業(yè)務(wù)規(guī)則、報(bào)表說(shuō)明、指標(biāo)定義,技術(shù)細(xì)節(jié)包括各個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)、代碼字段取值、數(shù)據(jù)遷移與轉(zhuǎn)換規(guī)則等。以上元數(shù)據(jù)除了通過(guò)自動(dòng)化工具獲取,有時(shí)候還需要通過(guò)模板手工整理作為補(bǔ)充。對(duì)于一些數(shù)據(jù)源(例如一些老舊的信息系統(tǒng)),由于缺乏最初的元數(shù)據(jù)設(shè)計(jì),所以很難獲取到準(zhǔn)確的業(yè)務(wù)元數(shù)據(jù)。這些業(yè)務(wù)元數(shù)據(jù)更加需要業(yè)務(wù)人員的配合,由業(yè)務(wù)人員進(jìn)行補(bǔ)充,最終形成并交付業(yè)務(wù)元數(shù)據(jù)成果。

(4)元數(shù)據(jù)發(fā)布

評(píng)估和分析分散在各個(gè)應(yīng)用系統(tǒng)、各個(gè)部門中的業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)之間的關(guān)聯(lián)性,建立技術(shù)元數(shù)據(jù)與業(yè)務(wù)元數(shù)據(jù)的映射,形成企業(yè)級(jí)元數(shù)據(jù)地圖,發(fā)布元數(shù)據(jù)基線。在后續(xù)的運(yùn)維過(guò)程中,根據(jù)各業(yè)務(wù)部門的用數(shù)需求,分析判斷元數(shù)據(jù)倉(cāng)庫(kù)中是否已存在相應(yīng)的元數(shù)據(jù)。如果元數(shù)據(jù)倉(cāng)庫(kù)中已有該元數(shù)據(jù),則直接共享使用;如果元數(shù)據(jù)倉(cāng)庫(kù)中沒(méi)有,則需要確定采集方案,進(jìn)行數(shù)據(jù)采集,并對(duì)采集的元數(shù)據(jù)進(jìn)行整理完善,與生產(chǎn)庫(kù)建立映射關(guān)系,最后完成新增元數(shù)據(jù)的發(fā)布。元數(shù)據(jù)規(guī)劃設(shè)計(jì)是元數(shù)據(jù)管理實(shí)施中最重要,也是工作量最大的一個(gè)過(guò)程,這是國(guó)內(nèi)大多數(shù)企業(yè)元數(shù)據(jù)管理的現(xiàn)狀。究其原因,主要還是數(shù)據(jù)管理體系不夠成熟,也可以說(shuō)是數(shù)據(jù)不夠成熟。很多企業(yè)從一開(kāi)始就沒(méi)有完整的數(shù)據(jù)規(guī)劃,比如業(yè)務(wù)術(shù)語(yǔ)、指標(biāo)的定義,現(xiàn)在幾乎要整體倒推,獲得元數(shù)據(jù)自然就比較困難

2.4?元數(shù)據(jù)管理體系設(shè)計(jì)

在數(shù)據(jù)治理整體框架下,建立元數(shù)據(jù)管理體系,從組織、制度、流程、技術(shù)與工具等方面保障元數(shù)據(jù)的有效實(shí)施和運(yùn)營(yíng)管理,規(guī)范元數(shù)據(jù)的日常采集和處理活動(dòng),幫助企業(yè)有效管理元數(shù)據(jù)。

組織保障:明確業(yè)務(wù)牽頭部門、業(yè)務(wù)與信息化的協(xié)作關(guān)系,明確各部門數(shù)據(jù)認(rèn)責(zé)范圍。在數(shù)據(jù)治理團(tuán)隊(duì)的指導(dǎo)下,針對(duì)企業(yè)的數(shù)據(jù)管理組織現(xiàn)狀,建立公司高層支持、中層管理協(xié)調(diào)、基層執(zhí)行三個(gè)層面的數(shù)據(jù)治理組織,明確各層的工作職責(zé),為元數(shù)據(jù)管理工作提供組織保障。

制度保障:元數(shù)據(jù)管理是企業(yè)的IT基礎(chǔ)設(shè)施,涉及的系統(tǒng)較廣,需要調(diào)動(dòng)的資源較多,在實(shí)施的過(guò)程中,企業(yè)高層管理者需要給予強(qiáng)有力的支持,并制定相應(yīng)的規(guī)章制度進(jìn)行保障,這是項(xiàng)目實(shí)施持續(xù)推進(jìn)的動(dòng)力。

流程保障:為保證數(shù)據(jù)治理措施的落地執(zhí)行,需要從數(shù)據(jù)認(rèn)責(zé)、標(biāo)準(zhǔn)管理、質(zhì)量管理等多個(gè)方面進(jìn)行流程設(shè)計(jì),制定企業(yè)范圍內(nèi)數(shù)據(jù)的變更管理流程,保證信息系統(tǒng)中的數(shù)據(jù)與管理規(guī)范、數(shù)據(jù)標(biāo)準(zhǔn)的一致性。

技術(shù)與工具:搭建統(tǒng)一的元數(shù)據(jù)管理平臺(tái),實(shí)現(xiàn)企業(yè)級(jí)元數(shù)據(jù)集中管控,支持元數(shù)據(jù)采集、元數(shù)據(jù)管理、元數(shù)據(jù)共享、元數(shù)據(jù)血統(tǒng)分析、元數(shù)據(jù)影響分析、企業(yè)數(shù)據(jù)地圖等功能。

運(yùn)營(yíng)維護(hù):定義捕獲、維護(hù)業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)、操作元數(shù)據(jù),定期分發(fā)和交付元數(shù)據(jù)。

監(jiān)控管理:提供元數(shù)據(jù)的新增和變更流程,控制元數(shù)據(jù)新增、變更等操作,支持元數(shù)據(jù)的日常監(jiān)控,管理元數(shù)據(jù)版本,做好元數(shù)據(jù)的血緣分析、影響分析。

統(tǒng)計(jì)分析:元數(shù)據(jù)系統(tǒng)運(yùn)營(yíng)情況統(tǒng)計(jì)報(bào)告,支持元數(shù)據(jù)查詢、元數(shù)據(jù)使用情況分析(如冷熱度分析)等。

宣傳推廣:通過(guò)企業(yè)內(nèi)部網(wǎng)絡(luò)、會(huì)議等各種渠道,推廣元數(shù)據(jù)管理平臺(tái),提高元數(shù)據(jù)管理平臺(tái)的使用量,提升元數(shù)據(jù)在企業(yè)中的價(jià)值認(rèn)識(shí)度。

03?元數(shù)據(jù)管理技術(shù)

從技術(shù)層面來(lái)看,元數(shù)據(jù)管理技術(shù)主要包括元數(shù)據(jù)采集、元數(shù)據(jù)管理、元數(shù)據(jù)應(yīng)用和元數(shù)據(jù)接口等。

3.1?元數(shù)據(jù)采集

在數(shù)據(jù)治理項(xiàng)目中,常見(jiàn)的元數(shù)據(jù)有數(shù)據(jù)源的元數(shù)據(jù)、數(shù)據(jù)加工處理過(guò)程的元數(shù)據(jù)、數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)主題庫(kù)的元數(shù)據(jù)、數(shù)據(jù)應(yīng)用層的元數(shù)據(jù)、數(shù)據(jù)接口服務(wù)的元數(shù)據(jù)等。元數(shù)據(jù)采集服務(wù)提供各類適配器來(lái)滿足以上各類元數(shù)據(jù)的采集需求,并將元數(shù)據(jù)整合處理后統(tǒng)一存儲(chǔ)于中央元數(shù)據(jù)倉(cāng)庫(kù),實(shí)現(xiàn)元數(shù)據(jù)的統(tǒng)一管理。在這個(gè)過(guò)程中,數(shù)據(jù)采集適配器十分重要,元數(shù)據(jù)采集不僅要能夠適配各種數(shù)據(jù)庫(kù)、各類ETL、各類數(shù)據(jù)倉(cāng)庫(kù)和報(bào)表產(chǎn)品,還需要適配各類結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)源。

3.1.1?關(guān)系型數(shù)據(jù)庫(kù)

通過(guò)元數(shù)據(jù)適配器采集來(lái)自O(shè)racle、DB2、SQL Server、MySQL、Teradata、Sybase等關(guān)系型數(shù)據(jù)庫(kù)的庫(kù)表結(jié)構(gòu)、視圖、存儲(chǔ)過(guò)程等元數(shù)據(jù)。關(guān)系型數(shù)據(jù)庫(kù)一般都提供了元數(shù)據(jù)的橋接器,例如Oracle的RDBMS,可實(shí)現(xiàn)元數(shù)據(jù)信息的快速讀取。3.1.2?NoSQL數(shù)據(jù)庫(kù)

元數(shù)據(jù)采集工具應(yīng)支持來(lái)自MongoDB、CouchDB、Redis、Neo4j、HBase等NoSQL數(shù)據(jù)庫(kù)中的元數(shù)據(jù),NoSQL數(shù)據(jù)庫(kù)適配器多半利用了自身管理和查詢Schema的能力。3.1.3?數(shù)據(jù)倉(cāng)庫(kù)

對(duì)于主流的數(shù)據(jù)倉(cāng)庫(kù),可以基于其內(nèi)在的查詢腳本,定制開(kāi)發(fā)相應(yīng)的適配器,對(duì)其元數(shù)據(jù)進(jìn)行采集。例如MPP數(shù)據(jù)庫(kù)Greenplum,其核心元數(shù)據(jù)都存儲(chǔ)在pg_database、pg_namespace、pg_class、pg_attribute、pg_proc這幾張表中,通過(guò)SQL腳本就可以對(duì)其元數(shù)據(jù)進(jìn)行采集。Hive表結(jié)構(gòu)信息存儲(chǔ)在外部數(shù)據(jù)庫(kù)中,同時(shí)Hive提供類似show table、describe table之類的語(yǔ)法對(duì)其元數(shù)據(jù)信息進(jìn)行查詢。當(dāng)然,也可以利用專業(yè)的元數(shù)據(jù)采集工具來(lái)采集數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的元數(shù)據(jù)。

3.1.4?云中的元數(shù)據(jù)

隨著公有云的日趨成熟,尤其是在中小企業(yè)之間,通過(guò)提供安全的云連接將云端企業(yè)元數(shù)據(jù)管理用作核心IT基礎(chǔ)架構(gòu)的擴(kuò)展已經(jīng)成為現(xiàn)實(shí)。云端企業(yè)元數(shù)據(jù)管理通過(guò)各種上下文改善信息訪問(wèn),并將實(shí)時(shí)元數(shù)據(jù)管理、機(jī)器學(xué)習(xí)模型、元數(shù)據(jù)API推進(jìn)流數(shù)據(jù)管道,以便更好地管理企業(yè)數(shù)據(jù)資產(chǎn)。

3.1.5?其他元數(shù)據(jù)適配器

建模工具:PowerDesigner、ERwin、ER/Studio、EA等建模工具適配器。

?ETL工具:PowerCenter、DataStage、Kettle等ETL工具適配器。

?BI工具:Cognos、Power BI等前端工具中的二維報(bào)表元數(shù)據(jù)采集適配器。

Excel適配器:采集Excel格式文件的元數(shù)據(jù)。 當(dāng)然,目前市場(chǎng)上的主流元數(shù)據(jù)產(chǎn)品中還沒(méi)有哪一個(gè)能做到“萬(wàn)能適配”,在實(shí)際應(yīng)用過(guò)程中都需要進(jìn)行或多或少的定制化開(kāi)發(fā)。

3.2?元數(shù)據(jù)管理

從技術(shù)的角度看,元數(shù)據(jù)管理一般包括元模型管理、元數(shù)據(jù)審核、元數(shù)據(jù)維護(hù)、元數(shù)據(jù)版本管理、元數(shù)據(jù)變更管理等功能。

3.2.1?元模型管理元模型管理即基于元數(shù)據(jù)平臺(tái)構(gòu)建符合CWM規(guī)范的元數(shù)據(jù)倉(cāng)庫(kù),實(shí)現(xiàn)元模型統(tǒng)一、集中化管理,提供元模型的查詢、增加、修改、刪除、元數(shù)據(jù)關(guān)系管理、權(quán)限設(shè)置等功能,支持概念模型、邏輯模型、物理模型的采集和管理,讓用戶直觀地了解已有元模型的分類、統(tǒng)計(jì)、使用情況、變更追溯,以及每個(gè)元模型的生命周期管理。同時(shí),支持應(yīng)用開(kāi)發(fā)的模型管理。

支持元模型的全生命周期管理。元模型生命周期中有三個(gè)狀態(tài),分別是設(shè)計(jì)態(tài)、測(cè)試態(tài)和生產(chǎn)態(tài)。

設(shè)計(jì)態(tài)的元數(shù)據(jù)模型,通常由ERWin、PowerDesigner等設(shè)計(jì)工具產(chǎn)生。 測(cè)試態(tài)的元數(shù)據(jù)模型,通常是關(guān)系型數(shù)據(jù),如Oracle、DB2、MySQL、Teradata等;或非關(guān)系型數(shù)據(jù)庫(kù),如MongoDB、HBase、Hive等。 生產(chǎn)態(tài)的元數(shù)據(jù)模型,本質(zhì)上與測(cè)試態(tài)元數(shù)據(jù)差異不大。 通過(guò)元數(shù)據(jù)平臺(tái)對(duì)應(yīng)用開(kāi)發(fā)三種狀態(tài)的統(tǒng)一管理和對(duì)比分析,能夠有效降低元數(shù)據(jù)變更帶來(lái)的風(fēng)險(xiǎn),為下游ODS、DW的數(shù)據(jù)應(yīng)用提供支撐。

3.2.2?元數(shù)據(jù)審核

元數(shù)據(jù)審核主要是審核已采集到元數(shù)據(jù)倉(cāng)庫(kù)中但還未正式發(fā)布到數(shù)據(jù)資源目錄中的元數(shù)據(jù)。審核過(guò)程中支持對(duì)數(shù)據(jù)進(jìn)行有效性驗(yàn)證并修復(fù)一些問(wèn)題,例如缺乏語(yǔ)義描述、缺少字段、類型錯(cuò)誤、編碼缺失或不可識(shí)別的字符編碼等。

3.2.3?元數(shù)據(jù)維護(hù)

元數(shù)據(jù)維護(hù)就是對(duì)信息對(duì)象的基本信息、屬性、被依賴關(guān)系、依賴關(guān)系、組合關(guān)系等元數(shù)據(jù)的新增、修改、刪除、查詢、發(fā)布等操作,支持根據(jù)元數(shù)據(jù)字典創(chuàng)建數(shù)據(jù)目錄,打印目錄結(jié)構(gòu),根據(jù)目錄發(fā)現(xiàn)、查找元數(shù)據(jù),查看元數(shù)據(jù)的內(nèi)容。元數(shù)據(jù)維護(hù)是最基本的元數(shù)據(jù)管理功能之一,技術(shù)人員和業(yè)務(wù)人員都會(huì)使用這個(gè)功能查看元數(shù)據(jù)的基本信息。

3.2.4?元數(shù)據(jù)版本管理

在元數(shù)據(jù)處于一個(gè)相對(duì)完整、穩(wěn)定的時(shí)期,或者處于一個(gè)里程碑結(jié)束時(shí)期,可以對(duì)元數(shù)據(jù)定版以發(fā)布一個(gè)基線版本,以便日后對(duì)存異的或錯(cuò)誤的元數(shù)據(jù)進(jìn)行追溯、檢查和恢復(fù)。

3.2.5?元數(shù)據(jù)變更管理

用戶可以自行訂閱元數(shù)據(jù),當(dāng)訂閱的元數(shù)據(jù)發(fā)生變更時(shí),系統(tǒng)將自動(dòng)通知用戶,用戶可根據(jù)指引進(jìn)一步在系統(tǒng)中查詢到變更的具體內(nèi)容及相關(guān)的影響分析。元數(shù)據(jù)管理平臺(tái)提供元數(shù)據(jù)監(jiān)控功能,一旦監(jiān)控到元數(shù)據(jù)發(fā)生變更,就在第一時(shí)間通知用戶。3.3?元數(shù)據(jù)應(yīng)用

3.3.1?數(shù)據(jù)資產(chǎn)地圖

按數(shù)據(jù)域?qū)ζ髽I(yè)數(shù)據(jù)資源進(jìn)行全面盤點(diǎn)和分類,并根據(jù)元數(shù)據(jù)字典自動(dòng)生成企業(yè)數(shù)據(jù)資產(chǎn)的全景地圖。該地圖可以告訴你有哪些數(shù)據(jù),在哪里可以找到這些數(shù)據(jù),能用這些數(shù)據(jù)干什么。數(shù)據(jù)資產(chǎn)地圖支持以拓?fù)鋱D的形式可視化展示各類元數(shù)據(jù)和數(shù)據(jù)處理過(guò)程,通過(guò)不同層次的圖形展現(xiàn)粒度控制,滿足業(yè)務(wù)上不同應(yīng)用場(chǎng)景的圖形查詢和輔助分析需要(見(jiàn)圖2)。

圖2? 數(shù)據(jù)資產(chǎn)地圖示例

3.3.2?元數(shù)據(jù)血緣分析

元數(shù)據(jù)血緣分析會(huì)告訴你數(shù)據(jù)來(lái)自哪里,經(jīng)過(guò)了哪些加工。其價(jià)值在于當(dāng)發(fā)現(xiàn)數(shù)據(jù)問(wèn)題時(shí)可以通過(guò)數(shù)據(jù)的血緣關(guān)系追根溯源,快速定位到問(wèn)題數(shù)據(jù)的來(lái)源和加工過(guò)程,減少數(shù)據(jù)問(wèn)題排查分析的時(shí)間和難度(見(jiàn)圖3)。圖3? 元數(shù)據(jù)血緣分析示例

3.3.3?元數(shù)據(jù)影響分析

元數(shù)據(jù)影響分析會(huì)告訴你數(shù)據(jù)去了哪里,經(jīng)過(guò)了哪些加工。其價(jià)值在于當(dāng)發(fā)現(xiàn)數(shù)據(jù)問(wèn)題時(shí)可以通過(guò)數(shù)據(jù)的關(guān)聯(lián)關(guān)系向下追蹤,快速找到有哪些應(yīng)用或數(shù)據(jù)庫(kù)使用了這個(gè)數(shù)據(jù),從而最大限度地減小數(shù)據(jù)問(wèn)題帶來(lái)的影響。這個(gè)功能常用于數(shù)據(jù)源的元數(shù)據(jù)變更對(duì)下游ETL、ODS、DW等應(yīng)用的影響分析。血緣分析是向上追溯,影響分析是向下追蹤,這是這兩個(gè)功能的區(qū)別。

3.3.4?元數(shù)據(jù)冷熱度分析

元數(shù)據(jù)冷熱度分析會(huì)告訴你哪些數(shù)據(jù)是企業(yè)常用數(shù)據(jù),哪些數(shù)據(jù)屬于僵死數(shù)據(jù)。其價(jià)值在于讓數(shù)據(jù)活躍程度可視化,讓企業(yè)中的業(yè)務(wù)人員、管理人員都能夠清晰地看到數(shù)據(jù)的活躍程度,以便他們更好地駕馭數(shù)據(jù),處置或激活僵死數(shù)據(jù),從而為數(shù)據(jù)的自助式分析提供支撐。

3.3.5?元數(shù)據(jù)關(guān)聯(lián)度分析

元數(shù)據(jù)關(guān)聯(lián)度分析會(huì)告訴你數(shù)據(jù)與其他數(shù)據(jù)的關(guān)系,以及它們的關(guān)系是怎樣建立的。關(guān)聯(lián)度分析是從某一實(shí)體關(guān)聯(lián)的其他實(shí)體及其參與的處理過(guò)程兩個(gè)角度來(lái)查看具體數(shù)據(jù)的使用情況,形成一張實(shí)體和所參與處理過(guò)程的網(wǎng)絡(luò),如表與ETL程序、表與分析應(yīng)用、表與其他表的關(guān)聯(lián)情況等,從而進(jìn)一步了解該實(shí)體的重要程度。

3.4?元數(shù)據(jù)接口

建立元數(shù)據(jù)查詢、訪問(wèn)的統(tǒng)一接口規(guī)范,以將企業(yè)核心元數(shù)據(jù)完整、準(zhǔn)確地提取到元數(shù)據(jù)倉(cāng)庫(kù)中進(jìn)行集中管理和統(tǒng)一共享。

元數(shù)據(jù)接口規(guī)范主要包括接口編碼方式、接口響應(yīng)格式、接口協(xié)議、接口安全、連接方式、接口地址等方面的內(nèi)容。

  • 接口編碼方式:接口編碼方式必須在接口的頭信息中注明,常用的接口編碼方式有UTF-8、GBK、GB2312、ISO-8859-1。
  • ?接口響應(yīng)格式:元數(shù)據(jù)接口常用的報(bào)文格式,XML或JSON。
  • ?接口協(xié)議:REST/SOAP協(xié)議。
  • 接口安全:Token身份認(rèn)證。
  • 連接方式:POST。 接口地址:http://url/service?[query]。



(部分內(nèi)容來(lái)源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)
立即申請(qǐng)數(shù)據(jù)分析/數(shù)據(jù)治理產(chǎn)品免費(fèi)試用 我要試用
customer

在線咨詢

在線咨詢

點(diǎn)擊進(jìn)入在線咨詢