元數據管理是做什么?元數據在數據平臺對原信息的收集、匯總和傳遞將數據平臺各個模塊整合起來。元數據管理系統是收集線上db、solor集群、hbase集群和hive集群的元數據信息,并將其傳遞給各其他系統。元數據管理為大數據平臺繪制數據地圖、統一數據口徑、標明數據方位、分析數據關系、管理模型變更及精確到字段級別的影響分析。打通上下游數據繼承關系斷層,為數據質量維護和業務邏輯可視化打下堅實基礎。

要實現元數據管理有三個方面:
1、
采集:指從各種工具中,把各種類型的元
數據采集進來,采集是元數據管理第一步。
2、
存儲:采集之后需要相應的存儲策略來對元數據進行存儲,這需要在不改變存儲架構的情況下擴展元
數據存儲的類型;
3、
分析:在采集和存儲完成后,對已經存儲的元數據進行管理分析。
元數據的作用(1) 元數據是進行數據集成所必需的數據倉庫最大的特點就是它的集成性。這一特點不僅體現在它所包含的數據上,還體現在實施數據倉庫項目的過程當中。
一方面,從各個數據源中抽取的數據要按照一定的模式存入數據倉庫中,這些數據源與數據倉庫中數據的對應關系及轉換規則都要存儲在元數據知識庫中;另一方面,在數據倉庫項目實施過程中,直接建立數據倉庫往往費時、費力,因此在實踐當中,人們可能會按照統一的數據模型,首先建設
數據集市,然后在各個數據集市的基礎上再建設數據倉庫。
不過,當數據集市數量增多時很容易形成“蜘蛛網”現象,而元數據管理是解決“蜘蛛網”的關鍵。如果在建立數據集市的過程中,注意了元數據管理,在集成到數據倉庫中時就會比較順利;相反,如果在建設數據集市的過程中忽視了元數據管理,那么最后的集成過程就會很困難,甚至不可能實現。
(2) 元數據定義的語義層可以幫助最終用戶理解數據倉庫中的數據
最終用戶不可能象數據倉庫系統管理員或開發人員那樣熟悉數據庫技術,因此迫切需要有一個“翻譯”,能夠使他們清晰地理解數據倉庫中數據的含意。元數據可以實現業務模型與數據模型之間的映射,因而可以把數據以用戶需要的方式“翻譯”出來,從而幫助最終用戶理解和使用數據。
(3) 元數據是保證數據質量的關鍵
數據倉庫或數據集市建立好以后,使用者在使用的時候,常常會產生對數據的懷疑。這些懷疑往往是由于底層的數據對于用戶來說是不“透明”的,使用者很自然地對結果產生懷疑。而借助元數據管理系統,最終的使用者對各個數據的來龍去脈以及數據抽取和轉換的規則都會很方便地得到,這樣他們自然會對數據具有信心;當然也可便捷地發現數據所存在的質量問題。甚至國外有學者還在元數據模型的基礎上引入質量維,從更高的角度上來解決這一問題。
(4) 元數據可以支持需求變化
隨著信息技術的發展和企業職能的變化,企業的需求也在不斷地改變。如何構造一個隨著需求改變而平滑變化的軟件系統,是軟件工程領域中的一個重要問題。傳統的信息系統往往是通過文檔來適應需求變化,但是僅僅依靠文檔還是遠遠不夠的。成功的元數據管理系統可以把整個業務的工作流、數據流和信息流有效地管理起來,使得系統不依賴特定的開發人員,從而提高系統的可擴展性。
簡單來說,企業可以嘗試以下步驟進行大數據的元數據管理:
考慮到企業可以獲取數據的容量和多樣性,應該創建一個體現關鍵大數據業務術語的業務定義詞庫(本體),該業務定義詞庫不僅僅包含結構化數據,還可以將半結構化和非結構化數據納入其中。
及時跟進和理解各種大數據技術中的元數據,提供對其連續、及時地支持,
對業務術語中的敏感大數據進行標記和分類,并執行相應的大數據隱私政策。
將業務元數據和技術元數據進行鏈接,可以通過操作元數據(如流計算或 ETL 工具所生成的數據)監測大數據的流動;可以通過數據世系分析(血緣分析)在整個信息供應鏈中實現數據的正向追溯或逆向追溯,了解數據都經歷了哪些變化,查看字段在信息供應鏈各組件間轉換是否正確等;可以通過影響分析可以了解具體某個字段的變更會對信息供應鏈中其他組件中的字段造成哪些影響等。
擴展企業現有的元數據管理角色,以適應大
數據治理的需要,提高企業的數據質量,讓數據轉化為價值。
(部分內容來源網絡,如有侵權請聯系刪除)