- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2022-09-27來源:找到麻木瀏覽數:6147次
數據目錄是企業中的數據資產的有組織清單。
數據目錄被定義為一個組織中所有數據資產的清單。它幫助數據專業人員為任何分析或業務目的找到最相關的數據。數據目錄使用元數據來創建一個組織中所有數據資產的信息和可搜索清單。本文討論了數據目錄的定義,其構建過程,以及數據目錄的十大最佳實踐。
數據目錄是一個組織中所有數據資產的清單,幫助數據專業人員為任何分析或業務目的找到最相關的數據。它作為一個數據清單,并提供必要的信息來評估數據對預期用途的適用性。它還幫助分析師和其他數據用戶找到他們為特定目的所需的目標數據。
我經常用圖書館對其進行類比。
當你想知道某本書在圖書館是否可用時,你一般會使用圖書館目錄。除了它的可用性之外,目錄還告訴你這本書的版本和位置。
簡而言之,目錄為你提供了該書的各種細節,以決定你是否需要它。如果你想要,它還告訴你如何找到它。這是今天許多對象存儲、數據庫和數據倉庫的一個基本提供。
現在讓我們把圖書館目錄的力量擴展到全國的每一個圖書館。想象一下,你只有一個用戶界面(UI),而你可以找到全國每一個有你要找的書的圖書館。你還可以在這個用戶界面上找到你想要的關于這些書的所有細節。
這正是數據目錄對你所有的組織數據的作用。它為你提供了一個單一的、全面的視圖,對你的所有數據都有可見性,而不是每次只看到一個數據存儲。
Aberdeen Strategy & Research最近進行的研究表明,數據目錄賦予用戶分析能力,這反過來又推動了業務績效。擁有數據目錄的用戶不僅報告了總客戶群的增加,而且還報告了現有客戶滿意度的提高。

數據目錄元數據主題
在當今大數據和自助分析時代,數據目錄已成為元數據管理的關鍵?,F代的元數據比商業智能 (BI) 時代的元數據要廣泛得多。

數據目錄用戶推動增強業務執行(來源:Aberdeen Strategy & Research)根據 Aberdeen 的研究, 當今的公司處理的數據環境年增長率超過 30%,有些遠高于此。
數據目錄工具使數據團隊能夠通過在集中式平臺上組織來自多個來源的數據來更有效地定位、理解和利用數據。數據目錄主要關注數據集(即可用數據的清單),然后將這些數據集與豐富的信息聯系起來,讓相關人員了解管理數據的信息。數據目錄的核心包含以下元數據主題,讓我們詳細看看每個元數據主題:
數據集是組織人員訪問的文件和表。這些可能駐留在數據湖、倉庫、主數據存儲庫或任何其他共享數據資源中。
這描述了使用數據的人員,包括消費者、策展人、管家、主題專家等。
此元數據支持標記和關鍵字,以幫助人們查找數據。
此類別詳細說明了在數據在其整個生命周期中進行管理時應用的各種轉換和派生。
供應商元數據包括從外部來源獲取的數據,因為它告知與數據相關的來源和訂閱或許可限制。
構建有效的數據目錄有五個步驟,讓我們詳細看看每個步驟:
構建數據目錄需要采集所有數據。為了確保收集到正確的數據,需要回答兩個問題:要采集哪些元數據以及如何采集它?讓我們一次解決每一個問題。
要采集哪些元數據?使用數據的形狀、結構和語義填充數據目錄是構建數據目錄的第一步。大多數數據用戶,例如數據科學家、數據工程師、業務分析師和其他人,都根據數據所在的模式或表來引用數據。
考慮以下問題和答案作為示例:
我在哪里可以找到至少購買了一件商品的客戶?檢查“cust_purchases”表 發票是如何產生的?
發票中包含一個或多個訂單。檢查“發票”和“訂單”表的數據。如果已支付發票,您可以在“付款”表中找到付款。
如今,流式數據和非表格數據(例如 JSON、Parquet 結構)隨處可見,而且它們的數量正在以越來越快的速度增長。即使您今天不使用這些技術,也要尋找支持嵌套數據結構并允許您在未來集成流技術的數據目錄。
最后,有效的數據目錄必須能夠采集數據血緣。數據血緣使用戶能夠查看數據的來源以及數據的軌跡。這對于提供用戶在使用數據時經常需要的上下文至關重要。
如何采集元數據?
構建數據目錄后,您將需要一個可以代表您輕松填充目錄的工具。這可以節省大量時間,因為它避免了手動更新數據生態系統中的每個數據庫、表和字段。所有主要數據庫和數據存儲(例如,AWS S3)都有可用的 API,允許您提取表示數據形狀和語義的元數據。因此,您應該考慮在構建數據目錄時自動填充元數據的能力。
在某些情況下,您可能無法直接連接到您的數據庫。例如,考慮您不想公開敏感數據,或者您正在使用不公開的托管數據庫。在這種情況下,您應該能夠使用數據存儲中的示例文件和提取作為直接連接到數據庫的替代方法。
在最壞的情況下,當一切都失敗時,您應該能夠自行快速采集數據而無需自動化。記住不同數據庫的所有客戶端庫的更改頻率,不能保證完美的流程或工具。因此,選擇自己解決問題對于構建強大的數據目錄至關重要。
構建數據目錄后,確定每個數據資產的重要人員是誰很重要。因此,將所有者等數據用戶分配給您的數據資產非常重要。這使有其他問題或疑問的用戶可以聯系到合適的人。
各種數據用戶的問題可以分為兩類:
此數據資產的業務上下文 Null 對這個字段意味著什么? 數據資產的技術屬性 誰可以將此新字段添加到架構中? 數據目錄可能有多種類型的所有者(例如,數據管理員、技術所有者、業務所有者、執行所有者等)。但是,數據管理員和技術所有者發揮著重要作用。數據管理員使您的用戶能夠知道向誰尋求所有與業務相關的信息。同時,技術所有者可以回答數據用戶可能遇到的面向技術的問題。創建數據目錄時,您可以將任務分配給您的所有者。這些任務旨在確保您的數據目錄有據可查并且對其他團隊成員有用。
當你開始在數據目錄中記錄你的數據時,你希望捕捉的信息量一開始可能會顯得很龐大。假設你有兩個數據庫,每個數據庫有幾十個表。每張表又有少量的字段。在這一刻,你似乎已經看到了幾千個數據資產。
因此,你可以從選擇一個單一的方法論開始,并隨著時間的推移慢慢增加文檔。這將確保你在幾個月內達到一定的覆蓋率,也許是90%或更少。
一些常見的方法論包括:
每當你了解到這一點,就把它記錄下來 每個人都應該負責更新數據目錄,當他們了解到一些還沒有被記錄的新東西時。 當代碼發生變化時,改變文檔的內容 當團隊發布新功能時,相關的團隊成員應該更新數據文檔。 為團隊成員留出時間 要求你的每個團隊成員每周花一個小時,或者每天早上花15分鐘在數據目錄上。這將使他們能夠為他們熟悉的數據資產添加新的文檔,或者研究他們不知道的數據資產。所有的數據資產在數據目錄中都應該有豐富的文本文檔,讓用戶能夠突出關鍵點。數據目錄還應該為用戶提供能力,將資產歸入共同集。這可以通過對數據的標記來實現。例如,如果你想看到一份關于你所有個人身份信息(PII)的報告,你可以用 "PII "來標記你所有包含此類數據的表和字段。此外,當你的數據目錄允許你的用戶與你的數據進行對話時,你就能釋放出文檔的力量。當一個用戶有一個關于數據的問題,并且該數據最終得到了回答--那么這個問題、答案以及導致答案的對話都應該在目錄中被記錄下來。 這允許下一個有類似問題的數據用戶能夠查看之前的對話,并了解答案的背景。這可以節省時間,因為無數次重復相同問題和答案的對話都會被記錄下來。比如說。A:我如何從我的電腦連接到數據庫?
B:你只需要登錄到VPN,就可以直接指向數據庫主機。(有記錄)
在這個例子中,A君可以參考B君的文檔化答案,了解所需的解決方案。
組織所面臨的主要挑戰之一是保持數據目錄的新鮮。開發人員一般會在一段時間內改變數據庫的結構,并經常創建新的管道。
數據科學家和業務分析師一般會創建數據立方體或在分析環境之間移動數據,以創建新的儀表板,也同樣頻繁。引用這些模式,你的數據目錄應該盡可能地自動識別這些變化,并相應地更新自己。
為了確保數據目錄是新鮮的,一些用戶互動來仔細檢查信息的質量和呆滯性是很重要的。你的數據目錄可以使用治理行動來推動你的用戶在他們認為基礎文件可能是舊的或過時的時候采取行動。
每個公司都根據他們的要求和需要來使用數據目錄。所以,你需要為你希望你的組織利用數據目錄的方式設定標準和規范。這里需要注意的是,你的團隊計劃使用數據目錄的方式將高度影響你捕捉文檔的方式。
因此,如果你不知道你的團隊將如何使用數據目錄,那么你花在記錄數據上的時間很可能會導致不充分的結果。你的團隊可以做的一些常見做法,以優化你與數據目錄的互動:
設置標準化的文檔格式,并跨數據庫、模式、字段和數據線使用。 確定關鍵的學習模塊,并用一個共同的主題來標記每個學習模塊中包含的資產。 強調團隊對數據目錄使用的規范。這將使數據文化在團隊成員中深深扎根。數據目錄可以成為強大的數據管理平臺。然而,如果沒有適當的數據編目方法,數據目錄的力量和功能可能會付之東流??紤]到這一點,以下是數據目錄的十大最佳實踐。

數據目錄的十大最佳實踐
數據無處不在--文本文件、電子表格,以及更多。
盡管數據可能是分散的,然而在你清點所有東西之前,你甚至無法開始解決數據問題。團隊中的每個人都應該接受培訓,思考他們的數據可能依附的所有地方。然后確保每一個分散的數據都被編入目錄。
數據脈絡和出處工具是好的,但它們中的大多數都是在一個已知的領域或一組領域內映射出數據流。
一個好的數據目錄,一個由數據流發現支持的目錄,往往會識別不同數據集之間的流動。這樣的安排可以幫助你發現你的組織內可能不為人知的數據流動。然后,這些流動可以被檢查是否有效。因此,管理數據流是建立一個有效的數據目錄的良好做法。
有效的數據目錄的主要目的之一是幫助識別敏感數據的位置。
在多個地方發現相同的敏感數據的情況下,它可以幫助識別冗余的數據。因此,管理敏感數據和冗余數據可以使你最大限度地減少漏洞的表面積,并建立強大的數據保護,防止任何外部攻擊。
非結構化數據(文檔、網頁、電子郵件、社交媒體內容、移動數據、圖像、音頻和視頻)是不符合數據模型的數據,沒有容易識別的結構。
它并不適合主流的關系型數據庫。也就是說,你的數據目錄可以幫助將隱性的數據結構顯性化。這可以通過根據團隊或組織要求重新設計整體數據結構來實現。因此,考慮 "非結構化 "數據對任何數據目錄都是至關重要的。
一個好的名稱和冗長的描述將使你的數據更容易被相關的團隊成員發現。描述可以指出同一對象的其他名稱,并幫助建立一個全面的數據本體。
在關系型數據庫中,數據可能分散在多個表中。然而,數據湖傾向于將大量的數據擠入單個文件。
在商業智能領域,一個單一的數據集可能會將措施和維度存儲在一起,而不是分開。即使是在數據庫中以表格形式表示數據的系統也是如此。這可能會使數據的可發現性降低,但數據目錄可以正面解決這個問題。
在你的數據目錄中,眾包的評級、認可和負面評級可以幫助用戶以更快的方式獲得相關和可靠的信息。但這需要嚴格的標準。數據不應該得到五星評級,除非它符合一個非常高標準的基準。
同樣地,好的數據也不應該被評為差的。用戶需要對評級有信心,否則他們就不會信任它們。因此,一個組織應該確保標準的統一和精確。
在你的數據湖中對所有的東西進行編目,使你能夠組織它并使它可用。一旦你的湖被編入目錄,你就可以在其中建立區域,使其成為業務用戶獲取數據的首選之地,而不僅僅是他們傾倒數據的地方。
數據目錄中的英文描述很重要,因為它們有助于記錄和流通所謂的過時的知識給各種業務用戶。這需要技術專家的參與,因為嚴格的數據驗證規則可以幫助驗證數據是否符合目錄的定義。這樣的過程保證了數據質量,并作為對更多定性星級的檢查。
因此,在數據目錄中采用精簡的驗證規則可以在數據用戶中灌輸信任。
由于數據量的增加,手工編目在今天是一項不可能完成的任務。
隨著新數據的到來,編目工作根本無法完成,甚至無法跟上步伐。然而,機器學習(ML)是一個很有前途的工具,可以對數量問題進行控制。ML模型可以識別數據類型和關系。這有助于在更多的數據集上建立你的目錄。它也比手動目錄更快地在更多的對象上傳播數據標簽。
因此,如果你的數據目錄沒有在實際數據中利用ML,你可能在數據驅動的旅程中面臨巨大的阻力。總之,數據目錄是你的數據的指南,它以對你、你的團隊和你的業務有意義的方式來組織。
有了一個精簡的方法,你就能在管理、治理和利用你的數據方面發揮其最大的潛力。以上的頂級實踐應該給你在數據目錄的道路上一個良好的開端。
在一個組織實現數據智能的過程中,數據目錄發揮著關鍵作用。它是推動收入、優化運營效率、促進創新和增長的一個重要因素。既然你已經意識到了數據目錄的意義,我們希望你能部署一個最適合你的業務需求的數據目錄。
億信ABI是什么
ABI = ALL in one BI,億信ABI是一款全能型數據分析產品,融合了數據源適配、ETL數據處理、數據建模、數據分析、數據填報、工作流、門戶、移動應用等核心功能而打造的一站式數據分析平臺,為企業提供一站式大數據BI解決方案。
來,先一張圖了解整體架構↓
再來一張圖了解能力地圖↓
02億信ABI能做什么
沉淀17年,億信華辰致力于為企業提供一站式大數據BI解決方案,我們一直在不斷拓展億信ABI的應用場景邊界,支持以下應用場景:
1.企業運營看板/大屏
億信ABI內置300+可視化組件,讓用戶在短時間內,快速搭建一個酷炫的可視化看板或大屏,支持包括指揮中心、會議展廳、匯報演示等業務場景應用,實時監控核心數據、智能預警,讓企業的運營者、管理者實時了解生產運營情況,快速做出戰略決策。
2.中國式復雜報表
億信ABI采用類Excel在線設計器,支持多級表頭、分組、表元合并、斜線表元、多級浮動、多表體等復雜報表樣式,讓業務人員無需依賴于IT人員,也能夠快速、高效地設計任意“格式復雜、信息量大”的中國式復雜報表,滿足公司業務需求。
3.自助式探索分析
億信ABI可以通過拖拉拽的方式進行數據的分析和探索。拖拽維度和指標,即可快速生成圖表。同時,能夠根據數據特征自動適配圖形進行展示,并提供圖形推薦列表供用戶選擇。自助式數據探索,賦能于業務人員,實現人人都是數據分析師。
4.數據填報分析一體化
通過表單填報、表格填報實現數據的采集與補錄,支持添加校驗及流程審批,可保障數據完整性,提升數據分析質量,也可輕松打造采集與分析一體化的業務應用系統。
5.數據處理分析一體化
集數據建模及ETL設計的功能于一體,可預先對數據源進行整合及處理,幫助政府和企業構建數據倉庫,提高數據質量,實現數據融合。
6.多樣化的報告分析
億信ABI支持圖文并茂的word分析報告,采用參數過濾的方式來制作報告,圖表取自于報表,對報表中相應的數據格添加過濾條件,這樣就可以實現報告自動化。同時還支持即席報告、PPT報告。
7.語音交互, 智能分析
億信ABI也是一款智能BI,可通過文字輸入或語音方式提問 ,利用自然語言分析引擎解析翻譯,深度識別用戶意圖,幫助用戶更容易地獲得數據洞見,實現分析結果隨思而行,即問即答,極大降低數據分析門檻。
8.移動跨屏分析
億信ABI支持PC、iPad和手機等移動設備的應用,無縫對接微信、釘釘等APP,可隨時隨地地通過移動設備進行數據的采集和分析,實時跟蹤業務變化,高效協同辦公,從而輔助決策。
03億信ABI的優勢在哪
億信華辰一直以來,希望用更智能、更多元、更好用的產品,為企業提供BI數據分析與可視化展現于一體的解決方案,而億信ABI作為BI領域集大成者,更是優勢突出:
1.一站式數據服務能力
覆蓋數據接入、到數據建模與處理、再到數據分析與挖掘整個數據應用全鏈路,降低實施、集成成本。
2.一體化的數據建模能力
支持跨不同數據查詢整合,與分布式ETL一體化,提供敏捷建模、智能計算,全面支撐各種數據準備需求。
3.超大數據量實時處理
依靠強大的計算分析引擎,高速緩存等技術,完美支持海量歷史數據多維查詢與分析等場景,大大提高計算性能,實現億級秒級響應。
4.領先的智能分析能力
運用自然語言分析、機器學習等智能分析能力,提升分析廣度和深度,自動化的AI技術,催生更多“民間數據科學家”。
當然,這種展示在用戶眼前的界面上的內容,除了要好看、易用,最重要的是要速度,不能給人一種很慢,很卡頓的感覺,這樣才能提升用戶體驗。有啥技術亮點,話不多說上圖。
其實產品的特色有很多,不是通過簡單的一兩句話能闡述清楚。說到這里,如果您有BI數據分析的難題,就直接聯系我們吧,相信我們定能助您一臂之力。