- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2022-08-29來源:小小少年有煩惱瀏覽數:560次
數據管理是對數據提取、數據存儲、數據傳輸、數據處理、數據安全等任務進行低成本管理的過程。數據管理的主要目的是對人和組織的數據進行最優的管理和保護,使其能夠方便地創建、訪問、刪除和更新數據。因為數據管理是每一個企業成長中必不可少的過程,沒有數據管理,就無法為業務發展制定政策和決策。
一數據治理與數據架構
數據架構側重于技術和基礎設施設計,而數據治理則包括人員、過程、工作流以及支持治理所需的體系結構。因此,盡管數據架構對數據治理至關重要,但它只是更廣泛的整體中的一小部分。數據治理和數據架構之間的區別可以比作關于故事中從不同的視角看大象:“五個老人在看大象。一個人看到大象的尾巴,他認為大象看起來像一根繩子。有人看到樹干,就說像蛇;有人看到腳,就說像樹干,他們都是對的。”每個人都從自己獨特但有限的位置看到整個大象。我認為,在數據治理方面,很多技術人員常常會感到困惑,一些IT人員將數據架構視為數據治理,但其范圍遠不止于此。一旦你將組織、流程、人員和文化納入其中,你就更有可能成功。數據治理是數據架構發揮作用的總體框架。我認為數據治理是更廣泛的,它包括組織、人員和過程,而且在很大程度上創造了一種數據驅動的文化。
數據架構是更廣泛的數據治理框架的一部分。這些概念是相互關聯的,因此看起來與數據架構相關的流程可以在數據治理中發揮關鍵作用。例如,數據輸入:如果你在前面輸入客戶數據,而你輸入錯誤,這就是治理,因為這會影響下游的事情。由治理流程創建的查找表可以更容易地正確輸入客戶數據,從而支持參考完整性。所以,它在架構、人和過程之間來回穿梭。數據架構和數據治理“相互促進”,數據治理可以圍繞數據架構制定規則,IT部門通常會接受這一點,因為他們喜歡有人可以將這些問題升級。技術通過固有的技術結構或邊界提供了手段。你可以在業務方面有一個非常好的規則,說明‘這些是特定領域的有效值’,但除非你的數據架構支持這一點,否則它只是一個規則,人們可以打破規則。因此,架構和治理不僅相互支持,而且還幫助彼此更加有效。
1 對“老”概念的關注與日俱增
對人工智能和預測分析的關注推動了對數據治理和數據架構等基礎概念的的復蘇,除非你有好的數據,否則你無法做所有這些熱門事物。這不是舊與新,或舊學派與新學派;而是你需要這些基礎。對于那些在數據行業呆了很長時間的人來說,這似乎是老古董了。投資于架構和治理的公司已經能夠更容易地實現一些更新的技術,因為他們有良好的數據基礎。而對于有些組織卻是一件非常困難的事情。
2 數據治理與數據架構哪個優先
關于從哪里開始有不同的理論,我建議從深入的數據管理成熟度評估開始,評估需要基于一個框架,該框架展示了遠景和戰略如何與工具和技術相互關聯。建議首先遍歷評價框架中的每個指標項。這些都是非常簡單的問題,但每個指標項里有兩個問題就能說明很多問題。?為什么要這么做,誰在乎??解決了什么問題??誰將成為你的關鍵利益相關者??誰會成為執行的支持者??投資回報是什么??已經存在哪些治理組織,涉及哪些人??如何衡量哪些數據是好是壞??如何追蹤結果??人們對數據治理有積極的看法嗎??他們認為這是一種負擔嗎?金字塔頂端的那些簡單問題是最重要的問題,因為它們驅動著其他一切,工具和技術部分幾乎可以成為一個清單。問一些問題,比如“你有什么數據?這些數據存儲在哪里?”和“是否存在數據模型?””不必一開始就做一個巨大的評估。每個問題都是一個很好的開始。客戶會得到廣泛的一系列問題,以及詳細的步驟。對于組織和個人,你們有指導委員會嗎?指導委員會有可行動的結果嗎?不僅僅是‘是’或‘不是’,還要了解很多細節。評估的細粒度性質不僅顯示了差距在哪里,而且有助于揭示造成這些差距的原因。很多企業都有指導委員會,但卻什么都做不了,那么指導委員會是如何建立的呢?數據管理是如何建立的?這兩個領域需要同等強大。如果其中任何一項存在差距,那可能是擁有所有的工具、技術和所有的流程,但數據文化缺失。客戶得到的最終結果是一個用顏色標識的成熟度評估,有優勢的區域用綠色表示,有改進的區域用紅色表示。
3 用速贏策略來鼓勵強大的數據文化
人們經常會把數據治理視為一種負擔,但這并不一定是一種負擔。如何讓人們對數據治理感到興奮?事實上,以快速取勝開始,你可以讓人們問,‘我能成為數據治理的一部分嗎?’”所以選擇“對很多人有益”的小項目。例如,零售商可以定義他們的客戶生命周期,記錄客戶第一次看到產品、購買產品、續訂產品以及在社交媒體上告訴朋友時的過程和數據流,以跟蹤客戶。如果在所有平臺上都獲得了電子郵件地址,并且保持一致,就可以跟蹤客戶,從他們第一次給我們電子郵件地址到他們注冊購買計劃的時間。如果我們都能溝通,想想這將會有多好。如果我能夠從另一個團隊獲得購買信息,那么超越這些豎井的價值就會變得清晰起來。這對我有什么好處的問題,這是關于不要讓它壓倒一切,因為沒有人想要這個龐大的項目,將花費大量的時間由別人驅動,但如果你能找到每個人都需要的東西。這就是速戰速決,然后人們肯定想要的更多。
4 數據治理與數據架構哪個更重要
下面是關于兩家客戶的故事,他們分別在成熟度評估的兩端著手。一家公司將他們的商業戰略和目標與一些法規和營銷活動聯系在一起,并且有多個團體支持。這是營銷,是工程,是合法的——他們有幾個團體想要數據治理。他們有自己的目標,但其他方面都有些薄弱。他們的委員會還沒有成立,他們也沒有任何現成的工具。他們的目標很好,但根據評估,他們只有一個綠色區域,其他所有區域都是紅色的。他們很沮喪,但是這是最好的方面,因為你有正確的目標。另一家公司的評估顯示,他們在技術、架構等方面基本上是綠色的,但他們沒有承諾一個共同的目標,也沒有在整個團隊形成一致的動力。他們有你能想到的所有工具,一切都就位了。選擇一組工具,他們有六個,他們有多個競爭的技術,但他們沒有共同的文化認同,那是他們的紅色。這是一個很重要的問題。一年過去了,那些有明確的驅動目標和合適的人的公司遠遠領先,因為他們贏得了人心。從整體上看,這都是大象的一部分——有些人可能認為他們有數據治理,但他們沒有真正考慮圍繞它的文化,所以他們還沒有完成。最好的出發點是讓人們團結起來。當人們有了正確的目標,才能能做任何數據治理和數據管理的事,對吧?
二數據架構和數據管理
在計算機和互聯網的開始時代,使用的數據并不像今天這樣多,數據可以很容易地存儲和管理,所有的用戶和企業在一臺計算機上,因為數據從來沒有超過19 exabytes的程度,但現在在這個時代,數據每天增加約2.5 quintillions。大多數數據來自Facebook、Instagram、Twitter等社交媒體網站,其他來源可以是電子商務、電子商務交易、醫院、學校、銀行數據等。傳統的數據存儲技術無法管理這些數據。大數據就是為了處理大而不純凈的數據而產生的。大數據是企業從社交媒體、GPS、傳感器等各種來源收集大數據集,并對其進行系統分析,利用一些工具和技術提取有用模式的領域。在分析和確定數據之前,數據架構必須由架構師設計。
1 數據架構設計與數據管理
數據架構設計是一組標準,這些標準由特定的策略、規則、模型和標準組成,這些標準管理、收集什么類型的數據、從哪里收集數據、收集數據的安排、存儲數據、利用和保護數據進入系統和數據倉庫進行進一步分析。數據架構是企業架構的重要支柱之一,通過它可以成功地執行業務策略。數據架構設計對于創建數據系統之間交互的遠景非常重要,例如,如果數據架構師想要實現數據集成,那么它將需要兩個系統之間的交互,通過使用數據架構,可以實現流程中數據交互的遠景模型。數據架構還描述了用于管理數據類型的數據結構,它提供了一種簡便的方法進行數據預處理。數據架構分為三個基本模型,然后進行組合:
概念模型,它是一種使用實體關系(ER)模型來表示實體及其屬性之間的關系的業務模型。邏輯模型,在這個模型中,問題以邏輯的形式表示,如數據的行和列、類、xml標記和其他DBMS技術。物理模型,包含數據庫設計,比如哪種類型的數據庫技術將適合于體系結構。數據架構師負責數據架構的所有設計、創建、管理和部署,并定義數據如何存儲和檢索,其他決策由內部機構做出。
2影響數據架構的因素
影響數據架構的因素包括業務策略、業務需求、使用的技術、經濟和數據處理需求。?業務需求包括業務擴展、系統訪問性能、數據管理、事務管理、將原始數據轉換為圖像文件和記錄,然后存儲在數據倉庫等因素。數據倉庫是業務中存儲事務的主要方面。?業務策略策略是用于描述數據處理方式的規則。這些政策是由內部組織機構和其他政府機構制定的。?技術的使用這包括使用以前完成的數據架構設計的例子,也使用現有的許可軟件購買,數據庫技術。?企業經濟商業增長與虧損、利率、貸款、市場狀況、整體成本等經濟因素也會對設計架構產生影響。?數據處理的需求這些因素包括數據挖掘、大型連續事務、數據庫管理和其他數據預處理需求等。
3 數據管理
數據管理是對數據提取、數據存儲、數據傳輸、數據處理、數據安全等任務進行低成本管理的過程。數據管理的主要目的是對人和組織的數據進行最優的管理和保護,使其能夠方便地創建、訪問、刪除和更新數據。因為數據管理是每一個企業成長中必不可少的過程,沒有數據管理,就無法為業務發展制定政策和決策。數據管理越好,業務的生產率就越高。像大數據這樣的大量數據傳統上很難管理,因此必須利用最佳的技術和工具來管理數據,如Hadoop、Scala、Tableau、AWS等。可以進一步用于大數據分析,實現模式的改進。數據管理可以通過培訓必要的員工和由DBA、數據分析師和數據架構師進行維護來實現。
三數據架構是數據管理藍圖
數據架構是一門學科,它記錄組織的數據資產,映射數據如何在其系統中流動,并為管理數據提供藍圖。目標是確保正確管理數據并滿足業務對信息的需求。雖然數據架構可以支持運行應用程序,它最顯著定義商業智能(BI)的基礎數據環境和先進的分析計劃。其成果包括用于數據平臺和數據管理工具的多層框架,以及用于收集、集成、轉換和存儲數據的規范和標準。理想情況下,數據架構設計是數據管理流程的第一步。通常情況并非如此,這會產生不一致的環境,需要作為數據架構的一部分進行協調。此外,盡管數據架構具有基本性質,但它們并不是一成不變的,必須隨著數據和業務需求的變化而更新。這使它們成為數據管理團隊持續關注的問題。數據架構與數據建模密切相關,數據建模創建數據結構圖、業務規則和數據元素之間的關系。不過,它們是獨立的數據管理學科。在一篇關于數據建模和數據架構如何不同的文章中,咨詢公司Knowledge Integrity Inc.的總裁David Loshin區分了建模對數據資產的微觀關注和數據架構更廣泛的宏觀視角。《數據架構指南》進一步解釋了它是什么、為什么重要以及它提供的業務好處,還可以找到關于數據架構框架、最佳實踐等方面的信息。
1 數據架構是如何演進的
在過去,大多數數據架構都沒有現在那么復雜。它們主要涉及存儲在關系數據庫中的事務處理系統中的結構化數據。分析環境由數據倉庫組成,有時還包含為單個業務單元構建的較小的數據集市和作為暫存區域的操作數據存儲。在批處理作業中處理事務數據進行分析,使用傳統的提取、轉換和加載(ETL)流程進行數據集成。從2000年代中期開始,大數據技術在商業中的應用為許多架構添加了非結構化和半結構化的數據形式。這導致了數據湖的部署,它通常以原始格式存儲原始數據,而不是過濾和轉換數據以供前期分析——這是數據倉庫過程的一個巨大變化。新的方法正在推動更廣泛地使用ELT數據集成,這是ETL的替代方法,它可以轉換負載和轉換步驟。流處理系統使用的增加也將實時數據引入更多的數據架構中。除了基本的BI和數據倉庫驅動的報表之外,現在的架構還支持人工智能和機器學習應用程序。向基于云的系統的轉變進一步增加了數據架構的復雜性。
上圖顯示了一個高級數據架構藍圖的示例,其中數據管理的不同部分有不同的層。
2 為什么數據架構很重要設計良好的數據架構是數據管理過程的關鍵部分。
它支持數據集成和數據質量改進工作,以及數據工程和數據準備。它還支持有效的數據治理和內部數據標準的開發。這兩件事反過來幫助組織確保他們的數據是準確和一致的。數據架構也是支持業務目標和優先級的數據策略的基礎。咨詢公司TreeHive strategy的負責人唐納德?法默(Donald Farmer)在一篇關于關鍵數據戰略組件的文章中寫道:“現代商業戰略依賴于數據。”法默說,這使得數據管理和分析太重要了,不能把它留給個人。為了更好地管理和使用數據,組織需要創建一個全面的數據策略,并以強大的數據架構為基礎。
上圖是咨詢公司Global data strategy制定數據戰略的四個主要階段。
3 數據架構的特征和組件
在以前一篇有關現代數據架構原則的文章中,強調了數據治理和法規遵從過程的重要性,以及支持多云環境的日益增長的需求。同時,如果數據架構不能將數據用于分析,那么數據的潛在商業價值就會被浪費。數據是一種商業資產,這是現代數據管理的陳詞濫調,但是數據即便只是一個成本中心,依然需要維護而不提供任何商業利益。設計良好的數據架構的常見特征包括:?與組織戰略和數據需求一致的業務驅動重點;?靈活性和可伸縮性,以支持各種應用程序,并滿足新的業務對數據的需求;和?強有力的安全保護,防止未經授權的數據訪問和數據的不當使用。?從純粹主義者的角度來看,數據架構組件不包括平臺、工具和其他技術。相反,數據架構是由一組圖表和文檔描述的概念基礎設施。數據管理團隊使用它們來指導技術部署和數據管理。這些組件或構件的示例如下:?數據模型、數據定義和數據元素的通用詞匯表;?說明數據如何在系統和應用程序中流動的數據流程圖;?將數據使用映射到業務流程的文檔,例如CRUD矩陣(創建、讀取、更新和刪除的縮寫);?其他描述業務目標、概念和功能的文件,以幫助將數據管理措施與這些目標保持一致;?規定如何收集、集成、轉換和存儲數據的政策和標準;和?一個高階架構藍圖,具有不同的處理層,如數據攝取、數據集成和數據存儲。
遵循原則可以幫助數據架構設計走上正確的道路。
4 數據架構的好處
理想情況下,設計良好的數據架構可以幫助組織開發有效的數據分析平臺,交付有用的信息和見解。在公司里,這些見解可以改善戰略規劃和運營決策,潛在地帶來更好的業務表現和競爭優勢。數據架構還有助于提高數據質量、簡化數據集成和降低數據存儲成本。弗吉尼亞聯邦大學(Virginia Commonwealth University)的數據管理顧問、信息系統副教授彼得·艾肯(Peter Aiken)表示,與特定領域的數據建模相比,它采取了企業視角,或者關注數據庫級別的架構。
5 不良數據架構設計的風險數據架構的一個缺陷是過于復雜。
可怕的“意大利面條式體系結構”就是證據,它是一組表示不同數據流和點對點連接的混亂的行。結果是一個搖搖欲墜的數據環境,數據倉庫不兼容,難以集成以供分析使用。從本質上講,數據架構項目通常旨在為現有的有機開發的混亂環境帶來秩序。但如果處理不當,它們可能會產生類似的問題。另一個挑戰是在標準化數據定義、格式和需求上達成普遍一致。否則,就很難創建有效的數據架構。將數據放在業務上下文中也是如此。如果做得好,數據架構“捕獲了運行組織所需的數據的業務意義”。但是,如果不這樣做,可能會在數據架構和它應該滿足的戰略數據需求之間產生脫節。
6 數據架構和數據建模數據建模主要關注特定數據資產的細節。
它創建了數據實體、它們的屬性以及不同實體如何相互關聯的可視化表示。這有助于確定應用程序和系統的數據需求,然后為數據設計數據庫結構,這是一個通過概念性、邏輯性和物理數據模型的進程。數據架構從更全局的角度來看待組織的數據,為數據管理和使用創建一個框架。數據建模和數據架構是相輔相成的。數據模型是數據架構中的一個關鍵元素,一個已建立的數據架構可以簡化數據建模。咨詢公司Athena IT Solutions的管理合伙人Rick Sherman分別解釋了七種數據建模技術,包括層次數據模型、網絡數據模型、關系數據模型、面向對象的數據模型、實體-關系模型、維度建模和圖形建模方法等,這些方法目前最常用。下面是數據建模最佳實踐,包括以下建議:?在構建模型之前,預先收集業務和數據需求。?迭代地、增量地開發數據模型,以使過程易于管理。?使用數據模型作為與業務用戶交流其需求的工具。?管理數據模型就像管理任何其他類型的應用程序代碼一樣。
數據管理團隊通常分階段構建這三種類型的數據模型。
7 數據架構、信息架構和企業架構
企業應用程序中的數據架構和信息架構之間的區別。信息是上下文中的數據,信息架構定義了企業用于其業務運營和管理的上下文。提供高質量、可靠數據的數據架構是信息體系結構的基礎。同時,數據架構通常被視為企業架構(EA)的子集,其目標是在四個領域為組織創建組織藍圖。EA還包括以下內容:?業務架構,涉及業務策略和關鍵業務流程;?應用架構,重點關注單個應用程序及其與業務流程的關系;和?包括IT系統、網絡和其他支持其他三個領域的技術架構。
8 數據架構框架
組織可以使用標準化框架來設計和實現數據架構,而不是完全從頭開始。這是三個眾所周知的框架選項:DAMA-DMBOK2DAMA數據管理知識體系指南是由DAMA國際(數據管理人員專業協會)創建的數據管理框架和參考指南。現在推行的是第二版,通常被稱為DAMA-DMBOK2,該框架解決了數據體系結構和其他數據管理規程。第一版于2009年出版,第二版于2017年面世。TOGAFTOGAF創建于1995年,并自那時以來多次更新,它是一個企業架構框架和方法,包括數據架構設計和路線圖開發的部分。它是由Open Group開發的,TOGAF最初代表Open Group Architecture Framework。但現在它被簡單地稱為TOGAF標準。Zachman框架這是一個本體框架,它使用6*6的行和列矩陣來描述企業架構,包括數據元素。它不包括實現方法;相反,它是作為架構的基礎。該框架最初是由高管約翰·扎克曼(John Zachman)于1987年開發的,他于1990年從退休,并創建了一家名為Zachman International的咨詢公司。
9 創建數據架構的關鍵步驟數據管理團隊必須與業務主管和其他終端用戶密切合作,以開發數據架構。
如果不這樣做,則可能與業務策略和數據需求不一致。數據架構創建的關鍵步驟包含:?與高級領導進行交流與任何戰略性技術計劃一樣,開發數據架構的價值必須有效地與最高管理層進行溝通,并不斷進行溝通。展示數據架構給企業帶來的好處的信息。確定并爭取關鍵利益相關者的支持。?識別數據角色組織的技術環境是由數據使用者的信息需求驅動的。應用程序系統管理員對其應用程序產生和使用的數據集負責。確定在企業中創建、存儲、更新、讀取和接觸數據的人員。確定典型的人物角色,并根據他們的數據接觸點對他們進行描述。?確定數據需求讓數據使用者了解他們的業務策略,并征求他們對數據的業務需求。記錄這些需求與抽象數據域(如“客戶”或“產品”數據)以及這些消費者當前使用或預期需要的離散數據集之間的關系。?風險評估信息確定和解釋數據治理指令,以及它們如何與數據的處理、管理和保護相關。?評估數據概況調查和記錄企業數據集的名稱、位置、所有者、生產者、消費者和內容。根據使用場景和敏感性對每個數據集進行分類,并在數據目錄中收集這些信息。?分析數據生命周期評估數據集如何從它們的起始點流向它們的最終目的地。記錄數據管道的數據沿襲映射。?評估數據基礎設施記錄企業中數據管理的當前狀態,并捕捉當前的技術基礎設施——使用哪些系統、數據庫結構、數據倉庫、數據集市和操作數據存儲,它們是在企業內部還是在云中,如果是后者,則是云服務提供商。?做SWOT分析綜合收集到的知識,分析優勢、劣勢、機會和威脅。找出最大的改進機會。?創建藍圖和路線圖為構建企業數據架構設計藍圖,總結收集的知識并突出建議的部署項目。從近期、中期和長期的角度為擬議的項目制定路線圖。
10 數據架構設計和開發中的角色數據架構計劃的領導角色通常是數據架構師。
他們需要各種技術技能,以及與業務用戶交互和溝通的能力。數據架構師花費大量時間與最終用戶一起編寫業務流程和現有數據使用情況,以及新數據需求。在技術方面,數據架構師自己創建數據模型,并由其他人監督建模工作。他們還構建數據架構藍圖、數據流圖和其他工件。其他職責可能包括概述數據集成過程和監督數據定義、業務術語表和數據目錄的開發。在一些組織中,數據架構師還負責設計數據平臺、評估和選擇技術。其他經常參與數據架構過程的數據管理專業人員包括:?數據建模師。他們與業務用戶一起評估數據需求和審查業務流程。然后,他們利用收集到的信息創建數據模型。?數據集成開發人員。一旦實現了體系結構,他們的任務就是創建ETL和ELT作業來集成數據集。