如果所有數據都同步到數據平臺,如何對數據的訪問配置將是一個比較大的難題了,這也是數據訪問治理的一個大的挑戰。
數據權限所面向的群體是復雜的,可以說包括了所有和數據有關的人員,通常有管理層,客戶(用戶),開發人員,不同部門業務線的使用等。
首先用戶可以通過多種渠道訪問數據。例如直接的
BI報表,用戶看板。開發人員則可以直接從數據庫或
數據倉庫訪問,而數據平臺權限不僅僅是應該只有數據的權限,其實有資源的權限,什么樣的人可以使用多少的資源,可以使用那些資源同樣是
數據治理中的一部分,當然本篇僅僅是討論簡述數據的權限,除了我們使用時候涉及的權限外,在進行同步數據到數據平臺的過程中也是可能被訪問的。
業務系統在多年的迭代中可以說對權限的控制已經逐漸的完善并且復雜的,這是業務流程的專業知識多年所構建出來的,這些過程決定了誰可以看到和編輯哪里的數據。但是試想一下:如果所有數據都同步到數據平臺,如何對數據的訪問配置將是一個比較大的難題了,這也是數據訪問治理的一個大的挑戰。
01 簡述數據訪問治理
組織必須保護數據以防止不良事件發生,并仍可用于做出明智的決策。及時向正確的人提供對正確數據的訪問權限的機制稱為數據訪問治理。
權限治理是系統管理員通過設置用戶組或用戶的某些權限,來控制用戶訪問系統的各種資源。如:
修改文件、刪除文件、打印文檔等。什么是安全策略安全策略是指對應用進行限制的一種方法,它允許應用程序根據自身的特點制定相應的安全規則和操作規程,從而保證數據的安全性。
簡單地來理解,可以抽象為用戶和資源(數據)的一種映射關系,我把對數據的讀寫統一理解為數據資源,而權限就是擁有控制某種資源的能力。
02 數據平臺之前數據訪問的挑戰
1、數據孤島
簡單來說,“數據孤島”是指在數據及數據集的形成、分析、使用過程中,由于主體能動性、客體技術性以及政策環境、制度建設等不完備形成的不對稱、冗余等封閉、半封閉式現象。
企業發展到一定程度,因為數據量的增加,也因為信息化建設的必要性,企業會為不同部門建設相應的業務信息化系統。這些業務信息化系統(ERP、OA、CRM)可以規范業務流程,形成標準化的業務模式,并通過系統數據庫自動沉淀業務數據,為企業積累數據資產。毫無疑問,
數據價值凸顯的當下,能夠沉淀業務數據,這當然是一件好事。
但這些不同部門、不同業務信息系統數據庫中的數據往往無法互通,只能在各自數據庫中儲存,無法統一進行利用,沒有針對企業整體的全局視角。這樣一來,每個部門、每個業務系統的數據都相互分隔,就像海外一座座孤島,彼此無法連接,無法交流,這就是平時經常聽到的數據孤島。
2、數據量和技術限制
有時,業務在進行數據展示和訪問時候會涉及到幾十張甚至幾百張的表這是如果直接在業務中進行關聯查詢實現起來是很復雜和低效的,同時不同表甚至會出現沒有訪問的權限這時就需要公司的DBA來在賦予權限,這樣的效率是十分低下的。
3、公司不同部門溝通缺失
可能有些部門已經將數據整理成自己部門所使用的規范,但是溝通的不及時在其他部門使用時需要再次查找部門對應的負責人,甚至最后標準的不統一都會造成效率浪費和準確性降低。
03 數據平臺的興起
為了應對上面的問題和日益增加的
數據分析需求,逐漸的開始了數據倉庫、數據中臺等理念,再到現在的數據湖技術的不斷成熟。
所想要做的就是將企業數據統一管理,統一來提供服務將數據使用更加規范化,最重要也是為了將數據發揮更大的作用,使得幫助業務快速優化迭代自己的產品更加適應市場需求。
04 數據平臺之后數據訪問的挑戰
1、復雜的訪問權限管理
組織可以使用數據湖或各種類似的平臺來聚合精選數據,以克服孤立的數據和技術限制。但是,將所有應用程序的所有權限轉移到數據湖中并不容易。
基于角色的權限是為每個應用程序設計的,通常在使用后經過多年的迭代。從本質上講,在數據湖或倉庫中組合所有內容的實用性極具挑戰性。
2、隱私合規和監管監督
組織必須遵守隱私合規法規和信息安全實踐,以使用戶能夠識別風險領域并實施額外的措施來保護機密數據。組織外的許多監管機構都針對個人數據實施法律,對違規行為處以巨額罰款。這些法律要求保護數據,這也是無法普遍訪問 PII 數據的原因之一。
3、數據可發現性挑戰
由于現代數據平臺托管來自多個來源的大量數據,因此很難找到正確的數據源。
05 為什么傳統技術不足以在現代保護數據
傳統上,用戶通過應用程序或自助服務門戶訪問數據。應用程序通常具有明確定義的策略,但對于自助服務,數據是手動管理的并移動到數據倉庫或數據湖。之后,數據被劃分為各種角色,并由 OKTA 和 Active Directory 等角色管理工具進行管理。
形成的組識別具有共同訪問要求的個人,以支持他們在組織中的角色的執行。通過進入組訪問數據,當被分配到組時,訪問會批量打開。此方法未涵蓋的任何內容都將用于臨時工作流。
但是,臨時訪問通常沒有得到很好的管理。無權訪問的用戶不知道該向誰請求什么。通常,IT有一個表單,用戶可以在其中請求訪問他們通過電子郵件或通過單個應用程序搜索發現的數據集。用戶使用此表單編寫整個區域的訪問請求,或與另一個人的訪問權限相同的訪問請求。
06 現代數據訪問治理
通過數據治理制定的策略進行自動化數據訪問管理的新興趨勢。數據訪問管理的現代方法使組織能夠通過完整的方法解決最持久的數據訪問管理挑戰。
現代數據訪問擴展了傳統方法,以實現自動化、可發現性和簡化的臨時工作流程。這個過程是這樣工作的。需要構建一個數據目錄,將數據分類為不同的組,根據分類設計訪問策略,并針對駐留在分類參數之外的請求使用臨時工作流。通過在數據層自動應用的策略來管理訪問。
1、集中的數據資產目錄
第一步是創建一個集中的數據資產目錄。使用數據資產發現攻擊可以輕松實現數據目錄,利用元數據來輕松發現,而不會暴露實際數據。用戶可以從許多有利位置搜索和了解生態系統中的數據,并在需要時請求訪問,這將路由到分配的工作流程以實現快速周轉,簡單、自動化且可擴展。
2、數據分類與分級
詳見:數據安全治理:數據的分類分級指南
1)數據分類分級的原則
科學性原則。應按照數據多維度特征和邏輯關聯進行科學系統化的分類,且分類規則相對穩定,不宜經常變更。
適用性原則。不應設置無意義的類目或級別,分類分級結果應符合普遍認知。
靈活性原則。支持各部門在歸集和共享數據前,應按照業務所需完成數據分類分級工作。
MECE原則。MECE(Mutually Exclusiv Collectively Exhaustive)核心是“相互獨立,完全窮盡”。MECE原則有三層含義:“第一,所有的數據都得涵蓋全了,不能遺留;第二,分類之間不允許重復和交叉;第三,同一級次分類的維度要統一,顆粒度要一致”。
2)數據分類的方法
為幫助企業建立一套適用、科學的分類體系,可能需要對整個企業數據進行評估,包括數據的價值,敏感數據的風險等,數據分類應搞清楚的問題,包括:
關鍵性:數據對于企業日常運營和業務的重要程度?
可用性:企業能夠及時獲取和訪問所需數據嗎,所訪問的數據是否可靠?
敏感性:如果數據被泄露,對業務的潛在影響是什么?
完整性:數據在存儲或傳輸過程中有丟失或被篡改的情況嗎,對業務的影響有多大?
合規性:按照法規、公司制度、監管要求或行業標準數據需要存檔或保留多長時間?
在對組織數據進行充分摸底后,根據數據管理和使用的要求,從業務出發進行類別的劃分,例如:某地方政府,數據分類如下:
根據政務數字化應用場景分:經濟調節數據、市場監管數據、公共服務數據、社會管理數據、生態環境保護數據等
根據數據來源分:政府部門數據、企業法人數據、人口數據等。
根據共享屬性分:無條件共享數據、有條件共享數據、不予共享數據等。
不同的組織、不同的業務場景,數據的分類方式就不同,為滿足企業不同的業務需要,可能需要建立多套數據分類體系。
3)數據分級的方法
當企業使用過于復雜或太過隨意的數據分級流程時,往往會數據管理陷入越來越混亂的境地。數據分級并不一定很復雜。事實上,最佳的數據分級實踐是創建將數據按照敏感程度或受影響的程度劃分成3~4個等級即可。然后,再根據企業的特定數據、合規性要求或其他業務需求添加更細粒度的級別。
4)數據分類分級的技術
數據分類分級的技術,一般有三種:
人工手動分:數據的分類分級全部都有人工手動完成,這也是傳統最常用的數據分類分級方法。
系統自動分:通過標簽體系、知識圖譜、人工智能等技術,對數據進行自動分類分級。通過技術驅動的數據分類分級解決方案消除了人為干預的風險,降低人工分類分級的成本,同時可以全天候分類,增加分類分級的持久性。
人工+智能:在很多情況下需要人工和技術相結合的混合方式進行數據的分類分級,人工干預為數據分類提供上下文,而工具和技術可實現效率和策略執行。
07 根據分類配置和執行策略
基于分類的訪問策略可以在基于強大訪問策略框架中的分類組的數據治理委員會會議中制定。很可能還需要工具來在數據倉庫或數據湖中配置此策略框架。
策略將側重于角色及其提供的特定權限。例如,銷售代表可能僅有權訪問未分類數據的元數據,但可以完全訪問分類 PII 的數據。可以為組織中的不同角色編寫盡可能多的策略。
跟蹤訪問策略的一種方法是制作一個訪問矩陣,顯示哪些角色可以與哪些分類進行交互。訪問矩陣顯示組織的訪問策略,并增加了誰可以訪問哪些數據的透明度。來自營銷部門的賬單可以訪問標記為“營銷一般受眾”、“營銷有限”、“銷售一般受眾”以及矩陣指示的任何其他分類的數據。
通過數據資產測繪工具,可以減少檢索數據所需時間和工作量。
08 用于連續分類的臨時工作流
每天都會創建新的文件和表格,為組織帶來更多未分類的數據。由于這個量,需要一個臨時工作流來識別這些新表、文件和報告,以發送給適當的人以確認分類。
09 結論
每個公司所有的權限體系是不同的,所涉及的面向的人群也是不一樣的。權限是安全中最重要的一環,通常是包含用戶認證和用戶鑒權。
有的公司可能僅僅是BI報表的訪問,權限的配置是通過SQL片段來實現的,這樣的問題就是權限的維護復雜,同時當權限體系復雜時那帶來的SQL片段也會很復雜,繼而會帶來數據查詢緩慢。所以數據權限的設計也要根據公司的本身的實際情況來進行。

(部分內容來源網絡,如有侵權請聯系刪除)