- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2022-06-27來源:假面青衣瀏覽數:291次
企業的大數據治理應根據業務需求和行業標準量身定制,同時考慮大數據處理的基本特征和要求。例如,醫療保健和零售的數據治理都將涵蓋個人信息,但針對每種情況的傳輸安全措施會有所不同。
隨著數據量的不斷增長和數據存儲成本的逐漸降低,企業正在嘗試使用大數據。不幸的是,業務人員并沒有立即獲得收益,而是意識到,盡管他們已經擁有數據治理框架,但他們必須擁有一組可擴展的數據分析服務,以解決與多種數據格式的融合問題和數據安全性帶來相關挑戰。?出于這個原因,大數據治理需要一種不同的方法來確保“正確的人在正確的時間訪問到正確的數據”,通過使用這些數據獲得洞察力,驅動或指導業務決策。
01 大數據治理必答 企業的大數據治理應根據業務需求和行業標準量身定制,同時考慮大數據處理的基本特征和要求。例如,醫療保健和零售的數據治理都將涵蓋個人信息,但針對每種情況的傳輸安全措施會有所不同。
1、大數據治理與數據治理:有什么區別? 實際上,應該沒有任何區別——相同的原則應該適用于兩者。
大數據治理在挑戰和原則方面與傳統數據治理非常相似。但是,前者必須考慮到一些特殊的大數據特征:
大數據量可達PB級以上
大數據可以是結構化的、半結構化的或非結構化的
大數據存儲庫跨越文件、NoSQL 數據庫、數據湖和流
數據是從內部和外部來源提取的,包括連接的設備
數據實時處理
由于當今市場上的傳統數據治理工具無法支持大數據處理需求,因此企業必須重新考慮其數據分析策略,并使現有技術成熟和發展以應對新的挑戰。2、誰負責數據治理? 大數據治理是跨越部門邊界的,并對每個部門都有涉及或影響,不論是好的或壞的方式。它需要整個企業之間的協作以及明確定義的角色和數據所有權級別。當每個人都知道誰擁有數據相關的權力和責任時,就可以避免混亂和錯誤,讓數據治理秩序化。根據企業規模和目標,強大的大數據團隊可能需要以下角色:

以下是各個角色的分工:
數據治理委員會:一般由企業的高級管理人員組成,負責數據戰略創建或批準,負責項目優先級以及數據政策和標準授權。
首席數據官 (CDO):參與數據戰略制定,監督數據框架實施,并將數據用作戰略資產。他們創建數據標準、政策和實踐,并發展企業數據文化。
大數據架構師:精通相關技術并了解它們之間的關系。他們負責設計能夠解決任何數據相關問題的大數據處理解決方案。他們可以深入參與數據治理、自動化程序和數據安全性。
數據工程師:負責建立數據集成系統,以收集、清理和組織來自多個來源的數據,并將其傳輸到數據倉庫。
數據科學家/數據分析師:負責分析大量結構化和非結構化數據,創建算法和預測模型,并提取與業務相關的趨勢和見解。
數據所有者:一般是業務團隊成員,他們使用數據并對團隊內的數據資產的質量和安全性負責。 數據管理員:與數據所有者密切合作,并監督后者如何執行數據策略以及他們是否遵循數據政策和標準。他們還參與培訓新的數據所有者。由于大數據經常被收集但由于缺乏專業人員而未被使用,目前對數據管理員和相關專業知識的需求明顯更高。IT 團隊:負責技術實施和定制,開發用于大數據處理、審計、安全和維護的附加功能。
很明顯,大數據技術能夠取代上述一些角色,比如:架構師和數據科學家,或者一些角色可以合并和組合職責。但是,在技術實施過程中讓所需的專業人員參與是很重要的。
3、什么是數據治理級別? 重要的是要了解并非所有數據都可以以相同的方式進行管理,尤其是在我們處理大數據時。治理可以分為三個層次:?
1、嚴格管理的數據,已經過審查、標準化、組織和性能優化。
2、松散治理的數據,可以有兩種類型。一種是數據科學家用來進行實驗,近似以及搜索趨勢和模式的數據。另一種是不需要準備或需要最少標準化的數據,例如:密鑰的ID。??
3、非治理數據,是最純粹形式的原始數據,沒有額外的鍵。此類數據可用于“讀取模式”分析——數據以無組織和非結構化格式存儲,并針對特定目的進行組織和處理。? 監控所有治理級別的數據非常重要——數據不斷變化,可能需要轉移到另一個治理級別。
02 大數據治理必備 對于大數據來說,即使是積累和存儲這樣的常見過程也存在很多為挑戰,更不用說分析和預測了。以下是一些讓大數據治理有所作為的必備品。
1、大數據治理框架
大數據和嚴格的控制不能結合在一起。為了允許不同級別的治理,有必要開發一個框架,讓公司中的每個人都在同一頁面上。每個企業都可以擁有與業務目標和愿景相一致的獨特數據治理框架,但要實現可持續治理,有必要考慮以下組件。
業務目標 為了確保收集和處理相關數據,每個人都朝著同一個方向前進,并且有衡量進展和成功的指標,有必要從上到下解釋為什么大數據治理是必不可少的(可能通過使用數據講故事)和基于這些目標制定大數據使命和愿景。參與角色 大數據治理策略需要專業的團隊來制定、管理、使用和保護數據。根據企業的組織結構,有必要確定您需要哪些內部角色——數據架構師、數據科學家、數據所有者、數據管理員或其他人。一旦分配了角色,就可以委派正確的數據共享和使用的權限和責任。??應提供溝通機會和無障礙訪問數據,讓員工感覺他們是一個團隊,而不是孤立的利益相關者。建立持續的培訓計劃并將所有數據角色納入相關的大數據治理培訓也很重要。 另一個重點是在數據治理團隊中激發數據文化。理想情況下,它應該是一種參與、可持續性以及數據質量和合規性的文化。 治理規則 大數據治理管理應與數據所有者和數據管理者一起制定一套規則和制度,如數據管理制度和數據標準,以規范數據采集、管理、使用和保護。大數據治理過程的所有參與者都應該了解數據使用(為確保這一點,定期進行數據審計)、合規法律和內部實踐,知道如何在法律范圍內行事,并正確合法地使用數據。數據安全
最重要的是,企業決定實施大數據治理以確保數據安全。除了強大的企業網絡安全控制機制外,與數據交互的員工還應了解敏感數據的安全處理策略,并在數據處理和更改過程中遵守既定規則。建立一定的訪問控制和安全授權策略來規范誰可以查看和更改不同類型的數據。
2、可擴展的數據倉庫架構 傳統的企業數據倉庫 (EDW) 是否已死?當然不是!但是,要從大數據的業務影響中看到任何好處,需要一種新的架構,它結合了 EDW 環境和能夠處理多結構化數據的創新技術。為此,引入了擴展數據倉庫架構或 XDW。讓我們回顧一下它的分層結構和功能組件:

數據存儲層 數據存儲層用于存儲大量結構化和非結構化數據。它可以是本地存儲在關系數據庫、NoSQL 數據庫、分布式文件系統中的原始數據,也可以是通過 AWS 或 Microsoft Azure 等服務存儲在云中的原始數據。?該層還可以包括實時流數據——大量流處理的數據塊,由多個源連續生成并通過服務器動態使用(與在處理之前首先存儲和索引的數據相反)。它可以是應用內活動、社交媒體情緒、來自物聯網設備的遙測等等。
數據采集整合層 該層用于將數據添加到數據層中。除了與精心設計的 ETL 流程的傳統集成之外,這里還可以使用數據精煉。后者從物聯網設備或社交媒體等來源批量和實時攝取原始結構化和非結構化數據,將其轉換為有用的信息,并提供給其他 XDW 組件。?數據提煉用于確定大數據的價值。通過粗略的分析,可以了解哪些數據是有用的,并快速發現有趣的數據。該過程需要靈活的數據治理,因為生成的數據可能不需要集成和質量處理(但靈活性并不排除安全性和隱私性)。
數據處理層 這是傳統 EDW 所在的位置,它獲取所有數據,將其結構化為適合查詢 SQL 和數據倉庫 OLAP 服務器的格式,并將其推送到 BI 工具。對于金融或監管領域的關鍵分析,它仍然是干凈、可靠和一致數據的最佳來源。它也是公司內各個部門使用的 KPI 和其他標準指標的數據來源。?調查技術,如 Hadoop 或 Spark,處理更多不尋常類型的數據和各種實驗。他們探索大數據源并處理數據挖掘、模式分析甚至定制調查等分析方法。這些技術的使用場景從簡單的實驗沙箱到全面的分析平臺不等。在任何情況下,它們都允許高速分析大量數據,并在 EDW、實時分析引擎或獨立業務應用程序中使用這些數據。
數據分析和BI層 在這里,數據可視化和商業智能技術允許數據科學家和分析師探索數據、提出問題、構建可視化并與之交互等等。?另一個組件是支持流式分析和實時分析的應用程序開發的平臺。其應用用例涵蓋欺詐檢測、流量優化、風險分析等。該平臺與其他組件(如 EDW 或探查技術)緊密集成,可以自由地在它們之間傳輸數據。
所有這些組件都不能彼此孤立地發揮作用——所有這些組件都必須結合在一起,并輔以數據治理。
?
03 案例:某藥企的大數據治理 介紹一個我們的大數據分析項目。我們與一家提供先進藥物分析和技術的美國跨國公司合作。客戶積累了 5 萬多項專利的 5 億多條患者記錄,更不用說數 PB 的專有數據了。然而,他們的遺留系統限制了他們從不斷增長的數據中獲取更多價值的能力,因此他們聯系我們,幫助他們創建商業智能項目計劃、遷移到云端并提高數據管理能力。
首先,對 BI 平臺進行重構 客戶的數據分析平臺包含一個工具集,用于基于多個結構化和非結構化數據源生成報告。該系統無法支持公司的需求和適應不斷變化的市場,因此需要在 UI、數據處理和報告生成方面進行重大的重新設計和優化。我們在 ASP.NET MVC 框架上開發了一個新的 BI 平臺,使用 Microsoft SQL Server 作為數據庫引擎,我們提供了重新開發的功能、靈活性和可擴展性。它使 SQL 查詢速度提高了 3-5 倍,并減少了 RAM 和 CPU 使用率。
第二,交付了一個數據管理和數據可視化平臺 舊平臺不支持多種數據源格式,并且具有過時的 ETL 配置,這會減慢數據處理速度。因此,數據處理可能需要數天時間,其中一些來源被排除在處理之外。此外,非技術用戶無法參與 ETL 流程,需要一個用戶友好的界面來與數據交互。我們開發了一個數據管理應用程序并將其與多個數據庫引擎(Oracle、Microsoft SQL)和 Apache Hadoop 集成,以實現大型數據集的分布式存儲和處理。它使數據處理速度提高了 10 倍,并減少了內存和空間使用量。該應用程序也可供非技術用戶使用,他們可以在幾分鐘內可視化數據并獲取報告。該系統能夠處理各種數據源、轉換數據并準備不同的輸出形式,無論是數據庫還是文件。通過這種方式,用戶能夠將準備好的數據傳送到其他目的地,例如云存儲、FTP 服務器或其他團隊。
第三,本地服務器遷移到云端 為了在用戶數量不斷增長的情況下保持較高的系統性能,我們啟動了從本地服務器到云端的系統遷移。我們的 DevOps 專家審核了現有基礎架構并準備了遷移路線圖。我們設計了一個可擴展且安全的云基礎設施并將其部署到 AWS。結果,客戶獲得了一個具有私有和公共子網、定義的網絡網關和微調的安全設置的虛擬私有云。為了確保大量敏感數據的安全,我們使用了 Amazon S3。關鍵數據通過 AWS 工具進行備份。我們利用 Amazon RDS 創建和保存數據庫實例的自動備份。為了增強安全性,我們使用 AWS 服務將密碼和許可證代碼存儲為加密參數,并啟用托管實例的安全配置和密碼重置。最后,從長遠來看,我們取得了出色的成績 我們的解決方案現在被許多領先的制藥公司使用,使他們能夠處理來自不同來源的多種格式的數據,并使用大數據治理工具高效、安全地管理他們的數據資產。 寫在最后的話
大數據正在顛覆傳統的數據管理。考慮到對大數據未來的預測,企業認為迫切需要尋求新方法和新技術解決方案,以幫助高效、安全地處理大量多格式數據。大數據治理是全新數據治理和使用方法的重要組成部分,通過量身定制的框架和基礎設施以使其發揮作用,非常重要!