伴隨著大數據、云計算以及算法的發展,人工智能的熱潮從幾年前一直延續至今,并且廣泛應用于多個行業和領域,成為當前正在進行的科技革命的一個領軍技術。而人工智能在如火如荼的
數據治理領域又怎么能缺席呢。數據治理和人工智能,看似不相關的兩個詞,他們兩者放一起,會發生什么故事呢。
數據治理為人工智能奠定基礎
大數據是不斷持續的
數據采集、清洗、轉換、分類等的數據積累,而數據治理則為大數據的呈現提供了更為規范的管理模式。由于目前大部分人工智能的形式需要通過大量的數據運算實現,因此離不開大數據和數據治理的支持。人工智能需要依賴大數據平臺和技術來幫助完成深度學習進化。
數據治理為人工智能提供優質數據
大部分的人工智能分為訓練(Training)和預測(Predict)兩個環節。機器訓練算法的效果依賴于所輸入的
數據質量的優劣,如果輸入的數據存在偏差,那么輸出的算法也將產生偏差,這可能直接導致所得結果的不可用。數據治理在提升數據質量方面具有重要作用。通過梳理數據質量需求、定義數據質量檢查規則、制定數據質量改善方案、設計并實施數據質量管理工具、監控數據質量管理操作程序和績效等數據質量管理環節,企業可以獲得干凈的、結構清晰的數據,為深度學習等人工智能技術提供可信的數據輸入。
數據治理為人工智能保障數據隱私
當前人工智能發展中面臨的很大制約就是數據權屬和隱私保護問題。個人隱私數據應該受到保護,這些數據的濫用可能對個人造成巨大的財產損失甚至人身傷害。所謂隱私保護,其實就是對隱私數據的保護,歸根結底是對數據用戶的隱私保護。數據治理工具從技術層面設計了保護隱私數據的諸多環節,提供數據模糊化、數據脫敏、數據加密,可為企業個人數據保護奠定基礎,從而實現人工智能應用的數據合規性。
人工智能提升數據治理智能化水平
元數據管理
在傳統的元數據管理中,對于非結構化數據的元數據采集通常是通過創建非結構化數據的搜索索引的方式。而語音識別、圖像識別、文本分析等人工智能技術能幫助實現元數據的最初業務詞庫的構建,成為提取各類有價值的非結構化元數據的資源池。
數據標準管理
在數據標準的實施初期,需要對存量系統的數據庫字段進行摸底,識別出共有的、重復使用的業務字段,作為建立數據標準的依據。如果完全靠人工梳理,需要協調各業務部門大量人員參與,工作量巨大且容易出錯。借助機器學習、自然語言處理技術,可以根據字段業務名快速的整理出高頻詞根,將可能需要幾個月的工作在幾天內完成。
數據標準管理的另一個重要環節是標準與元數據的映射。在業務系統眾多,數據標準與業務系統的元數據進行映射往往是實施工程師的惡夢,一不小心就容易出錯。有了人工智能技術,可以對業務字段名進行自然語言處理,精確分詞,根據詞根相似性將數據標準與元數據自動映射起來。
數據質量管理
數據質量是保證數據高效應用的基礎。衡量數據質量的指標體系包括完整性、規范性、一致性、準確性、唯一性、時效性。在實施數據質量提升方案之前,需要依據不同的業務規則和業務期望選擇合適的數據質量指標體系,并進行數據的清洗。
一般數據質量改善的理想模式是從數據源頭剔除臟數據,但是在現實中并不可行。因此,根據業務期望,應針對性地提升各個業務階段的數據質量。機器學習(如分類學習、聚類、回歸等)可提取并識別存在的質量問題,從而制定有效的數據質量評估指標,最大化實現該指標下的數據質量的提升。同時,監督學習、深度學習也將實現對
數據清洗和數據質量的效果評估,進而改善轉換規則和數據質量評估維度,并隨著數據量和業務期望的逐漸變化,使數據質量提升方案動態更新。
數據安全
數據安全是指讓信息或信息系統免受未經授權的訪問、使用、破壞、修改、銷毀的過程或狀態。人工智能技術可以進行敏感數據的分類分級。應用機器學習、自然語言處理和文本聚類分類技術,能對數據進行基于內容的實時精準分類分級,而數據的分類分級是數據安全治理的核心環節。例如,利用數據分類引擎在郵件內容過濾、保密文件管理、情報分析、反欺詐、數據防泄露等領域明顯提升了安全性。
主數據管理
主數據指企業核心業務實體的數據,也叫黃金數據,是在整個價值鏈上被重復、共享應用于多個業務流程的、各個業務部門與各個系統之間共享的基礎數據,是各業務應用和各系統之間進行信息交互的基礎。但是在
主數據管理的過程中,企業可能面臨如何在數量龐大的數據項中識別主數據、如何建立統一的主數據標準等問題。
人工智能自動識別主數據
確定主數據依賴于企業對于業務需求的理解和相應“黃金數據”的定義。通常來說,每個主數據主題域都有自己專用的記錄系統,并且分散在各個業務系統中。人工智能相關技術可以幫助我們在所有數據中篩選出頻繁出現或流動的數據,同時快速確定主數據的可靠與可信數據來源,構建完整的主數據視圖。
人工智能幫助重復數據自動匹配和合并
主數據管理面臨的一個挑戰是在企業眾多的系統中對于同一數據項或者重復的數據項進行匹配和合并,解決該挑戰的一個方法是構建數據匹配規則,包括不同置信水平的匹配接受度。有些匹配需要極高的信任度,可以基于跨多個字段的準確數據匹配實現;有些匹配僅僅由于數據值的沖突,可以采用較低的信任度。機器學習、自然語言處理可幫助建立重復數據識別的匹配規則,在識別字段重復的主數據之后不進行自動合并,并確定與主數據相關的記錄,建立交叉引用關系。
數據治理平臺的智能化
未來,通過人工智能技術降低數據治理的門檻將成為數據治理發展的重要方向。充分考慮到數據治理高復雜性的特點,億信華辰睿治數據治理平臺不斷融合AI新技術,力求通過智能化管理來簡化數據治理實施過程,大大地解放技術人員,幫助企業實現更高效的數據治理,遠離“數據黑洞”。
1、智能化元數據服務。睿治平臺支持全自動元數據采集和關聯,實現元模型智能化應用,提供圖形化元
數據分析視圖。
2、智能化探查數據質量。睿治平臺內置數理統計算法、綁定機器學習算法,實現自動探查數據質量,同時支持智能修復。
3、智能化構建數據標準。睿治平臺支持智能化映射及落標,形成的數據標準和業務數據雙向評估。
4、智能化識別主數據。睿治平臺自動識別主數據,幫助重復數據自動匹配和合并,構建完整的主數據視圖。
隨著數據治理和人工智能兩個領域的各自快速發展,未來二者的融合將會有更多場景和商業模式。
(部分內容來源網絡,如有侵權請聯系刪除)