- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2024-07-31來源:談數據瀏覽數:592次
在大模型時代,數據治理變得尤為重要。隨著大數據技術的不斷發展,數據規模呈爆炸式增長,數據來源也日趨多樣化。如何有效地管理和利用這些數據,成為了企業和社會關注的焦點。本文將探討在大模型下如何進行數據治理。
— 01—什么是大模型?
大模型是指具有數千萬甚至數億參數的深度學習模型。近年來,隨著計算機技術和大數據的快速發展,深度學習在各個領域取得了顯著的成果,如自然語言處理,圖片生成,工業數字化等。為了提高模型的性能,研究者們不斷嘗試增加模型的參數數量,從而誕生了大模型這一概念。本文討論的大模型將以平時指向比較多的大語言模型為例來進行相關介紹。
大模型的原理是基于深度學習,它利用大量的數據和計算資源來訓練具有大量參數的神經網絡模型。通過不斷地調整模型參數,使得模型能夠在各種任務中取得最佳表現。通常說的大模型的“大”的特點體現在:參數數量龐大、訓練數據量大、計算資源需求高等。很多先進的模型由于擁有很“大”的特點,使得模型參數越來越多,泛化性能越來越好,在各種專門的領域輸出結果也越來越準確。
一個基本架構,三種形式:
當前流行的大模型的網絡架構其實并沒有很多新的技術,還是一直沿用當前NLP領域最熱門最有效的架構——Transformer結構。相比于傳統的循環神經網絡(RNN)和長短時記憶網絡(LSTM),Transformer具有獨特的注意力機制(Attention),這相當于給模型加強理解力,對更重要的詞能給予更多關注,同時該機制具有更好的并行性和擴展性,能夠處理更長的序列,立馬成為NLP領域具有奠基性能力的模型,在各類文本相關的序列任務中取得不錯的效果。
根據這種網絡架構的變形,主流的框架可以分為Encoder-Decoder, Encoder-Only和Decoder-Only,其中:
1)Encoder-Only,僅包含編碼器部分,主要適用于不需要生成序列的任務,只需要對輸入進行編碼和處理的單向任務場景,如文本分類、情感分析等,這類代表是BERT相關的模型,例如BERT,RoBERT,ALBERT等
2)Encoder-Decoder,既包含編碼器也包含解碼器,通常用于序列到序列(Seq2Seq)任務,如機器翻譯、對話生成等,這類代表是以Google訓出來T5為代表相關大模型。
3)Decoder-Only,僅包含解碼器部分,通常用于序列生成任務,如文本生成、機器翻譯等。這類結構的模型適用于需要生成序列的任務,可以從輸入的編碼中生成相應的序列。同時還有一個重要特點是可以進行無監督預訓練。在預訓練階段,模型通過大量的無標注數據學習語言的統計模式和語義信息。這種方法可以使得模型具備廣泛的語言知識和理解能力。在預訓練之后,模型可以進行有監督微調,用于特定的下游任務(如機器翻譯、文本生成等)。這類結構的代表也就是我們平時非常熟悉的GPT模型的結構,所有該家族的網絡結構都是基于Decoder-Only的形式來逐步演化。
可以看到,很多NLP任務可能可以通過多種網絡結果來解決,這也主要是因為NLP領域的任務和數據的多樣性和復雜性,以及現代深度學習模型的靈活性和泛化能力,具體哪種結構有效,一般需要根據具體場景和數據,通過實驗效果進行選擇。
— 02—大模型面臨的挑戰
大模型要發揮價值,需要構建從數據產生、數據整理、模型訓練、模型適配到實際部署的完整生態系統。大模型的應用也面臨著一些挑戰和限制。一方面,大模型的訓練和使用需要大量的計算資源和存儲資源,成本較高。另一方面,大模型的訓練需要大量的標注數據,但標注數據的獲取和整理成本也較高。
此外,大模型的可解釋性和泛化能力也需要進一步研究和改進。如果不對大模型進行數據治理,可能會導致數據質量低下、數據難以利用、資源浪費、成本增加、數據安全和隱私泄露風險增加等一系列問題。因此,為了確保大模型的有效應用和可持續發展,必須進行數據治理。
— 03—數據治理的框架和核心內容
不同的利益相關者群體對數據治理的關注點不一樣,因此各自的視圖也不一樣。其中管理者視圖可以概括為“五域模型”,分別是“管控域”、“過程域”、“治理域”、“技術域”、“價值域”。
管理者視角-數據治理五域模型
管控域:在數據治理戰略指導下制訂企業數據治理組織,明確組織的責、權、利,崗位編制及技能要求。
治理域:是數據治理的主體,明確數據治理的對象和目標。
技術域:數據治理的支撐手段,指的工具平臺。
過程域:是數據治理的方法論。
價值域:通過對數據資產的管控挖掘數據資產的價值,并通過數據的流動、共享、交易變現數據資產。

技術視角:企業大數據治理實踐指南框架
數據治理體系,包括數據戰略、數據治理管控體系(數據治理組織、制度、流程、管控機制、績效體系及標準體系)、數據架構、主數據、元數據、指標數據、時序數據、數據質量、數據安全、數據集成與交換、數據開放和共享、數據資產管理能力成熟度評估以及數據價值、數據共享、數據變現等多方面。
數據治理車輪圖從數據戰略、數據管控(組織管理、制度體系、流程管理及績效)、三個核心體系(數據標準體系、數據質量體系、數據安全體系)和工具等分別進行介紹數據治理體系。
企業數據管控和三個核心體系
— 04—
AI大模型在數據治理中的應用目前,企業的數據治理工作以人工實施為主,其中一些重復性較強的工作,如:數據標準制定和映射、元數據信息完善、數據目錄掛載等,需要消耗大量的人力和時間成本,這給本來就難以量化業務價值的治理工作的順利推進帶來了更多的困難。AI大模型的引入,可以有效地解決這一難題。相比傳統的人工為主的數據治理,基于AI大模型的數據治理具有以下優勢:
自動化:AI大模型可以通過學習和分析數據治理各項工作的特征和規則,自動化批量進行大規模數據的數據標準、元數據、數據質量管理、數據安全管理等數據治理任務,減少了人工處理的工作量,提升治理工作效率。
實時性:AI大模型可以實時監控和分析數據的變化,并及時進行預警或直接處理,提升數據治理的響應速度。 擴展性:AI大模型可以通過學習和迭代,持續提升自己的能力,以適應高度變化的業務和技術環境對數據治理的需求。基于上述考量,在數據治理領域,基于AI大模型的能力,可以從如下主要場景實現從人工治理到智能治理的進化。
無論是以人工為主的數據標準管理,還是基于AI大模型的智能化數據標準管理,首先都需要我們對企業的數據標準現狀進行詳盡的調研工作。調研的內容包括:企業當前的數據業務含義、數據標準分類、數據標準內容,業務和技術團隊對當前數據標準的改進需求(以下簡稱“改進需求”),相關的國際標準、國家標準、地方標準和行業標準(以下統一簡稱為“外部標準”)等。
在此基礎之上,利用AI大模型,可以從以下幾個方面提升數據標準管理的智能化程度:
1.標準智能制定 基于企業現有標準、改進需求和外部標準,自動制定適合企業的數據標準。和人工制定的標準一樣,自動制定的標準,也需要經過企業的業務和技術專家的審定后,才能正式發布使用。 2.標準智能落標 前向落標:按企業的數據標準實施策略,逐步賦能周邊系統,在建表時,自動為字段推薦/匹配合適的數據標準。后向落標:按企業的數據標準實施策略,逐步治理存量數據,批量自動化為其推薦/匹配合適的數據標準。
3.標準智能維護 隨著業務需求和環境的變化,數據標準需要不斷更新和維護。我們可以通過AI大模型,自動監測和分析業務數據的變化,提供標準的新增、變更、下線建議,幫助企業及時進行數據標準維護。Gartner在其“數據編織”的架構中提出了Metadata Activation(國內一般翻譯為“主動元數據”或“元數據激活”)的概念,隨后又在其“元數據管理成熟度”中(見圖3-2)對主動元數據進行了解釋,概括來說就是:主動元數據指的是一種數據管理方式,即,發現、獲取盡可能多的元數據,并以豐富的元數據為基礎,利用各種AI技術手段(ML、NGL、知識圖譜等),主動改進數據管理的工具和活動,提升數據管理的效率,降低管理成本。
圖3:Gartner數據編織架構
圖4:Gartner元數據管理技術成熟度
Gartner在提出數據編織概念時,AI大模型還沒出圈,但我們可以想象,如果Gartner更新其對數據編織的闡述,肯定會毫不猶豫地把AI大模型加入其架構中。
在元數據管理中,利用AI大模型,可以從以下幾個方面提升智能化程度:
1.元數據智能挖掘 企業在做元數據采集時,由于源系統設計和管理的不規范,大多數情況下只能采集到最基礎的技術元數據信息(如:數據庫、Schema、表名、字段名等),需要花費大量人力和時間完善其他的核心元數據信息(如:表的中文名、業務口徑、描述、標簽,字段的中文名、描述、取值說明、敏感等級等)。通過AI大模型的推理能力,可以基于最基礎的技術元數據信息和業務樣例數據,自動填充其他的核心元數據信息。
2.數據血緣智能挖掘 業務和技術的發展,以及隨之而來的日益復雜的加工邏輯、多源異構的數據庫和多種類型的加工腳本,這些都給數據血緣解析(尤其是字段級血緣解析)帶來了極大的挑戰。通過AI大模型的代碼解讀能力,可以提升復雜代碼、異構數據庫和多類型的加工腳本場景下,血緣解析的成功率和準確率。再進一步,如果能利用AI大治理模型總結并生成表級和字段級的業務口徑或者數據處理邏輯,將極大地提升人們理解數據、數據溯源和數據影響分析的效率。
3.數據智能分類 基于數據對象的元數據、業務樣例數據,自動推薦數據對象所屬的數據分類或掛載的數據目錄。
4.數據推薦 基于企業中數據使用者的個人信息(部門、崗位、參與的業務等)、在大數據體系平臺(數據開發平臺、數據治理平臺、BI報表平臺等)中的操作行為(搜索、查看、收藏、訂閱等)和數據對象的元數據、業務樣例數據,向數據使用者推薦他們需要的數據對象。
在數據質量管理中,利用AI大模型,可以從以下幾個方面提升管理的智能化程度:
1.質量規則推薦基于數據對象的元數據和業務樣例數據,自動為數據對象推薦/匹配表級和字段級的數據質量規則。
2.質量閾值推薦通過持續分析歷史的質量校驗結果數據,向用戶提供建議的質量異常閾值,并能持續調整建議的結果。
3.質量異常自動定位基于數據血緣鏈路和數據質量校驗結果,自動定位數據質量異常的源頭。
4.質量異常智能修復針對部分數據質量異常(如重復數據、缺失數據、不一致數據等),基于數據對象的元數據和質量正常的業務樣例數據,自動修復數據中的異常。
在數據安全管理中,利用AI大模型,可以從以下幾個方面提升管理的智能化程度:
1.敏感數據智能識別基于數據對象的元數據、業務樣例數據和企業的數據分級策略,自動識別數據對象的敏感等級。
2.脫敏/加密規則推薦基于數據對象的元數據、業務樣例數據、敏感等級和企業的數據安全策略,自動為數據對象推薦/匹配脫敏或加密規則。
3.數據風險智能識別 基于數據對象的元數據、血緣、敏感等級,企業的數據安全策略和已有的數據權限策略,自動識別數據風險并提供異常處理策略,應用場景主要包括: 
— 05 —大模型下數據治理的未來展望
隨著大模型的不斷發展,數據治理將面臨更多的挑戰和機遇。未來,數據治理將更加注重智能化技術的應用。利用人工智能和機器學習技術對數據進行自動化的分類、標簽化和質量檢測等操作,提高數據治理的效率和準確性。同時,隨著區塊鏈技術的不斷發展,數據安全和隱私保護將更加得到重視。區塊鏈的去中心化特性和加密技術可以為數據提供更加安全可靠的存儲和傳輸方式。此外,隨著邊緣計算的不斷發展,數據的處理和分析將更加接近數據源本身,進一步加速數據處理速度和提高實時性。大模型下的數據治理是一項復雜而重要的任務。通過建立完善的數據質量管理體系、數據安全與隱私保護體系、數據流程管理體系和數據生命周期管理體系等策略,可以有效地實現數據的合規、安全和高效利用。同時,需要不斷優化和完善數據治理體系,以適應不斷變化的大模型技術和業務需求。只有這樣,才能更好地發揮大模型的優勢,推動各行業的快速發展和創新進步。參考:1、數據派THU 《大模型掃盲系列——初識大模型》2、MyDAMA 《淺談大模型的數據治理》3、亞信科技新技術探索? 《基于AI大模型的智能化數據治理》
上一篇:主數據管理體系建設方案...
下一篇:主數據治理項目落地方案...