- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2024-06-06來源:沙丘社區瀏覽數:1004次
數據的采集方式、使用環境以及組織之間存在的語義差異導致數據碎片化現象嚴重,大模型的出現將對企業數據治理產生深遠影響,自然語言有望成為數據語言,使企業能夠更加容易地訪問數據,而不需要解決以上導致數據碎片化的難題。
目前,大模型與數據治理的結合仍處于早期階段,尤其是中國大部分企業在數據治理水平方面仍有較大欠缺,短期來看大模型對數據治理的影響較小,但企業不應忽視大模型將帶來的長期影響。
大模型正在通過自然語言改變數據治理活動,使數據治理活動更易于訪問。與元數據管理工具的集成以及語義工具和知識圖譜的豐富化,將用于在企業或行業特定語料庫上訓練大語言模型。因此,企業有望通過自然語言對話式指令執行數據治理任務,這不僅能降低數據治理的技能門檻,還能提高數據治理專家的工作效率,顯著優化成本。
大模型對數據治理工作的影響主要為:
? 讓大模型學習數據語義,然后通過元數據發現、構建和維護上下文語義等讓大模型觀察新數據;
? 利用大模型修正和生成代碼,從而增強數據探索、數據工程、數據操作和管理活動。
但是這些活動目前仍然需要人工干預和控制,確保元數據的一致性并解決異常情況,或是在代碼生成時驗證準確性。
通過大模型賦能數據治理,企業有望實現如下業務收益:
? 提高數據治理團隊的工作效率;
? 優化成本;
? 降低非技術用戶的技能門檻,更快地獲取洞察力。
發現和記錄元數據并基于元數據構建知識圖譜正在成為企業的一項重要能力,這是通過大模型增強的數據編織來解決碎片化數據治理問題的第一步。盡管很多數據治理工具中提供數據目錄功能以實現元數據管理自動化,但很少有提供展示元數據使用情況的知識圖譜功能。
大模型為實現增強型元數據管理提供了一種新的方式,通過利用與內容管理類似的方法,可以提取數據語義并識別數據使用的上下文。雖然語義差異(例如,銷售部門與營銷部門對客戶的描述方式)可能無法從根本上解決,但可以通過上下文去解決,營銷部門使用一套專業用語而銷售部門使用另一套專業用語,將二者之間的關系記錄在知識圖譜中,有助于在跨營銷和銷售的場景中減輕上下文之間的理解差距。
代碼生成使得用戶可以通過自然語言生成數據管道,提高數據工程師的生產力,還有望降低數據工程的技術門檻,使非技術用戶也能夠輕松生成或增強數據管道。但是用戶需要檢驗或糾正生成代碼中發現的任何問題或邏輯錯誤。因此,數據工程師仍需要理解大模型生成的代碼,熟悉底層數據表示以保證代碼的準確性。
代碼校正和維護(例如對代碼進行注釋描述)是使用大模型來改進數據工程、數據質量和數據治理活動的另一種方式。大模型可以幫助識別數據上下文中的錯誤(如,在查詢中選擇要使用的表格時出現錯誤),其他的應用場景可能還包括檢測語義差異(例如對不同概念使用相同術語或將相同術語用于不同計算)、數據質量規則中的異常檢測或自動應用數據質量規則作為數據管道生成的一部分。
大模型可以用于數據管道或系統健康監測(包括成本)的簡單操作說明,這些功能會降低用戶的操作難度和成本。但這些功能只會影響用戶體驗,并不會從根本上改變數據管理的操作方式。隨著時間的推移,在與其他AI技術和代碼生成能力相結合的情況下,更多的管理和部署工作將被自動化,實現系統的自我修復、自我調整和成本優化。
大模型在改變數據治理市場和實踐的同時,也會為企業帶來一些需要額外應對的風險,具體來看:
第一,與大模型的其他應用場景一樣,當應用于數據治理時,也容易出現幻覺。生成的查詢或代碼可能存在錯誤,因此數據發現的過程可能不準確。
第二,當連接到企業數據時,與安全性、隱私性甚至泄露元數據相關的風險可能為企業帶來挑戰。
第三,企業數據相關負責人可能會面臨技術的額外支出和復雜性。
第四,大模型帶來的易用性和生產力并不能解決數據本身存在的問題,企業如果想獲得數據的準確性和質量,就必須完善數據治理,加強元數據管理。
第五,使用嵌入大模型或RAG的數據管理技術可能會導致計算成本顯著增加,企業需要平衡投入成本與可獲得的收益。
第六,在模型未達到足夠的準確度前可能需要反復的進行人工培訓和修正模型輸出,這可能會給員工帶來額外的負擔。
第七,在將大模型用于數據治理領域之前,企業需要專門的技能培訓。企業所有人員(包括業務人員在內)都需要掌握更多的數據知識,從而更好地理解大模型對數據治理的影響。負責數據治理的員工需要掌握更多大模型技術相關的技能如提示工程等。數據管理員、數據架構師、數據工程師和運營人員等需要培訓、驗證和測試大模型功能。
下一篇:數據治理:一文講透數據標準...