在人工智能浪潮席卷全球的今天,所有AI應(yīng)用的基石——數(shù)據(jù),其治理工作卻面臨著前所未有的挑戰(zhàn)。本文基于億信華辰總經(jīng)理毛大群在2025DAMA全球數(shù)據(jù)管理峰會上的演講分享,探討大模型如何為傳統(tǒng)
數(shù)據(jù)治理注入新動能,以及高質(zhì)量的數(shù)據(jù)治理又如何反哺AI,共同開啟一個雙向賦能的螺旋式上升時代。
數(shù)據(jù)治理的老大難:為何投入巨大卻收效甚微

多年來,數(shù)據(jù)治理一直是企業(yè)
數(shù)字化轉(zhuǎn)型中的核心議題,但其困境也同樣突出。無論是甲方企業(yè)還是乙方服務(wù)商,都普遍面臨著“周期長、成本高、價值不顯”的難題。
成本高昂:一個典型的數(shù)據(jù)治理項目中,超過50%的成本消耗在數(shù)據(jù)處理環(huán)節(jié),而數(shù)據(jù)調(diào)研、制度建設(shè)等管理流程也占據(jù)了30%以上。
人力密集:從元數(shù)據(jù)梳理、
數(shù)據(jù)標(biāo)準(zhǔn)制定到
數(shù)據(jù)質(zhì)量規(guī)則落地,核心環(huán)節(jié)高度依賴專家經(jīng)驗和大量人工操作,本質(zhì)上仍是“人力密集型”產(chǎn)業(yè)。
價值難顯:巨大的投入之后,真正實現(xiàn)“知行合一”、
數(shù)據(jù)價值充分釋放的案例仍是少數(shù),導(dǎo)致許多企業(yè)對數(shù)據(jù)治理望而卻步。
AI for Data:大模型如何為數(shù)據(jù)治理降本增效
在AI時代,上述問題不僅沒有消失,反而更加凸顯。那么,被寄予厚望的大模型,能否成為破解數(shù)據(jù)治理困局的“金鑰匙”?答案是肯定的。大模型憑借其強大的底層能力,正在重塑數(shù)據(jù)治理的作業(yè)模式。從原理上看,大模型的四項核心能力與數(shù)據(jù)治理場景完美契合:

語言理解能力:大模型是天生的語言大師,能精準(zhǔn)理解和處理各類文本信息。
代碼轉(zhuǎn)換能力:其底層的Transformer架構(gòu)使其具備強大的映射和代碼生成能力,如我們熟知的NL2SQL(自然語言轉(zhuǎn)SQL)。
歸納總結(jié)能力:能快速從海量信息中提煉要點,生成會議紀(jì)要、文檔摘要等。
邏輯推理能力:在復(fù)雜關(guān)系中發(fā)現(xiàn)深層聯(lián)系,是未來發(fā)展的關(guān)鍵方向。
基于這些能力,大模型正在以下幾個方面顯著提升數(shù)據(jù)治理的效率和質(zhì)量。
1. 數(shù)據(jù)開發(fā)提效:讓大模型成為“金牌程序員”

數(shù)據(jù)處理是數(shù)據(jù)治理中最耗時耗力的環(huán)節(jié)。無論是編寫SQL、Python腳本,還是使用ETL工具,都離不開數(shù)據(jù)開發(fā)工程師的手工勞動。大模型天生就是優(yōu)秀的程序員,能夠根據(jù)指令自動編寫和優(yōu)化代碼,極大地解放了人力。根據(jù)億信華辰的工程實踐統(tǒng)計,引入大模型后,數(shù)據(jù)開發(fā)效率可提升約40%,成本降低30%。
2. 制度文檔生成:從“人找制度”到“AI生制度”
數(shù)據(jù)治理不僅是技術(shù)活,更是管理活,涉及大量規(guī)章制度、訪談紀(jì)要、需求文檔等非結(jié)構(gòu)化文本。利用大模型的歸納總結(jié)能力,可以構(gòu)建一個包含項目模板、歷史制度、訪談記錄的本地知識庫。通過簡單的提示詞,就能快速生成和迭代各類制度文檔,效率提升可達(dá)60%,成本降低超過50%。
3. 核心治理任務(wù)智能化:攻克元數(shù)據(jù)、主數(shù)據(jù)與數(shù)據(jù)質(zhì)量難題

在
元數(shù)據(jù)管理中,大模型的推理能力可以幫助梳理復(fù)雜系統(tǒng)間的數(shù)據(jù)血緣關(guān)系。在數(shù)據(jù)建模時,它可以借鑒同類項目經(jīng)驗,通過自然語言交互方式輔助設(shè)計。在主數(shù)據(jù)編碼這一痛點上,大模型能通過文字描述找到相似編碼,并輔助完成分級分類。在數(shù)據(jù)質(zhì)量方面,通過學(xué)習(xí)歷史問題庫,大模型可以主動生成預(yù)防性的檢測規(guī)則,提升數(shù)據(jù)質(zhì)量和治理效率。
億信華辰的探索實踐
我們認(rèn)為所有數(shù)據(jù)類的工具平臺未來都會演變成智能體開發(fā)架構(gòu),
數(shù)據(jù)治理平臺的技術(shù)架構(gòu)也不例外。各家的數(shù)據(jù)架構(gòu)基本構(gòu)型完全一樣,都是數(shù)據(jù)管理的十大模塊疊加私域知識庫再外接大模型,而且要同時兼容多種大模型。
特別強調(diào),數(shù)據(jù)治理工作要針對實際的工作痛點切實降低成本、提升效率、提高質(zhì)量。我們不提倡把以往的數(shù)據(jù)工具全部推翻掉重來一遍,我們提倡用漸進式的抓痛點的方法來改進數(shù)據(jù)治理過程,切實解決核心痛點問題。
因為大模型落地不過一年左右的時間,確實有很多的項目還沒有結(jié)項,但是億信華辰通過相關(guān)的實踐已經(jīng)能夠窺得大模型賦能數(shù)據(jù)治理帶來的好處了。這里列舉三個應(yīng)用的例子:
第一個例子是一個大型金融機構(gòu),他們早期做數(shù)據(jù)治理是比較保守的;立項論證的時候始終覺得投入大,見效小,遲遲沒有行動。今年運用大模型相關(guān)能力以后,進行了相關(guān)成本反復(fù)的評估和經(jīng)過半年左右的磨合,取得了非常好的效果。運用大模型技術(shù)去做的數(shù)據(jù)治理工作,使得在原有同等條件下面整體的成本降低25%,實施周期縮短30%。
第二個例子是一個國家級重點研究機構(gòu),歷史積累了大量的非結(jié)構(gòu)化文本數(shù)據(jù),通過運用大模型與RAG技術(shù)結(jié)合,構(gòu)建本地私域知識庫,并通過數(shù)據(jù)治理過程提升知識庫的數(shù)據(jù)質(zhì)量,很輕松就開發(fā)出了各種智能助手 Agent。大量應(yīng)用大模型技術(shù)使得非結(jié)構(gòu)化數(shù)據(jù)得充分的挖掘和應(yīng)用,智能助手Agnet顯著提升辦公效率,加速了業(yè)務(wù)流程。
第三個例子是政府類的重大投資項目的審批流程優(yōu)化。過去重大項目審批文檔繁瑣,依靠人工審核周期通常是3-6個月,里面浩如煙海的文檔資料完全是靠人工去進行審核。我們對審批角色的歷史審批動作和審批規(guī)則做了梳理,對文檔資料的前置審核工作做了提取和關(guān)鍵信息結(jié)構(gòu)化提取處理,將傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)治理與非結(jié)構(gòu)化數(shù)據(jù)處理相結(jié)合,形成了審批知識庫,使得審批角色在項目審核時不再需要海量閱卷,而通過關(guān)鍵信息提取、概要歸納總結(jié)、大綱展示等方法快速精準(zhǔn)的輔助審核人員獲取審核項。系統(tǒng)上線試運行期間項目文檔閱卷審核周期普遍縮短到一周以內(nèi),整體審核速度提速一倍以上。
Data for AI:高質(zhì)量數(shù)據(jù)如何反哺大模型
如果說“AI for Data”是上半場,那么“Data for AI”則是這場變革的下半場,也是形成“螺旋上升”的關(guān)鍵。大模型的表現(xiàn),尤其是其在垂直領(lǐng)域的應(yīng)用深度,直接取決于投喂給它的數(shù)據(jù)質(zhì)量。

經(jīng)過有效治理的高質(zhì)量數(shù)據(jù)集,是消除大模型“幻覺”、提升其專業(yè)能力和可靠性的根本。數(shù)據(jù)治理的目標(biāo)正在悄然轉(zhuǎn)變:未來,數(shù)據(jù)不僅是為人所用,更要為AI大模型提供高質(zhì)量的“食糧”。
這意味著,數(shù)據(jù)治理的核心目標(biāo)之一,就是面向人工智能,構(gòu)建高質(zhì)量的數(shù)據(jù)供給體系。特別是對非結(jié)構(gòu)化數(shù)據(jù)的治理和知識管理,將成為未來理論和實踐的重中之重。
冷靜看待:挑戰(zhàn)與未來展望
盡管前景光明,我們?nèi)孕枨逍训卣J(rèn)識到大模型在數(shù)據(jù)治理應(yīng)用中存在的局限:
數(shù)據(jù)質(zhì)量制約:“垃圾進,垃圾出”的原則依然適用。沒有高質(zhì)量的數(shù)據(jù)基礎(chǔ),再強大的AI工具也難以發(fā)揮價值。
幻覺問題:大模型“一本正經(jīng)胡說八道”的特性短期內(nèi)無法根除,這意味著“人機協(xié)同”——機器做笨活,人類監(jiān)督檢查——將是長期常態(tài)。
領(lǐng)域深度不足:數(shù)據(jù)治理涉及千行百業(yè)的復(fù)雜邏輯和隱性知識,目前的大模型還遠(yuǎn)未達(dá)到各領(lǐng)域頂級專家的水平。
大模型與數(shù)據(jù)治理的每一次自激振蕩,都在重塑智能世界的DNA。
大模型的應(yīng)用,觸發(fā)了數(shù)據(jù)治理的大規(guī)模推廣;而數(shù)據(jù)治理的成果,又為大模型提供了加速進化的養(yǎng)料。這個正向反饋的循環(huán),正在形成一個相互增強、不斷推高的“自激振蕩”局面。
未來3-5年,AI尚無法完全替代人類。正如《人類簡史》所言,不是人類馴化了小麥,而是小麥馴化了人類。今天,我們再次站在歷史的奇點上,需要以開放和務(wù)實的心態(tài),擁抱人機協(xié)同的新范式,共同開創(chuàng)一個更加智能、高效的新時代。
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)