日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

數據治理與人工智能-基石篇

時間:2025-06-03來源:數據工程師瀏覽數:95

當DeepSeek等大模型橫空出世,AI技術日新月異仿佛觸手可及,無數企業視其為數字化轉型的捷徑。然而現實冰冷——當滿懷期待引入AI后,企業卻步步維艱,如履薄冰。究其根源,在于忽略了AI落地的核心三角:模型、算力、數據。算力可砸錢堆砌,模型可快速迭代,唯獨?數據需要長期積累與精心治理?。缺失這一環,AI之花注定難以綻放。? ? ? ? 其實,數據治理與人工智能并非割裂,而是太極雙環般的共生關系:?雙向賦能,循環驅動。本系列將分三篇探討其緊密聯結,本文聚焦核心基石——數據治理作為AI根基,絕無捷徑可言。


談到數據有一個非常經典且極具指導意義的概念模型,那就是DIKW轉化模型(數據Data - 信息Information - 知識Knowledge - 智慧Wisdom)。如下圖所示:

在日常溝通中,大家很容易將這四個不同層級的內容,都泛泛地稱之為“數據”,從廣義上講,這可以理解。但若想提升經營有效性,我們真正渴望的,是DIKW金字塔最上面的那兩層——“知識”和“智慧”。而這一切,正是將“數據”通過數據治理形成“信息”和“知識”,再通過人工智能實現“智慧”的過程。沒有堅實的基礎在沒也是空中樓閣:


舉例1:“智能問數”場景為例,就是利用大語言模型(LLM)實現從自然語言到結構化查詢語言(Text2SQL)的精準轉化,看似簡單,實則不然。當我們作為數據消費者,輸入一個自然語言描述的問題,比如“上個月山東省的A產品銷售額是多少?同比增長了多少?主要原因是什么?”;我們期望系統不僅能回答“是多少?”(信息層),還能解釋“為什么?”(知識層),甚至預測“未來會怎樣?”以及建議“我們應該如何應對?”(智慧層)。


然而,一旦將這項技術應用于真實的業務場景,就會發現它遠比想象中復雜,常常是“拔出蘿卜帶出泥”,牽扯出大量深層次的數據基礎問題,這些絕非一個通用的大模型所能輕易解決。首先,我們需要通過精心的提示詞工程(Prompt Engineering),讓大模型準確理解企業內部復雜的數據表結構和字段含義,才能將其轉化為正確的SQL語句。但現實往往是,企業內部許多核心數據表的字段命名本身就混亂不清,即便我們這些長期與數據打交道的專業人員,有時也難以完全厘清其確切的業務含義。在這種情況下,指望大模型“無師自通”顯然不切實際。


要讓大模型真正理解業務,需要它掌握大量隱性的知識:什么是“大客戶”?什么是公司的“重點產品”?日常口語中的“收入”與財務報表中的“營業收入”是否等同?“銷售毛利”和“經營毛利”如何區分計算?同樣名為“項目”,但“外部交付項目”和“內部研發項目”的統計口徑可能截然不同。在不同語境下,“客戶”與“用戶”的概念是否有細微但關鍵的差別?公司內部約定的“續費率”指標具體如何計算?“產品應用率”又是怎樣統計的?甚至像“同比”、“環比”這類基礎指標,公司內部也可能有自己的一套特殊計算規則。解決了這些語義理解難題后,我們可能還需要通過模型微調(Fine-tuning),讓大模型學習公司編寫SQL語句時的特定語法習慣和優化偏好等。

坦白說,這些盤根錯節、細致入微的業務規則和數據知識,對機器學習來說已是挑戰,即便對一個非常聰明、學習能力強的實習生,我們這些業務專家和數據專家也需要花上數天時間,耐心講解,對方未必能完全掌握。因此,面對一個連人類專家團隊都難以在短時間內完全理清的復雜數據體系,我們又怎能奢望一個大模型能夠輕易、自動地解決所有問題呢?更進一步,即便大模型最終“歷盡千辛萬苦”生成一個查詢結果,我們又該如何快速、準確地判斷其正誤?這背后,依然離不開扎實的數據治理和清晰的業務規則定義。


舉例2:“客流預測”場景為例,要想“煉”出一個足夠聰明、足夠精準的算法模型,能夠有效地幫助我們提升運營效率和改善客戶體驗,我們就必須為其提供盡可能準確、全面的客戶基礎信息、細致入微的用戶行為信息、完整無誤的歷史乘車信息等等,并且要確保這些數據能夠準確反映客戶在不同歷史時期的長乘車情況,并盡可能覆蓋到所有渠道(微信、支付寶、公交卡等)。如果我們要在這個場景中進一步引入大模型的處理能力,那么,我們還需要為其構建一個高質量的、與業務場景緊密相關的知識庫(我相信,所有參與過智能客服項目建設的伙伴們,對此一定都感同身受——項目的大部分時間,有高達70%以上,都投入到了知識庫的構建、梳理和優化工作中)。總而言之,只有當我們擁有了盡可能豐富的、高質量的、與應用場景高度相關的數據作為“輸入”,我們才有可能“煉”出一個真正“聰明”的、能夠解決實際業務問題的AI模型。


所以,經過了這一系列的探索與反思,我們現在可以說是正在經歷一個“迷途知返”的過程,重新沉下心來,腳踏實地地去彌補和夯實那些最基礎、但也最重要的數據基礎設施建設工作-數據治理。

人間正道是滄桑,AI之花絢爛與否,根系深扎于數據土壤。?唯有啃下數據治理這塊硬骨頭,以豐富、優質、場景化的數據為“燃料”,才能煉就真正解決業務痛點的智能模型?。否則,不論引入多么前沿的AI技術,終究是空中樓閣,難逃“垃圾進,垃圾出”的宿命。夯實基礎,靜待花開——這是AI落地生根的唯一正道。

(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢