日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

如何打造一個大模型生成的數據目錄?

時間:2023-11-07來源:沒心怎么記你瀏覽數:449

今年以來,自己一直在做大模型應用方面的思考,在“智典”應用落地之際,今天就來跟大家分享一下我們在數據目錄元數據自動生成方面的探索和實踐。


高質量的數據目錄是企業高效開發利用數據的基礎。經過多年構建的數據治理體系,我們的企業級數據目錄已經建立起來。該目錄自底向上包含三個層次:數據資源目錄、數據資產目錄和數據開放目錄,各層都對應于數據處理生命周期的不同階段,納管的數據資源已經超過2萬項。


為了確保數據目錄的完整性,設計了40+的標準屬性:


圍繞企業數據目錄,建立起了一套數據目錄的閉環管理流程,當前盤點數據的周期已經實現按天自動動態更新,月變更數據超過1000項:


應該來講,我們已經實現了企業數據目錄的從0到1,但隨著運營的逐步深入,當前面臨著三個方面的挑戰:

首先,企業級數據目錄覆蓋了B/O/M/S四大領域,可是各個領域的數據管理水平參差不齊,源端提供的數據目錄的元數據信息缺失嚴重,而且質量不高,數據目錄的完整率僅為10%,字段級的元數據信息準確率不到70%,業務人員看不懂的現象普遍存在,運維人員的咨詢服務量大幅增加,制約著企業數據目錄價值的發揮。


其次,要維護好企業級數據目錄的元數據,需要掌握大量跨領域的專業知識,但我們數據運營團隊當前并不具備這個條件。盡管依托于企業級數據治理組織、機制和流程,與其他領域建立了良好的合作關系,但溝通成本還是很高的。特別是當很多知識還掌握在第三方合作伙伴手中時,這個問題更加凸顯。


最后,我們采取了多種措施來完善數據目錄,包括組織各領域的專家來補充信息,還嘗試用眾包的方式來吸收公眾的智慧。但是,這些方法很依賴于專家們的時間和投入,因此成本非常高。我們估計,要完善數萬條數據目錄信息,需要數萬人天的工作量,并且需要持續的努力。這種方法不僅現實性不高,而且人工維護的數據質量也很難得到保證。


從我的經驗看,維護元數據有三種模式:

第一種,后向維護,即等到數據資源開發完成后再補充元數據信息。這種方法不會太干擾正常的生產流程,但代價很大,因為它需要在工作完成后回過頭來補充信息,這既費力又難以長期堅持。

第二種,前向錄入,即在數據資源開發過程中就開始錄入元數據信息。雖然這種方法能從一開始就保證元數據的存在,但它可能會嚴重拖慢業務流程,因為它要求開發人員在忙于上線產品的同時,還得分心去處理元數據。這幾乎沒有成功案例,而且即便可行,元數據的質量也很難得到保證。

第三種,自動生成,即嘗試自動生成元數據,比如通過代碼解析等技術。這聽起來很理想,但實際上要求很高,而且很難做到準確和全面,大多數嘗試都以失敗告終。

我的經驗告訴我,維護元數據這種對業務價值間接的工作,必須要考慮性價比。大模型出來后,大家立即想到了基于大模型的能力來完善數據目錄的元數據信息的低成本的解決方案,其優勢體現在三個方面:


1、打破領域知識壁壘

盡管我們對業務數據有很好的了解,但我們對網絡數據(比如接入網、傳輸網、核心網)的了解就不夠全面。幸運的是,大型語言模型擅長處理這種全球通用的知識,這可以幫助我們填補知識上的空白。這是“智典”成功的關鍵。


2、用通俗的語言詮釋

哪怕我們對業務數據再熟悉,如果團隊成員無法用簡單明了的語言來描述數據,那么元數據就可能會變得模糊不清。大型語言模型能夠使用簡單、精確并且容易理解的方式來表達專業知識。只需給它足夠的上下文信息,它就能生成清晰的摘要。


3、數據目錄的自動化

前期我們在數據目錄的運營上花費了大量的精力,每次掃描到新的數據資源,不僅要進行元數據信息的補錄,還需要業務人員的和管理人員的審核,整個確認流程非常長,人工的大量介入讓數據一鍵入湖的目標遲遲無法實現。

我的目標是讓數據自動入湖,不需要人工干預,并且保證數據目錄的質量。如果我們能開發出一個基于大模型的元數據生成API,并將其集成到流程中,我們就能實現這個目標。

下面就談談具體的做法。


1、選模型

基礎大模型的能力決定了“智典”的成敗,我們的大模型需要私有化部署,又不可能自己去研發基礎大模型,因此前期只能選擇開源的方案。而每種開源的基礎大模型的能力也是不同的,必須基于特定場景自己去做測試,比如LLAMA2-13B雖然推理能力還可以,但中文能力太差。

因此,我們制定了一個針對數據目錄元數據生成的基礎大模型的測試方法,從中文理解能力、領域知識理解能力、邏輯推理能力等五個維度出發,對模型的輸出結果進行專家打分,選出最佳模型。最終選擇了表現最為出色的通義千問模型作為基底大模型,下面是測試結果的示意:


2、備指令

由于企業數據目錄涉及公司大量的領域知識,同時對格式等輸出也有特定要求,因此我們還是需要在通義千問的基礎上進行一定的微調,這就需要建立訓練的指令集。我們梳理了存量的數據目錄元數據信息、設計了提示詞模板,構建了一個擁有6000余條規范化問答結構的指令數據集,如下所示:,output>

,output>


3、做訓練

基于通義千問大模型,同時使用LORA算法對指令數據集進行大模型微調訓練,我們構建出了一個自動生成數據目錄元數據信息的領域大模型。該過程的核心是通過凍結基底大模型的權重參數,在基底模型中追加并訓練額外的神經網絡,以達到注入領域知識和訓練模型服從人工指令的目的。

為驗證“智典”生成的字典信息準確性,我們隨機選擇各領域的430張表,并邀請業務專家進行人工審核。經驗證,其準確率高達97%,在這個場景,大模型生成的內容質量可以達標。

以網絡側某無線資源表為例,該表的中文名稱、字段的中文名稱以及業務含義等數據字典信息,均由“智典”自動生成。相較于原始的字典信息,通過“智典”生成的內容語義更加準確,表達更加流暢,也更容易被使用人員理解,如下所示:


4、做推理

最后就是具體的部署了,我們采取CVL模式快速構建了數據目錄元數據信息的自動生成服務。該服務通過數據處理、信息檢索以及調用大模型推理等流程,能夠智能、準確地生成元數據信息,將元數據信息補全的平均耗時由天縮短至秒級,信息準確率達到95%以上,下圖示例了整個推理過程:


5、嵌流程

我們將推理能力封裝成了一個API,替換了前面數據目錄的閉環管理流程的元數據人工錄入環節。我們保留了人工快速審核的環節,因為大模型生成會產生一定的錯誤,比如無法基于拼音進行準確的推理,審核人員需要保留這些錯誤的信息,作為下次調優的依據。

有了大模型的加持,企業數據目錄的可用性得到了很大的提升,體現在三個方面:

第一,數據目錄元數據信息的質量上了一個檔次,專業人員的評估是:大模型生成的元數據質量不低于手工維護的水平。

第二、我們也降本增效了,裁撤了ETL團隊,大家能把精力更多的投入到業務賦能中去。

第三,響應能力提升了,數據資源納管的周期已經縮短至小時級。


“智典”是我們在數據領域做成的第一個比較成功的大模型應用,但仍然面臨著諸多挑戰:

第一,“智典”的生成只是第一步,“智典”的運營才是關鍵,我們需要將“智典”推送到需要它的地方,包括需求分析、數據開發及數據開放的場景,不能自嗨。

第二、“智典”在做推理的時候,輸入的上下文信息并不完備,比如基本上是根據原始表名,字段名來做推理,這限制了內容的生成能力,實際上更多的上下文信息是藏在數據中的,而要生成這些上下文信息挑戰巨大。

第三、“智典”只是對實體信息進行了業務描述,缺乏相互關系和血緣的描述,使用的場景還是非常受限的??梢赃@么說,這還是一個缺乏深度和內涵的數據目錄,后續會考慮基于大模型去解析代碼來生成更多的元數據。

第四、“智典”的目錄分類是以系統為基礎,大家通過“智典”看到的是流程割裂的業務數據,對業務人員并不友好,而要改善這一點,就涉及到業務對象管理等更為挑戰性的工作。

李彥宏說,大模型值得企業把所有的應用都重構一遍,我對這個方向深信不疑。但也知道現在企業要做成一個成功的大模型應用不易,因為其對場景和技術的要求極度苛刻,特別是當前國內基礎大模型的能力還不夠,只能在一些對準確性要求不高的場景進行嘗試,十分之一的成功率估計也沒有吧。

但我們還是要努力去做出嘗試,也期待國內基礎大模型的進步。

(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢