日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

基于數據全生命周期的數據資產價值評估方法及應用

時間:2023-08-10來源:我有我的小思念瀏覽數:922

數據資產價值評估是現代數據資產管理和運營以及數據流通的基礎。基于數據全生命周期理論,從第一性原則出發,通過評估單張數據資產表的成本、數據管理以及數據應用價值,實現對單張數據資產表的系統性評估。利用數據倉庫和圖算法等技術,以層為單位,每層分攤,血緣路徑繼承,精確計算得到單張數據資產表的成本價值;然后利用層次分析法得到數據資產非經濟因素權重,進而得到數據資產階梯價值;最后通過實例分析驗證了新方法的合理性和可行性。

引言

《“十四五”數字經濟發展規劃》中指出,數字經濟是繼農業經濟、工業經濟之后的主要經濟形態,是以數據資源為關鍵要素,以現代信息網絡為主要載體,以信息通信技術融合應用、全要素數字化轉型為重要推動力,促進公平與效率更加統一的新經濟形態。數據要素是數字經濟深化發展的核心引擎,需要有序開展數據確權、定價和交易活動,并探索建設與數據要素價值和貢獻相適應的收入分配機制。數據資產價值評估是實現數據流通和應用的重要基礎,數字經濟的發展迫切需要人們對評估數據資產這一課題進行深入研究。

在國家大力推動數字經濟發展的同時,企業也在積極響應并開展大規模的數字化轉型。目前,科技的高速發展使數據在工業生產中的體量日益增大,同時各種技術也日新月異。不論是內部管理方面,還是外部交易方面,企業都需要一套合理的數據資產價值評估方法。數據資產的合理估值對內可以衡量企業數字化建設進程和數據運營效果,對外可以提升數據資產的流動性,如數據交易,給企業提供新的收益來源。從公司價值層面來說,數據資產價值將在企業的會計3張報表中展現或在附錄中披露,這將直接影響未來企業的市場估值。目前,世界級科技公司基于大量用戶數據進行挖掘和分析以創造商業盈利。然而,數據資產價值的衡量仍缺乏實際的解決方案。

廣為人知的IBM大數據4V特性意味著大數據的價值評估一定是一個難題。盡管各種關于大數據的研究、挖掘、分析、實踐和應用等熱門技術都已經取得了顯著的成果,但是客觀且科學的數據資產價值評估體系和數據交易研究仍處于初期。只有經過科學管理,并且能夠被運營轉化為應用價值的數據才能算作真正的數據資產。在價值評估方法論方面,傳統領域包括無套利定價、收益最大化定價、公平和真實定價。同時,也有一些涉及機器學習的動態數據定價、在線定價以及聯合和協作學習中的定價方法。綜合目前的數據估值發展研究,總結得出,同時考慮數據的經濟因素(如數據成本、市場收益等)和非經濟因素(如數據質量、時效性等)是更可行且可操作的方案。

迄今為止,數據資產價值評估問題尚未有成熟的解決案例和類似計算器的數據資產價值評估操作系統。本文基于國內互聯網行業通用的數據技術,設計并開發了一套數據資產評估模型,旨在解決這個問題。

研究現狀

數據資產價值評估屬于交叉學科,涉及計算機科學、經濟學、市場營銷學以及新興的數據科學等多個領域。由于數據具有多面性并且價值評估的目的不同,其原理和側重點也有一定差異。近年來,隨著信息和數字化時代的發展,該領域的研究逐漸受到重視。

姚建國等人研究了基于熵的數據價值衡量與定價方法,僅依賴數據交易平臺收集到的數據集的瀏覽點擊次數和獲得該數據集支付的成本費用信息來對數據進行定價。信息熵定價法充分考慮了數據資產的稀缺性,但該方法缺乏對數據的本質的討論,沒有考慮到實際數據源獲取和加工等問題的復雜性。

2019年,中國資產評估協會制定了《資產評估專家指引第9號——數據資產評估》,闡述了成本法、收益法和市場法3種方法。成本法適用于對個人數據的隱私補償定價;收益法主要用傳統金融學模型對未來現金流和收益做折算,直接量化數據效用,體現買方市場增收;市場法主要基于有效率的交易價格(類似二級市場的股票)的供需關系進行定價。對于難以量化的數據資產來說,市場法(如拍賣和交易)是最公正的方法。然而現實情況是數據交易所的機制并不是對所有的企業都適用的,并且尚未進行規模化發展。

閉珊珊等人基于成本法提出了一種數據資產評估的CIME模型,即成本費用、固有價值、市場供求和環境約束4個因素分別對應4種簡單的方法:成本評估、層次分析法(analytic hierarchy process,AHP)評估、市場法評估和收益法評估。但其更側重于對系統框架的構建和工具的設計,并沒有對方案的算法和實現技術進行進一步的精細化設計,同時缺乏落地的結果的合理性檢驗。熊巧琴等人總結了數據資產的特性、流通方式、交易方式以及不同的數據估值方法和局限性,同時對數據產品作為交易對象和區塊鏈技術如何完善交易體系進行了討論。但是其僅從理論和研究現狀方面進行了總結以及客觀評價,并沒有給出具體可以進行實際操作的解法。

與經典的金融領域中的資產抽象的資產估值問題不同,Babaioff等人認為數據資產具有協同性,即不同的數據集組合可以帶來不同的價值;Kerber指出數據資產具有先驗不確定性,即如果買方了解該數據資產的詳細信息,則數據帶來的效用價值難以確定。Demchenko等人認為數據只有滿足了6個重要屬性,才可以進行價值評估,分別為獨立、可靠、可復用、可互換、可操作、可衡量(sovereign,trusted, reusable,exchangeable,actionable,measurable),即STREAM原則,這為未來的數據交易提供了一些標準和參考。Pei等人對數據資產評估背后的動機、基礎原理和相關方法進行了總結,但該文章僅從理論層面進行探討,缺乏實際案例。

而在《信息經濟學》中,資產估值工作被分為3個階段:質量衡量、價值衡量和經濟效益衡量。資產價值衡量指標如圖1所示。其中,質量衡量指標比較可靠,而價值衡量指標和經濟效益衡量指標則更多是理論指導,不太具備實際參考價值。

現有大多數研究還停留在理論層面,僅對數據的價值評估因素進行描述,如從數據使用者、數據生產者、數據管理者等視角進行分析,或者根據某個學科專業,在該學科的背景下解釋數據資產價值問題。然而,數據資產價值問題涵蓋的領域非常廣泛,目前還沒有一套完整的數據資產價值評估方案,能夠全面考慮數據從生產到消費的價值鏈,并能夠在實際生產實踐中落地,取得明顯的效果和成果。

本文結合數據的生產和使用路徑,基于數據全生命周期的框架,提出了一個具有實際應用意義的企業數據資產價值評估解決方案。該方案使數據從采集階段便可進入價值評估系統中,同時重點考慮數據存儲和加工的價值轉化過程,讓資產價值從數據源沿著數據倉庫加工鏈路流動到數據實際應用層。數據資產價值可以從單張表的維度進行計算、查詢和監控,使企業可以在內部對運營情況進行量化評估,在外部為數據在交易市場上流通提供價值參考。本文的創新性體現在3個方面:首先,從數據加工角度結合數據倉庫的理論和大數據的特征,提出了數據成本和數據血緣的成本繼承思想,并通過圖算法解決其中相關路徑問題,開創性地對單表數據資產進行價值評估;其次,設計了非經濟因素和專家打分機制,將行業相關性重點且靈活地反映在關鍵指標上,使用期望回報率代表數據的本身效能和使用價值。最后,本文提供了實證結果驗證,并研發了數據資產價值計算器產品,有利于方案后續效果評估數據的積累和更多行業的覆蓋性應用。

圖1 資產價值衡量指標

數據資產價值評估理論框架和方法

2.1 數據資產價值評估理論框架

2.1.1 基本概念界定

在數據資產價值評估中,需要明確數據交易范圍、數據隱私和數據歸屬這幾個基本假設。具體而言,在數據交易方面,需要交易已經被清洗和分析過的應用層數據,而底層數據尚未被處理;在數據隱私方面,數據需要存儲在數據管理系統中,并采取適當的權限保護措施,以避免因共享而導致的數據泄露;在數據歸屬方面,交易雙方需要確保數據的歸屬權,并確保使用方向數據表歸屬方付費。

數據的全生命周期是指數據采集、傳輸、存儲加工,以及數據后續使用的從生產到消費的全周期。該方法沿著該鏈路討論各個環節的重要影響因子。數據規范加工和生產是數據資產價值評估的基石。在數據成本分攤計算中,依照數倉維度建模準則,數據加工方法如下。

數據倉庫由數據倉庫之父比爾·恩門(Bill Inmon)于1990年提出。數據倉庫是一個面向主題的、集成的、相對穩定的、反映歷史變化的數據系統。范式建模是一種基于特定范式的建模方法,從數據源到公司級數據倉庫再到部門級數據集市,可以減少數據冗余,提高數據的一致性和穩定性。維度建模采用的是從數據集市、數據倉庫到分散的異構數據源自下而上的建模方式。維度建模允許將維度信息適度冗余到事實表中,以提高易用性和查詢效率。目前,傳統行業(如銀行等)普遍使用范式建模,而互聯網公司則普遍采用維度建模。

在維度建模基礎上發展了OneData建模規范:將公共數據劃分為操作型數據倉儲(operational data store,ODS)和通用數據模型(common data model,CDM)兩層。ODS主要完成基礎數據引入開放數據處理服務(open data processing service,ODPS)(一種阿里云自主研發的分布式處理服務),CDM主要完成公共數據加工與整合,建立一致性的維度,構建明細事實表和公共匯總事實層。明細粒度事實層將業務過程作為建模驅動,基于每個具體的業務過程特點,構建最細粒度的明細層事實表,將明細層事實表的某些重要維度屬性字段進行適當冗余,也就是寬表化處理。公共匯總粒度事實層將分析的主題對象作為建模驅動,基于上層應用和產品的指標需求,構建公共粒度的匯總指標事實表,并采用寬表化手段物理化模型。

在公共層的基礎上,還有應用數據(application data service,ADS)層,存放數據產品個性化的指標數據,計算CDM中間層針對業務的數據產出。通常情況下,越靠近數據源的層的數據加工難度越大。CDM層要求數據設計和數據加工嚴謹,而ADS層對數據的要求會隨著業務的建設和需求變化更加靈活和隨意。這種層層隔離的設計既保障了數據的嚴謹性,又保障了業務的靈活性,同時也給復雜數據的處理留足了空間。所有可售賣和調用的數據都會放在ADS層進行統一管理。

2.1.2 數據資產價值評估整體框架

數據資產的價值受到多種因素的影響,涉及廣泛的知識和技術領域。通過對數據全生命周期的透明化分析和管理,針對不同階段的數據生產到消費過程,可以使用各種技術來衡量相關的要素影響。在數據管理領域,學術界和產業界的研究人員提出了不同的數據生命周期理論。阿里巴巴基于多年在大數據領域的實踐,從“混通曬、存管用”逐步演進到“匯通管用”。其中,數據的全生命周期透明化管理對數據資產運營和數據資產價值發揮著重要的作用,數據的“匯通管用”全生命周期如圖2所示。

圖2 數據的“匯通管用”全生命周期

數據的“匯通管用”4個階段被用于數據資產的管理和應用。在這4個階段中,“匯”代表匯聚異構數據的全過程,“通”代表數據治理的完備和連貫,“管”指全量數據資產的管理,“用”則強調數據應用服務的作用。基于這4個階段相關的因素,進一步拆解構成數據資產價值評估模型,如圖3所示。

圖3 數據資產價值評估模型

● “匯”:包含數據成本的采集和追蹤,包括對數據成本的錄入和維護模塊。

● “通”:基于數據倉庫理論的數據血緣繼承成本分攤模塊。

● “管”:從非經濟因素如數據質量管理要素和數據應用要素的角度來評價數據資產的價值。

● “用”:考慮公司整體情況和所處行業,給出對應的數據資產行業回報率。

整體數據資產價值評估流程如下。

● 首先,對數據生產成本進行全面梳理和歸納,參考《資產評估專家文件》,對數據的各項成本歸納。本文將數據成本總結為建設成本、機器成本、知識發現、軟件成本、運維成本。

● 其次,追蹤數據成本,將可收集到的成本全部分攤給數據資產表的根節點。通過數據的血緣傳遞關系,沿著數據加工血緣傳播數據成本。

● 然后,基于已有數據管理評分維度的總結,本文建立了數據管理評分體系,包括數據質量要素和數據使用要素。數據管理因素主要解釋數據研發后的運維和運營情況。本文采用數據質量評價指標和數據應用評價指標,并通過層次分析法對數據的非經濟因素進行評價,從而得到單張數據資產表的數據管理分數。

● 最后,通過分析公司的經營情況得出整體的行業回報率,并將數據管理分數擬合成每張表的數據資產回報率。企業的整體資產回報率與所處行業以及該行業的數字化建設能力相關。目前缺乏相關數據或有效的交易市場,因此,本文用企業期望值代替。

在工程上,該數據價值評估方案分為3個模塊:數據源接入、數據ETL建模和算法模型。數據源接入包括采購數據、將原始信息導入系統和API接入。一般將數據存儲到對象存儲云服務中,然后由大數據產品進行數據的抽取、加載、清洗和轉換,并以數據任務的形式進行開發、調度、預警和運維。數據加工主要包括數據源的清洗和轉換,各個業務域的數據處理和加工,加工層包括ODS、CDM/公共維度模型層(DIM)和ADS等;算法模型主要包括基礎成本血緣分攤和階梯價格兩個算法。數據資產表的最終價值由這兩部分的加和構成。

2.2 數據資產價值評估方法

基于傳統資產評估理論的指導,本文采用成本法和收益率法,對數據在生命周期所處的每個階段進行價值評估。同時,本文融合了大數據特有的數據倉庫分層處理架構和數據血緣特性。在實際操作層面,本文橫向基于業務應用劃分數據域,縱向基于技術原理劃分數據層的方式。

為了進一步將數據的實用性和質量等非經濟因素量化為資產行業回報率,本文提出了單資產價值的核心計算式:單資產價值=基礎成本價值+階梯價值。基礎成本價值由兩部分組成:通過業務定義直接輸入的財務發票,以及通過圖算法計算的血緣繼承成本價值,主要應用于ODS層,而其他上游層的成本價值基本上是通過血緣繼承獲得的。階梯價值通過層次分析法衡量數據的管理和使用價值。

2.2.1 基礎成本的計算

數據資產的基礎成本指在特定時間點系統開發委托合同或實際支出發票能夠追溯到的成本。參考《資產評估專家指引第9號——數據資產評估》,數據基礎成本分類如圖4所示,主要包括建設成本、機器成本、知識發現、軟件成本和運維成本。

圖4 基礎成本分類

其中,建設成本包括數據建設規劃、采集獲取、數據建設實施3個方面。數據建設規劃是指數據實施之前的調研、方案設計等,按照數據域的權重攤派一次性建設費用。最常見的輸入形式為人天;采集獲取是指數據采買費用,或者數據獲取費用。從財務記賬處獲取,成本以單表計入,若出現一次采買多張表的情況(捆綁式售賣),建議平攤費用,由資產管理者手工錄入;如果是API的調用費,則用數據接入的流量成本表示;數據建設實施是按照業務數據域的預定權重攤派一次性數據建設的費用,如數據工程師加工數據中臺表的整體人天。

機器成本主要包括使用的硬件對表的存儲和計算的費用,可以直接使用云產品的官方網站售價或合同價計入。

知識發現指通過算法工程師/大數據分析師挖掘帶來的數據資產沉淀的成本,建議按照指標維度進行分攤。

軟件成本包括數據平臺和應用平臺的使用費,例如,使用阿里云一系列的產品的購買費用,按照表的張數均攤。

運維成本包括外包維護費、運維人員維護表的費用,以及數據管理人員費用。建議按照表的張數均攤。

資產管理人員需要將總體數字輸入產品頁面,并通過系統對資產總體數量按照數據域的拆分比例進行分攤。數據域是建設數據倉庫時重要的原始指標,它是一類相同主題表的集合,費用會最先被分攤到ODS層,再依據血緣繼承價算法向應用層傳遞。根據數據成本的業務來源,基礎成本=數據建設成本+機器成本+知識發現+軟件成本+運維成本。

2.2.2 血緣繼承成本的計算

“血緣”指數據的起源以及數據隨時間變化的位置。它描述了數據的流轉過程。血緣的可視化有助于提高分析數據流通的可視性,簡化錯誤回溯的過程。血緣繼承具有時效性和自動更新的特點。如果源數據的加工邏輯和血緣關系發生變化,基于血緣繼承的方法可以自動更新,而無須進行重新調優。從這個角度來看,血緣邏輯是體現數據資產表價值的根本標準。在基礎價值血緣繼承方案中,本文設計了一條血緣繼承的規則,即一張數據資產表有多少種路徑可以到達下一層。這種方案避免了同層血緣關系的轉化討論,同時能夠有效地包含同層空間的轉化關系,從而簡化了價值守恒問題的復雜性。

層與層之間要遵從的原則是基礎成本傳遞價值守恒。為了解決數據源從某一個層加工到另一個層的分配問題,本文采用了圖搜索算法,從一個節點開始,遍歷關系直到到達目的地。這種算法可以用于物流規劃、最低成本呼叫、IP路由以及游戲模擬等多個領域。

圖檢索算法是圖算法中的一個領域,它采用樹理論對圖進行搜索,在找到終點后回溯這一分支,最后獲得從起點到終點的路徑,圖檢索算法如圖5所示。本文采用廣度優先搜索,這種算法層層推進,將表作為起點,先找到距離該起點最近的下一張表,然后從內到外到達下一加工層,在下一加工層搜索記錄路徑,直至跳出該層。

圖5 圖檢索算法

在路徑檢索算法中,本文假設表價值繼承到下游的每種路徑都是無差異的。在加工鏈路中,數據產出到下游表并沒有顯著差異的需求側資源。因此,在基礎成本分攤的情況下,本文只討論數據供給側的勞力成本。任何實際數據有關需求側效能指標對數據價格的影響,均體現在非經濟因素中。

在血緣分攤過程中,為保障分攤結果的公平性,本文參考文獻中的方法,定義上游對下游數據貢獻度v,并基于Shapely Value對數據(元素i)貢獻度進行衡量:

其中,是包含成員i的所有子集形成的集合,是集合元素的個數,表示集合s中去掉i元素后的集合,為成員i在其中的邊際貢獻。

其中,n是信息通道的寬度,本文選取n=2。

(2)數據貢獻條數/列數。

(3)平均貢獻。

基于 血緣關系計算表H的最終價值如圖6所示。在ODS層,表A、B、C的價值直接從客戶專業人士的輸入成本得出,得到單資產價值A、B、C;在CDM層,血緣關系相對復雜,A表讓E和F表繼承,F表從B表繼承了全部且從E表繼承一部分,G表從F表繼承;基于路徑檢索算法的框架,本文簡化這個問題為ODS里的每張表有多少種路徑到達CDM層,采用廣度優先的原則由近到遠窮盡在同一層上的進行路徑追蹤。

圖6 基于血緣關系計算表H 的最終價值

A 表有5 個 路徑 到達CDM層:A→E、A→F、A→E→F、A→F→G、A→E→F→G,A在每個路徑的價值被平均分為A/5;B表有兩個路徑到達CDM層:B→F和B→F→G,B在每個路徑的價值被平均分為B/2;繼承價值見表1,其驗證了血緣價值守恒。在ADS層,只有一張表H且從ODS到ADS層的應用如下:A表有3個路徑到達ADS層,分別為A→E→H、A→E→F→G→H、A→F→G→H,A在每個路徑的價值為A/3;B表有一個路徑到達ADS層,為B→F→G→H,A在每個路徑的價值為B。由此ADS層表的價值為A+B。

2.2.3 階梯價格的計算

階梯價格用于衡量除成本外的其他因素的數據價值。其核心是圍繞數據質量和數據使用效益進行評估,分別對應數據的固有價值和市場供需關系價值。從傳統估值理論上也稱之為數據期望回報率,這種價值在專家指導中的數據效用因素中有所體現。

由于大多數的非經濟因素是難以比較和量化的,本文采用層次分析法進行分析。具體分為以下3個步驟:①通過大量的訪談定義影響數據估值的非經濟因素;②通過專家打分計算所選的非經濟因素的權重;③通過權重計算價值分數。

其中,非經濟因素是通過業務選擇評估目標對業務的重要影響因素來決定的。除了業務經驗之外,本文還參考了國家標準化管理委員會發布的 數據管理能力成熟度評估模型DCMM(data management capability maturity assessment model)[19]。結合專家的意見和方案的可行性,本文認為數據質量和數據應用是該管理框架下可以被量化的重要模塊。根據與專家的充分討論,考慮了工具和產品支持獲取的指標統計的完整性和難易程度,本文確定了代表數據質量和數據應用價值的8個指標,數據的指標體系分類及定義見表2。

n對應的RI值見表3,專家按照表3對非經濟因素重要性進行兩兩打分:每次打分都會構成對比較矩陣的元素,aij表示第i個因素對于第j個因素的比較結果。兩兩比較的因素形成矩陣,進一步進行矩陣一致性檢驗。如果矩陣中的每個元素均大于0(aij>0)且為正互反矩陣,若正互反矩陣滿足aij×ajk=aik ,則稱其為一致性矩陣。步驟如下。步驟1:計算判斷矩陣最大特征值?max, 一致性指標(consistency index,CI),n是矩陣的維度(被打分的非經濟因素的個數)。

步驟2:根據n的大小,按照表3查找平均隨機一致性指標(rank index,RI)。

一致性比例CR=CI/RI,如果CR<0.1,則可認為判斷矩陣的一致性可以接受;否則需要對判斷矩陣進行修正,讓專家重新打分;校驗完矩陣一致性,進一步得到權向量:

其中,wi表示各個非經濟因素的重要性系數。基于前文AHP(Analytic Hierarchy Process)算法整合所有信息得到非經濟因素的重要性系數,得到單資產綜合評價的分數。S表示某個非經濟指標歸一化后的評分,Coefi表示該因素通過AHP計算后得到的系數:

為了將不同數據的類型進行融合,需要進行歸一化;對數值進行對數處理后進行線性歸一化,這樣可以避免中長尾案例的分布過多而導致缺乏區分度的問題,同時再轉化為0~100的分數。對數值歸一化處理的計算式為:

進一步根據價值分計算階梯價格。為了避免數據過于分散,以及便于對應的業務人員的使用和管理成本,本文在價值分的基礎上進一步聚類,選取價值分作為唯一有效特征,采用經典的Euclidean方法度量每次分之間的相似度:

本文采用K-means算法進行聚類。通過觀察和業務需求聚類后會形成k個分數段,將k個分數段基于最高回報率和最低回報率,線性映射到K個回報率段中,最終得到單表回報率,反映非經濟因素對數據價值的效用側和需求側的影響。同時基于血緣分攤過后的成本價,計算最終的單資產表的價值。單資產表價值等于血緣成本分攤價乘以單表業務回報率,其中血緣分攤成本價就是該資產單價的階梯價格。后續業務人員需要進一步基于單資產表的價值評估結果和市場期望制訂售賣策略,以符合實際業務需求。這些商業收費策略可能會包括產品分潤、數據公益、協議共享合作和按次付費等。

實證分析

本文的數據來源于某交通領域的數據資產平臺,該平臺已經完成了數據中臺的建設。筆者團隊為該公司提供數據估值服務,為公司內部數據的使用和未來對外售賣提供可靠的數據依據。根據數據資產價值的評估結果,業務會依據商業目標對數據進行進一步定價。數據的整體營收需要滿足回報率可控和整體方案可解釋性強的兩個需求。

筆者團隊使用了3 654張表進行實證分析。這些表分布在數據倉庫模型的不同層中,彼此之間存在較為復雜的血緣關系。其中,應用層表數量為2 460張,根據部門將數據域屬性歸屬劃分為道路、交通和客戶等。

3.1 基礎成本價

筆者團隊通過數據成本參數模塊來收集初始的數據源成本,通常這部分數據由財務根據歷史發票或者人力估算得出。基于該前提與假設,本文對廣州交通的3 654張表進行數據實驗,進行了小樣本試算,以驗證該算法在更大規模的數據上的可行性。這些表的咨詢、設計、實施、運維和軟件費用比例為2:3:2:4:3,并以萬為單位表示原始成本。這些表的總體成本為14萬元,參數輸入見表4。

除分攤基礎成本的營收之外,還需要輸入另外兩個假設,即AHP打分的聚類個數和表收益預期期望。需要滿足客戶對4種不同類型的收益的需求,以使價值浮動的分布更加中心化。同時符合實際需求的收益率預計最低為基礎價值的20%,而最高的表的價值上限不應超過80%。

3.2 血緣成本價

輸入一系列的成本假設后,按照成本血緣路徑法進行分配,成本分配價的直方圖如圖7所示。

圖7 成本分配價的直方圖

從血緣路徑的分攤結果來看,數據表可以分為0~50、100~200和200~400共3個區間,但數據分布中心并不是特別集中。這表明血緣路徑更真實地反映了數據加工的情況,在總輸入一定的前提下,成本會按照具體表加工的血緣情況進行分攤,最終的分攤結果可以很明顯地反映各個表在純數據加工方面的重要性和經濟效益。然而,數據加工部分并不能全面地分析和論證數據表的價值,需要引入階梯價值進行更嚴格和全面的試算。

3.3 階梯價值結果

通過AHP對血緣分攤價格理論結果的調整,將數據資產的價值進行中心化收斂的平衡,同時基于價值回報率的調優符合客戶期望的收益價值。

通過與相關行業專家對相關非經濟因素進行充分討論,本文列出了數據規則質量觸發率、元數據屬性完整性、血緣關系解析完整性、輸出次數、輸出系統數、輸出部門數、平臺訪問次數、平臺訪問用戶數共計8個因素。其中數據質量規則觸發率,元數據屬性完整性和血緣關系解析完整性與數據采集和加工的質量有關,其他5個由公司內部的運營機制決定。專家給出的排序打分和訪談記錄如下。

在挑選出來的8個重要的因素中:① 前3個比后5個重要;②系統和部門數類似;③平臺訪問次數和平臺用戶數一樣重要,客戶打分見表5。

每張數據資產表的元素的歸一化分數是對3 654 張表進行排序后的百分比歸一化處理,數據產品會自動計算并每日更新。例如,隨機選取某設備維度表的非經濟因素的AHP結果見表6。

通過對專家對非經濟因素的打分進行數學轉化,可以得到非經濟因素矩陣。對該矩陣進行分解并檢驗一致性,驗證了專家打分的有效性(一致性比例:0.0054<0.1)。將非經濟因素的歸一化分數與AHP矩陣分解結果相乘,得出該表的分數為61.25分。

接著,采用K-means進行聚類,對即將售賣的表的分數進行聚類,并轉化為相應的階梯回報率。在ADS層的價值分布如圖8所示,將該分布按照原始輸入分成4個區間:15.88分~40.26分(回報率:36.9%), 40.26分~54.12分(回報率:56.3%),54.12分~62.48分(回報率:75.2%)和62.48分~70.59分(回報率:80%)。

圖8 價值分的分布圖

下面以一張具體的數據資產表來闡述如何從價值分數到最終數據資產收益率。價值分和最終價值分布如圖9所示,某設備維度表的成本價為764.94元,階梯分是62.87分,在62.48~70.59區間,對應的收益率為75.2%,則最終價格為764.94× (1+75.2%)=1 339元。這意味著如果其他部門要使用該表或將該表對外售賣,每年需要向該表所屬部門支付1 339元。

圖9 價值分和最終價值分布

3.4 階梯價值結果

對所有的2 460張存儲在ADS層可以對外售賣的表進行分析,可售賣表價格如圖10所示,初始假設成本為14萬元;這2 460張表呈現左偏度的雙峰分布,25%的表價格在71元以下,75%的表格價格低于210元,有25%的表格處于210~3 043元區間的價格,最高價值為3 043元,平均價格為200元,可售賣表價值試算見表7。

圖10 可售賣價值

通過AHP的階梯價值試算,將血緣分攤的成本價加入期望收益率的偏移影響部分,使數據資產定價更加合理并符合實際分布。其中,雙峰分布的中心化數據體現出數據收斂的特性,而并不會因為AHP的調優而導致發散的情況。目前該交通企業通過該數據資產評估方案使每張表的對外交易都有價格可依,且整體資產回報率符合預期。

3.5 實際應用

前文的成本核算和分攤方法清晰呈現了大規模數據的完整生產鏈路以及成本流向。基于這一成本分攤結果,可以實現對重點使用數據(高成本、高使用量數據)的重點保障,確保數據使用的業務安全以及數據使用合規,同時也可以對無效數據生產鏈路進行發現與治理,減少公司的無效數據建設。對于有內部結算機制的公司,也可以通過這一方案對數據生產成本進行有效分攤。

在基于數據中臺和數據資產管理平臺的建設的場景服務中,筆者基于本文提出的數據價值評估方法,為數據部門提供數據資產價值評估服務,為內部的數據管理以及未來的數據對外售賣提供一定的數據資產價值評估依據,并滿足了數據的整體營收需要回報率可控,且整體價值評估的方案可解釋性強的兩個重點需求。

結束語

本文從數據資產的生產和消費出發,提出一種數據全生命周期資產價值評估方法,并在大數據平臺和實際業務數據上進行了實踐。該方法在模型層面上創新,詳細描述了數據資產價值評估的計算過程。這一方法是對原有相關行業研究中提出的關于數據定價模型的進一步詳細設計,目前已經在阿里巴巴集團內部及外部相關場景上得到了實際應用。同時,本文提出的方法可以較為精準的計算被應用和售賣的數據資產的理論成本,但目前還無法計算出數據資產損耗、數據資產的使用回報率等指標。另外,本文也指出了忽略數據資產在應用過程中增值再生的可能性,需要進一步探索和改進的問題,參考文獻還有相關框架外流程和要素未考慮。對于難以量化的數據資產,市場法和公開拍賣可能是比較公正的方法,但缺乏有效的數據交易市場和成熟的交易機制,評估結果無法進行市場化驗證,未來需要密切關注數據交易結果對評估的效果,并進行方案改進。

(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢