日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

中國數據治理解決方案市場

連續4年市場占有率第一

數據來源:IDC《中國數據治理市場份額》(2024、2023、2022、2021)

億信ABI

一站式數據分析平臺

億信華辰深耕商業智能十多年,
打造一體化的填報、處理、可視化平臺。

億信華辰劉勤波博士:基于博弈論數據資產的價值評估

時間:2021-09-28來源:億信華辰瀏覽數:1101

9月25日,由億信華辰主辦、DAMA中國協辦的2021第三屆數據治理峰會在上海盛大舉行。籌備了4個多月的數據治理峰會獲得了眾多企業CIO、CDO等高管的關注,參會人員達到500余人。12場行業高端主題演講分享,場外產品體驗區火爆程度再翻倍。【大會專題】

億信華辰研究院AI實驗室主任劉勤波博士出席本次大會,并發表《基于博弈論數據資產的價值評估》主題演講。劉勤波先生是美國密歇根州立大學數學博士、華中科技大學博士后,十多年致力于計算數學領域技術研究,包括數理統計、Hankel矩陣、泛函分析、算子理論、機器學習、回歸建模與分析、商業數據挖掘、運籌優化等研究方向。以下為演講實錄:

尊敬的各位來賓,大家下午好!我是億信華辰研究院AI實驗室的劉勤波,今天由我給大家進行一些我們在數據治理研究領域取得進展的分享。

本次分享主題是《基于博弈論數據資產的價值評估》。剛剛主持人介紹了我,我主要介紹一下我的導師。Peller是一名俄羅斯籍數學家,我2010年去美國讀博士,他當時解決了一個40年沒有解決的數學問題,被他鼓舞,我選擇跟他讀博士,他丟給我一個更難的世界級數學難題。幾年之后,雖然我畢業了,但是我還沒有完全解決這個數學問題,取得了一些突破性的進展。利用Hankel矩陣、多重算子積分、算子擾動等理論,第一次考慮并給出了任意連續模函數空間的算子擾動下的奇異值的最佳估計。   

接下來我們回顧一下數據資產價值評估的背景和意義。數據經濟在最近高速發展企業數據的要素也進入了數據資產化的階段,與此同時,業界和學術界都尚未形成比較成熟的數據資產估值方法,對數據資產進行價值評估的意義非常巨大,我們歸納了幾點如下:
第一,對數字資產進行價值評估,可以促進數據成為企業的戰略資產,可以幫助管理者更好的創建企業的愿景,既能看得遠,同時也能看得準。
第二,對數字資產進行價值評估,能夠提高企業的運營效率,從而實現更高的投入產出比。
第三,對數字資產進行價值評估的研究,有助于形成一套一致的數據價值指標體系,能夠幫助降低不良及非法信息暴露的風險,還可以幫助完善數據資產的市場交易體制,把這個市場做得更好。
第四,數據資產的價值評估可以為大數據、人工智能的服務采購、成本分攤、收益分配提供可靠的價值已故。

接下來我簡要介紹一下由中國資產協會2019年在《資產評估專家指引第9號數據資產評估》當中提到的三類基本方法:成本法、收益法、市場法。專家給出三個參考公式供成本法使用,我們可以看到,第一個公式和第二個公式,主要是在第二個公式當中加貶值的屬性,拆分為兩個部分。針對數據資產,主要考慮時效性降低造成的經濟性貶值,如果繼續考慮數據資產投資的成本回報率以及數據效用,我們可以考慮第三類計算。

運用成本法進行數據資產價值評估的時候,有一些需要注意的點,我們需要充分考慮數據資產的價值和成本之間的相關程度,在這一點上,不同的行業都不太一樣,比較缺乏行業通識和管理。數據資產的價值可能隨著數據不斷的采集或者購買,能夠進一步的提升,我們在使用成本法中可能會低估數據資產未來的價值。

最后部分的數據資產,比如我們在搜索引擎當中用戶留下的信息進行搜集的時候,這樣一部分數據資產沒有對應的直接成本,其相關的間接成本主要有網站建設成本、搜索引擎市場推廣費用、運營費用等,這些間接成本之間的分攤比例也是比較難以確定的。

專家推薦的第二類方法就是基于收益的方法,我們可以看到這里有一個N,N表示的是數據資產的經濟壽命期,T從1到7就是指第T個收益期,FT就是指第T個收益期的收益額,這個比較好理解。用收益法的重點在于對數據資產應用的價值和變現能力進行預測,我們知道這個世界上最難的事情就是預測,不同應用場景下,同一個數據資產可貢獻的收益額不同。   

第三類方法,使用市場的辦法。數據資產的評估主要由可類比的數據資產的價值以及一些修正系數,這些修正系數主要關于技術、價值密度、時間容量等。運用市場法的限制也是比較明顯的,我們需要有一個公開、活躍、成熟的數據資產交易市場,同時它要更適用于數據需求量大,數據類型比較多以及數據交易比較頻繁的資產。

通過上面的介紹,我們對數據資產的價值評估有了一定的基本了解。接下來我們進行更深入一點的思考。數據資產貢獻的價值,如果我們在內部來看,它的分布往往是不均衡的,不同的生產應用中數據集也是以不同群體的方式提供服務,我們如何能夠合理、公平、理性評估數據整體、數據全體、數據個體的價值?我們在研究當中吸收采納了以收益分配為視角,對數據資產價值進行計量分析的辦法。

我們可以看一下右邊這張圖,將數據資產的價值分為兩大類:當前的價值、未來的價值。這兩大類里面又分為數據整體價值以及群體價值和數據的個體價值。對未來的價值主要是需要用一個預測的模型,我們可以考慮時間模型或者時間序列的辦法或者其他方法,我們在研究中考慮使用合作博弈中的沙普利值,理論保證評估更加公平、理性,滿足高效執行的要求,并且具有去中心化的特點。

為了便于闡述,我們選取如下的場景。右邊這張圖,紅色就是數據采購商,也就是智能服務提供商。服務商從數據提供者購買收集模型數據進行訓練,對外提供智能服務。智能服務的消費者需要支付一定的服務訂購費用,這個地方用Pb表示。數據采購的時候也需要支付一定的采購費用,這里我們用Ps表示數據的單價。
我們提出如下三個研究目標,針對服務商,主要討論兩個問題:
第一,如何評估每一個數據或者數據集對于模型服務的貢獻值?
第二,如何確定采購的數據量以及服務訂購費用實現利潤最大化?
針對數據市場,我們研究如何對數據進行定價,實現利潤的最大化?
第一個問題,需要我們對合作博弈當中的沙普利值理論做一點點簡要的介紹,我盡量比較通俗的給大家講解里面用到的數學符號,大家不用感到特別慌。

我們有編號1到2到N的集合。我們用大寫的N表示,如果我們從N個參與者當中選擇一部分,它可能是隨機的,叫做聯盟,這個聯盟是,這個聯盟通過合作的方式獲得一定的收益,這個收益計作V,因為它是與S相關,我們叫做VS。將VN合在一起稱為聯盟博弈,V叫做它的收益函數或者是特征函數。

什么是分配?分配就是泛1(音)到泛2到泛N的構成,可以是正,可以是負,也可以是零。泛1就是第一個參與者所得到的收入分配。什么樣的分配叫做有效或者合理性?所有參與者得到的收益分配之和等于這個集體所產生的收益,因為我們最終使用的還是集體一起合作產生的收益。真正的參與者I,它獲得的收益分配就是泛I,如果他一個看干這個活,他創造收益就是V(I),如果對于I來說,它獲得的收益大于等于他個人的貢獻,針對他自己就是個性理性分配。我們很難要求這樣一個分配對所有個體都是合理的,都是理性的,因為這樣的話就不夠用了。

除了要求整體理性,我們還可以提出如下三個公理:
第一,對稱公理。如果我們有兩個參與者,讓這兩個參與者進行如下比較,任意取聯盟S,讓他們分別和S進行合作。如果這兩個人在這個集體當中產生的貢獻永遠都是一樣的,那就說明實在沒有辦法區分這兩個參與者,我們要給這兩個人,兩個參與者分配同樣的收益,這個很公平,很合理。
第二,虛設人公理,這個人形同虛設,我們有這樣一個判斷準則,你讓參與人I和另外任何一個聯盟或者其他集體一起合作,有他沒他所產生的收益都是一樣的,自然而然這個人就是形同虛設的。我們做AI模型的時候,其實很容易出現這種情況。所以虛設人公理會要求給這樣一個虛設人分配的收益是零。
第三,可加性公理,去中心化。如果我們有參與者集合1到N,他們參與多項任務,希望給他們最后的收益是在不同任務當中所分配的收益之合,也就是說這個收益分配是線性可加的,沒有一定要以誰為中心。可能一個人在這個地方沒有發揮價值,換一個地方發揮價值。

剛剛說的幾個假設,都是可以唯一確定而且有共識計算,這樣一個優美的理論會獲得諾貝爾經濟學獎。
如果我們將一條數據比作這里面的一個博弈參與者,我們去考察數據資產每一條數據所貢獻的價值,這個模型就比較有用。同時,我們也可以考慮以數據集的形式,而不是單純的數據,數據集與數據集之間通過合作,讓我們的服務,讓我們的模型達到更好的效用。

如果我們使用沙普利值理論,可以得到一個公平、理性、去中心化的評估準則。同時,這樣一個方法,隨著N的增加,我們不可避免的需要考慮它的計算復雜度,精確的求解,這個復雜度是N的指數級。如果我們回到上一頁,可以看到這個共識里面有N的階層,是不是N的階層才是它的算法復雜度?不是的,這里面考慮的是排列,我們最后用的是組合,所以這個算法復雜度如果精確的求解,N的指數級其實也不太適用。可能我們就需要做一定的估計,在誤差比較小的情況下,我們做一些估計,可以有效的降低算法的時間復雜度。

比如說我們用蒙特卡洛仿真法,降低N的平方,乘上LogN,其實也是代價很高。最近還有一些研究,表明使用Grouping  Test的方法,我們可以把方向從N的地方挪到對數的地方去。近似得到一個線性的方法,這樣他的使用性就得到比較好的提高。
我們可以用數據集替換數據,進行數據集的評估,得到一個數據集價值或者效用,關于數據集大小的函數,我們以前怎么做的?可能大家沒有做過。如果我們以前做一個AI模型,我們可能就是看一些特征的分布,通過特征的分布得到數據集的大小,不同數據量級對模型的影響,我們知道,越多的數據是越好的模型。但是我們也知道,Garbage in,Garbage out。這個地方,我們如果使用合作博弈的理論,可以得到另外一個分布,是一個價值分布,不再是使用那種特征分布獲取數據集大小,我們用價值分布指導,可以得到數據集,關于數據集大小更好的函數估計。

有了這樣一個數據集的價值,關于數據集大小的函數,我們可以考慮第二個問題。
第一,N就是數據集的大小,我們對它進行歸一化之后,來分析第二個問題,第二個問題就是確定最佳的數據采購量以及訂購費用,實現服務商的利潤最大化,這樣一個數據效用函數可以近似看作一個單調遞增的凹函數,后面我們要進行微分求導,所以我們前面需要做方法的擬合。我們使用了分數函數和負指數函數這兩個類型,分別有兩個擬合參數,α和β,擬合的時候,我們需要一個最小化函數模型,和它的誤差有關,這個地方,我們只要知道有這樣一個過程就可以。

得到了這樣一個效用函數的擬合之后,就可以提出服務商利潤的準確表達式,利潤自然等于收入-支出,收入就是采購費用以及采購量。市場上潛在的客戶一共有M個,不一定每個人都買,可能會有隨機的購買意愿,只有這個客戶意愿大于等于訂購價格的時候,他才會真實的去購買這樣一個智能服務。M就是真實購買的數量,再乘上剛剛說的訂購價格PS,就得到了服務商的收入,支出等于數據的單價乘上采購的數量N,利潤模型這個方程比較好理解。

如果我們用一致分布來表示,可以進一步簡化這個模型,主要的簡化就是中間PR概率值,可以簡單表達為U-Ps。利潤最大化模型,求N和Ps利潤最大化,實際上就是這個標題的數學表示。如果是這樣一個簡化的模型,我們可以用微積分求解,最大化的利潤就在這幾個參考點之中,只需要進行一下比較就可以了。

第三個問題是指數據市場如何對數據進行定價實現它自己的利潤最大化?我們用Stackelberg動態模型來刻畫數據市場與智能服務提供商之間的動態競爭博弈。第二個公式是服務商的利潤,第一個公式是數據提供者或者數據市場獲得的純收入,也就是它的價格PB×采購數量。這樣一個博弈是先后順序依次進行的,就有一個協商的過程,可能是一個反復的過程。

數據資產提供一個參考的價格,采購方案就是我們這里的服務商,根據這樣一個報價,根據第二個公式,選擇合適的N和合適的訂購價格實現自身局部的最優化,達到自己的利潤最大化。同時,這樣一個N的行為發生之后,上一級數據市場還是可以繼續調價,調一個Pb,這個時候博弈就會持續的進行下去。

納什均衡告訴我們,在一定的條件下,最終可以達到均衡值,不管在什么時間節點看,所有這兩類參與者,他們全部都是最優的。對這樣一個問題的球節如果做Demo或者模型比較簡單,可以用逆向球解法,用解析的方法去做。如果比較復雜,我們需要使用數值的算法進行估計。

最后,我們做一個總結和展望。數據經濟時代中數據就是石油,配合數據分析以及算法可以產生巨大的經濟效益,同時,數據經濟的發展也給數據治理工作提出了更多的挑戰,這樣的環境下,數據治理需要遵循的一些基本原則,我們列舉了幾個:需要促進效率、維護公平,保護用戶的數據隱私、保障疏忽使用的安全,
對于數據資產價值評估收益分配問題的探討,目前確實屬于一個探索階段,我們將以數據治理的基本原則作為指導,繼續努力在數據資產化、報表化、安全化的道路上奉獻出自己的一份力量。

與此同時,我們的終極目的是做數據治理機器人,我們一直在嘗試用一些人工智能的方法去對數據建模、數據處理等數據治理的工作進行優化,提高它的智能化水平。謝謝大家!
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢