企業需要協調多個提供和使用數據的參與方之間發生的復雜關系,由于企業缺乏數據治理可能導致數據濫用/誤用等破壞性后果,并導致市場失靈。傳統的數據治理側重于數據的內部控制,對互聯網企業數據治理的研究尚處于起步探索階段,而企業需要一個參考模型來支持正確的數據戰略,但目前還沒有特別好的數據治理理論模型作支撐。
本文為互聯網企業提出了數據治理策略,為了保證數據的有效管理和使用,企業需要制定并執行數據治理策略。筆者調查了部分互聯網企業的實踐案例并查閱了治理框架和文獻,本文通過展示如何執行已識別的策略,向實踐者提供了一些想法和考慮。
一背景
2018年,Facebook Cambridge Analytica 丑聞被公開披露,許多新聞報道稱這一事件嚴重影響了Facebook的股價和聲譽。2008年也發現了類似的案例,一個研究項目組從Facebook上收集了1700個用戶資料,然后公開了這些數據。2006年發生了一起美國在線的案例,美國在線向公眾公布了用戶的搜索日志數據,這些數據在披露后不久就被確認為個人身份信息(PII)數據,美國在線沒有公開任何PII數據,然而,由于日志數據是由用戶分類的,并且提供了大量的個人信息,因此很容易將其轉換為PII數據。這3起事件都是因為數據治理出現了問題,比如數據的未經授權使用和數據使用中控制機制的缺失。
目前,互聯網企業的數據治理尚不成熟,缺乏對誰擁有或使用非用戶內容(如日志或關鍵字)的明確定義,數據的使用方式、時間和使用者都不清楚。這是互聯網企業數據治理的一個關鍵性挑戰,為了平臺所有者和用戶之間的信任以及業務的成功,這一問題應該得到解決。現有行業治理策略和學術著作的分析大多數是針對傳統企業的,而互聯網企業的數據治理仍處于相對萌芽的階段。
二策略制定的關鍵原則
數據治理必須找到對以下兩個問題的答案:需要做出哪些策略?哪些角色以及這些角色應該如何參與策制定過程?
本文集中于第一個問題即需要做出哪些策略,以確定關鍵的數據治理領域,數據治理策略通常建立在基本原則之上,這些基本原則為所有策略提供了一套指導方針和考慮因素。
2.1與企業戰略保持一致
業務目標影響數據治理的方向和設計,數據治理目標應與業務目標和更高級別的治理目標保持一致,以最大化互聯網企業的價值。如果一個互聯網企業宗旨在提高用戶滿意度,它需要嚴格的控制機制來提高
數據質量。
角色、收入共享、信任和控制是平臺治理的關鍵職能。數據治理中的角色指的是一種責任明確的數據所有權形式,它允許互聯網企業保護數據和數據所有者/使用者的權利。收入共享要求平臺所有者應該考慮對數據貢獻者的獎勵。信任被認為是成功的先決條件,為了提高信任,數據使用的高透明度在數據治理中至關重要,可以通過與平臺用戶共享決定權來增加信任。否則,必須由平臺所有者實施嚴格的控制機制,并且決策的結果或過程必須向所有用戶開放。
2.2考慮所有參與者
在傳統的數據治理中,數據管理有簡單明確的角色,如創建存儲、更新、歸檔和刪除,而互聯網企業的數據治理則需要處理多個方面之間復雜的關系。
互聯網企業的參與者由平臺所有者(包括平臺發起人、協調人和提供者的角色)和平臺用戶(供應側和需求側用戶)組成,所有參與者在互聯網企業的數據治理中都扮演著關鍵的角色。因此,治理政策應同樣適用于所有當事人,以便對每個人都適用,每一個用戶都應該得到同樣的機會和可獲得性,因為它會帶來更多的參與和想法,最終會帶來新的創新。
這一原則使互聯網企業能夠開發出現實的數據治理策略,該策略應傳遞給所有用戶。如果一個互聯網企業需要更多的參與和信任,平臺所有者可以給用戶更多的機會以某種方式加入決策過程,幫助互聯網企業從各方的角度設計和實現數據治理。
2.3覆蓋所有類型的數據
互聯網平臺數據是從各種來源收集的,比如人或系統。互聯網企業通常關注用戶內容,在數據治理的策略過程中,其他類型的數據常常被忽略,由此可能導致不明確和不完整的治理策略。
互聯網企業通常關注隱私法來保護個人身份信息(PII)數據,而PII和非PII并不是不可變的,非PII數據可以通過組合額外信息(如美國在線數據泄漏案件)成為PII數據。因此,必須強調非用戶內容對于安全平臺的重要性。除此之外,非用戶內容的價值因為廣告而增加,而廣告是大多數互聯網企業的主要收入來源。非用戶內容如服務使用信息(如日志)被互聯網企業用于定向廣告,有針對性的廣告機制顯示了這些數據是如何通過無形和隱藏的市場使用的。
我們越來越擔心數據濫用和侵犯隱私的道德問題,為了降低風險,互聯網企業的數據治理應該考慮如何為互聯網企業中的所有類型的數據建立可見的供應鏈。
2.4考慮不同的條件和環境
一個尺碼的鞋子,不可能適合所有人的腳,否則就會出現削足適履的笑話。企業必須考慮自身不同的業務策略、目標和市場監管要求。該原則提供了這樣一種思想,即可以基于平臺的背景靈活的制定數據治理策略。
例如,蘋果公司和Facebook在控制機制上明確顯示了不同的治理策略。蘋果的目標是提供高質量的服務,因此它通過人工審核進行嚴格控制。相比之下,Facebook則不受任何限制地允許用戶輸入任何內容,因而控制松散。治理策略常常導致嚴重后果,facebook分析丑聞就是一個例子,因為Facebook允許應用程序收集用戶數據(甚至朋友的數據)以獲得更高的市場份額和收入,數據誤用或濫用和侵犯隱私的風險增加很多。與此相反,蘋果公司的政策不允許應用程序收集用戶數據,并限制使用用戶數據的廣告。
三數據治理關鍵領域

圖1 數據治理關鍵領域及關系
3.1監管環境
這個領域的策略是“應該考慮哪些法規、特定的政策、標準和指導方針?”和“監管環境如何影響數據的使用?”
對于第一個策略,必須確定外部法律要求和內部政策以及合同協定。例如互聯網企業處理個人信息,如姓名或地址時,應該考慮“2017年6月1日起施行的《中華人民共和國網絡安全法》”來確定法律要求。
必須確定外部/內部合規要求,制定合規目標并對其進行審核。數據的使用應在法律允許的情況下予以確認,特別是當數據被取出并可能傳播以供二次使用時,必須檢查數據是否滿足開放策略要求。所有這些流程必須由第三方進行審計,以避免偏見或利益沖突,并保持互聯網企業的透明度。
3.2數據所有權和訪問定義
這個領域指的是“誰擁有和使用互聯網企業中的數據?”,一直是平臺設計的核心概念。這些策略使互聯網企業能夠明確所有相關用戶的角色、責任和對數據的全部權利。
所有類型數據的數據所有權和訪問權都需要被明確的定義和執行,為了支持實施并保持執行結果的完整性和一致性,有必要與其他領域協作。應使用在數據用例域中定義的所有數據類型的數據分類。數據所有權和訪問定義的清晰性得到了提高。必須使用監管環境領域中確定的相關法規來開發數據所有權/訪問權的策略模型。如前所述,該決定應根據相關法規、法律或法院案件做出。
定義清晰的訪問權限有助于提高平臺的透明度,利益相關者應采用某種方法提供適當的信息和安全。然而,數據貢獻者對數據的可訪問性可能受到互聯網企業策略或背景的限制。出于安全原因,平臺禁止用戶訪問最后一個密碼。治理策略者需要為互聯網企業中的每一種數據類型考慮這種特定的背景。筆者建議一個貢獻、擁有和訪問(COA)矩陣來支持和簡化這種復雜的情況。它允許用戶清楚地了解哪些數據可以擁有/訪問(或不可以訪問)的定義,并正確地使用數據的合法權限。
表1 COA矩陣的使用示例

3.3數據用例
對于互聯網企業來說,如何利用數據是贏得市場的關鍵。因此,有一系列的問題,如“收集了哪些類型的數據以及數據對業務的用途是什么?”及“如何在不失去控制的情況下使用數據?”應該在這個領域解決。
為了支持策略,定義數據分類可以很好地理解不同類型的數據,因為互聯網企業從各種來源收集數據。大多數數據來自用戶上傳的內容,如視頻、圖像或用戶信息(人為數據)。當用戶使用平臺服務時,平臺系統會留下日志、搜索關鍵字或位置(機器生成的數據)等數據,這種類型的數據通常稱為服務使用信息。數據也可以通過系統流程和事務,引用表或交互收集。應該考慮所有類型的數據,并將其包含在數據分類中。
舉個例子,我們通過分析策略來確定Facebook的數據分類的三個層次。第一個層次包括用戶資料(來自人)和服務使用信息(來自機器和流程),第二個層次分為8類(分別為6類和2類),最后一層的數據分類包括70多種類型的數據。
表2 Facebook數據分類

此外,企業需要根據業務目標決定收集數據的適當數據用例,用例必須包含可以使用的數據類型的信息,幫助平臺檢測和防止數據供應鏈中未經授權的數據使用。數據使用的監控應該基于已定義的用例信息來實現,以供可見和可靠的數據使用。數據來源允許平臺保留關于數據的所有活動,識別所有相關的涉眾,并防止拒絕數據操縱,當存在多個所有權問題時,可以使用它準確地度量數據提供者的貢獻。
3.4貢獻測量
互聯網企業的成功與否取決于參與者的貢獻,因此,收益共享是互聯網企業的關鍵治理理念之一。許多研究指出,互聯網企業應該考慮諸如“數據的業務價值是什么?”和“數據所有者的貢獻需要什么獎勵?”等問題,鼓勵用戶的貢獻,分享互聯網企業成長的收益。
每一個參與團隊都希望得到即時的回報或未來的利益,第一步是確定與業務成功相關的貢獻度量模型的具體參數。根據互聯網企業的業務類型,參數可以是多種多樣的。Facebook或YouTube等一些平臺通常依賴廣告,并通過用戶內容增長,上傳的內容對于吸引其他用戶和達到臨界質量起著重要作用。由于有針對性的廣告,用戶偏好、喜歡程度和關聯群組也很有價值。同時,對于Uber等不同類型的商業平臺來說,服務提供/購買的數量或數量是最重要的,因為該平臺向用戶收取服務費。
下一步,應該為用戶確定合適的獎勵類型。有3種主要類型的獎勵可以被普遍認為是激勵貢獻者:曝光、補貼(例如以廣告收入共享形式的直接現金轉移、信用、實物、免費信息或技術支持)和聲譽。
根據互聯網企業的能力和背景,不同類型的獎勵可以單獨使用,也可以組合使用。補貼被認為是私募股權投資的重要啟動策略之一。然而,對于谷歌等占主導地位的互聯網企業來說,敞口可能是一個不錯的選擇,因為它的邊際成本為零,但卻為受益者提供了巨大的優勢。下圖顯示了貢獻度量管理的概念。
圖2 貢獻評估管理

確定獎勵的受益者可以很簡單,也可以很復雜。如果只有一個貢獻者,那么貢獻度量將非常簡單。同時,使用派生數據(聚合或轉換的數據)可能導致度量問題,因為數據可能包含復雜的所有權結構。數據來源管理(數據用例域)有助于解決這個問題,它允許平臺識別所有相關的涉眾,并通過保存數據使用的所有記錄來準確地度量每個數據所有者的貢獻。
總結
理論上重要的治理策略在現實世界中得到了解決,在互聯網企業的數據治理中發現了四個策略(監管環境、數據所有權/訪問權、數據用例和貢獻度量)的實現。在此基礎上,互聯網企業可以根據自身情況靈活調整或改進數據治理策略。
(部分內容來源網絡,如有侵權請聯系刪除)