- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2022-05-28來源:勝利的z1態瀏覽數:835次
假名化技術是?種使?假名替換直接標識(或其它敏感標識符)的去標識化技術。假名化技術為每?個?信息主體創建唯?的標識符,以取代原來的直接標識或敏感標識符。
我們把數據拉倒ODS之后,都驚呆了!我們可不敢存這些數據,趕緊商量數據加密、脫敏方案。今天就和彭友們聊聊在數據工作中的常見場景:脫敏。
01—數據脫敏的基礎概念
所謂的數據脫敏,是指在不影響數據分析結果的準確性前提下,對原始數據中的敏感字段進行處理,從而降低數據敏感度和減少個人隱私風險的技術措施。
具體效果上,主要是去標識化和匿名化。
去標識化:是指通過對個人信息的技術處理,使得在不借助額外信息的情況下,無法識別個人信息主體
匿名化:是指通過對個人信息的技術處理,使得個人信息主體無法被識別或關聯,且處理后的信息不能被還原的過程
02—常見的脫敏場景
企業內部常見的數據脫敏場景主要包括數據報告脫敏、應用系統脫敏、數據庫脫敏等。
(1)靜態(數據文件)脫敏
適用于批量進行脫敏數據。比如用于模型訓練的測試數據,再比如數據的導出用于離線數據分析。

(2)動態(數據庫)脫敏
動態數據脫敏主要指的是數據庫脫敏。具體而言,指的是比如研發人員的開發調試、DBA日常數據管理、運維人員基礎運維等。

(3)應用系統脫敏
應用系統脫敏主要指的是前端頁面的敏感數據脫敏,以及數據類型接口API的透出數據脫敏。

(4)數據報告及數據產品脫敏
這類場景主要包括內部的數據監控類產品或者看板、對外服務的數據類產品、基于數據分析的報告,比如業務匯報、項目復盤等。

03—常用的脫敏技術方法
常見的數據脫敏技術主要包括以下幾類。

(1)統計技術
統計技術是一種對數據集進行去標識化的常用方法,主要包括數據抽樣和數據聚合兩種技術。
數據抽樣:是通過選取數據集中有代表性的?集來對原始數據集進?分析和評估的,它是提升去標識化技術有效性的重要?法。
數據聚合:作為?系列統計技術(如求和、計數、平均、最?值與最?值)的集合,應?于微數據中的屬性時,產?的結果能夠代表原始數據集中的所有記錄。
(2)密碼技術
密碼技術是去標識化或提升去標識化技術有效性的常??法,采?不同類型的加密算法所能達到不同的脫敏效果。
確定性加密:?種?隨機對稱加密,常見對id類數據進?處理,可在必要時對密?進?解密還原為原id,但需要對密鑰進?妥善保護。
不可逆加密:通常散列(hash)函數對數據進?處理,常見于對id類數據進?處理,不可以直接解密,需保存映射關系,同時因為hash函數特性,會存在數據碰撞的問題,?法簡單,不?擔?密鑰保護。
同態加密:?密?同態算法,其特點是密?運算的結果解密之后和明?運算相同,因此常見于對數值類字段進?處理,但性能原因,?前未?范圍使?。
(3)抑制技術
抑制技術即對不滿?隱私保護的數據項刪除或屏蔽,不進?發布。
屏蔽:是指對屬性值進行屏蔽,最常見的脫敏方式,如對手機號、身份證進行打*號處理,或對于地址采取截斷的方式;
局部抑制:是指刪除特定的屬性值(列)的處理方式,刪除非必要的數據字段;
記錄抑制:是指刪除特定的記錄(行)的處理方式,刪除非必要的數據記錄。
(4)假名化技術
假名化技術是?種使?假名替換直接標識(或其它敏感標識符)的去標識化技術。假名化技術為每?個?信息主體創建唯?的標識符,以取代原來的直接標識或敏感標識符。
可以獨??成隨機值對原始ID進?對應,并保存映射關系表,同時對映射關系表的訪問進?嚴格控制;
同樣可以采?加密的?式?產假名,但需為妥善保存解密密鑰;
該技術?泛使?在數據使??數量多且相互獨?的情況,?如開放平臺場景的openid,同樣?個?戶,不同開發者獲取的openid不同。
(5)泛化技術
泛化技術是指?種降低數據集中所選屬性粒度的去標識化技術,對數據進?更概括、抽象的描述。泛化技術實現簡單,能保護記錄級數據的真實性,常見于數據產品或數據報告中。
取整:涉及到為所選的屬性選定?個取整基數,?如向上或向下取證,產出結果100、500、1k、10k
頂層與底層編碼技術:使?表?頂層(或底層)的閾值替換?于(或低于)該閾值的值,產出結果為 “?于X”或 “低于X”
(6)隨機化技術
隨機化技術作為?種去標識化技術類別,指通過隨機化修改屬性的值,使得隨機化處理后的值區別于原來的真實值。該過程降低了攻擊者從同?數據記錄中根據其它屬性值推導出某?屬性值的能?,但會影響結果數據的真實性,常見于?產測試數據。