日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數(shù)據(jù)治理平臺

睿治作為國內(nèi)功能最全的數(shù)據(jù)治理產(chǎn)品之一,入選IDC企業(yè)數(shù)據(jù)治理實施部署指南。同時,在IDC發(fā)布的《中國數(shù)據(jù)治理市場份額》報告中,連續(xù)四年蟬聯(lián)數(shù)據(jù)治理解決方案市場份額第一。

企業(yè)數(shù)據(jù)安全中的數(shù)據(jù)脫敏

時間:2022-07-19來源:轉(zhuǎn)角的夏天瀏覽數(shù):950

在企業(yè)保證數(shù)據(jù)安全,制定脫敏方案時,不要拿著錘子找釘子,而是要根據(jù)釘子去找錘子,即根據(jù)問題去找解決方案。在數(shù)據(jù)脫敏任務中,需要根據(jù)具體業(yè)務場景,并結(jié)合實際需求去制定數(shù)據(jù)脫敏方案。

導讀:隨著各國數(shù)據(jù)安全保護法的頒布,數(shù)據(jù)安全已經(jīng)成為大數(shù)據(jù)應用行業(yè)的關(guān)鍵課題。如何在不影響數(shù)據(jù)使用的前提下,保護用戶數(shù)據(jù)隱私,進行大數(shù)據(jù)分析和挖掘是相關(guān)從業(yè)者的一大難題,而“數(shù)據(jù)脫敏”正在成為解決這一行業(yè)性難題的關(guān)鍵技術(shù)。今天和大家分享企業(yè)數(shù)據(jù)安全中的數(shù)據(jù)脫敏技術(shù)及其應用,主要包括以下幾方面內(nèi)容:

數(shù)據(jù)脫敏相關(guān)概念

數(shù)據(jù)脫敏常見技術(shù)方法

企業(yè)內(nèi)部常見數(shù)據(jù)脫敏場景

數(shù)據(jù)脫敏延伸思考

01數(shù)據(jù)脫敏相關(guān)概念

首先和大家分享下數(shù)據(jù)脫敏的相關(guān)概念。

廣義上,數(shù)據(jù)脫敏是指不影響數(shù)據(jù)使用準確性的前提下,對原始數(shù)據(jù)中的敏感字段進行處理,從而降低數(shù)據(jù)敏感度和減少個人隱私風險的技術(shù)措施。數(shù)據(jù)脫敏方法主要是屏蔽敏感數(shù)據(jù),例如身份證號、手機號、卡號、姓名、郵箱地址等,進行數(shù)據(jù)變形,比如打星號、字段截斷等等。

數(shù)據(jù)脫敏的效果有兩種,一種是去標識化,是指第三方在不借助額外信息的情況下,無法識別個人主體信息。第二種更嚴格的數(shù)據(jù)脫敏效果是匿名化,即使第三方借助外力,也無法識別個人主體的敏感信息。

02數(shù)據(jù)脫敏常見技術(shù)方法

下圖是國家的一個相關(guān)標準——信息安全技術(shù)個人信息去標識化指南,對脫敏技術(shù)進行了全面的介紹。

1. 統(tǒng)計技術(shù)

統(tǒng)計技術(shù)在數(shù)據(jù)脫敏應用中分為數(shù)據(jù)抽樣和數(shù)據(jù)聚合兩種方案。

數(shù)據(jù)抽樣,是通過選取數(shù)據(jù)集中有代表性的子集來對原始數(shù)據(jù)集進行分析和評估。這種方式可以避免使用全量數(shù)據(jù)進行分析。

數(shù)據(jù)聚合,經(jīng)常用于統(tǒng)計結(jié)果中,例如最大值、平均數(shù)、環(huán)比增長、同比增長等,使用統(tǒng)計值來反應原始數(shù)據(jù)集中的記錄屬性。

2. 密碼技術(shù)

密碼技術(shù)在數(shù)據(jù)脫敏方案中分為確定性加密,不可逆加密和同態(tài)加密三種方案。

確定性加密,是一種非隨機對稱加密,可以使用密鑰對屬性進行加解密來進行數(shù)據(jù)脫敏和還原,常見于對id類數(shù)據(jù)進行處理。需要對密鑰進行妥善保護。

不可逆加密,一般是使用散列(hash)函數(shù),對數(shù)據(jù)進行處理,不可直接解密,需保存映射關(guān)系。常見于對id類數(shù)據(jù)進行處理。由于hash函數(shù)的特性,會存在數(shù)據(jù)碰撞的問題。這種方式用法簡單,無需擔心密鑰保護。

同態(tài)加密,是目前比較熱門的方式。這種加密方式對于密文計算的結(jié)果,解密之后和明文計算的結(jié)果是相同的,所以一般可以直接對密文進行運算。常見于對數(shù)值類字段進行處理。但由于性能原因,目前企業(yè)還沒有大規(guī)模使用。

3. 抑制技術(shù)

抑制技術(shù)在數(shù)據(jù)脫敏中的應用是指對不滿足隱私保護的數(shù)據(jù)項進行刪除或屏蔽。主要包括屏蔽、局部抑制和記錄抑制三種。

屏蔽,是指對屬性值進行屏蔽,例如對手機號碼中間的四位數(shù)字打星號屏蔽,對地址信息只保留到省市,隱藏后面的街道門牌號等具體敏感信息。

局部抑制,是指刪除特定的屬性值(列)的處理方式,刪除非必要的數(shù)據(jù)字段。

記錄抑制,對某條敏感記錄進行抑制,也就是刪除特定記錄(行),刪除非必要的數(shù)據(jù)記錄。和前面的數(shù)據(jù)抽樣類似,通過抽取一定行數(shù)的數(shù)據(jù),達到脫敏的效果。

4. 假名化技術(shù)

假名化技術(shù)在數(shù)據(jù)脫敏中的應用是指使用假名替換直接標識(或其它敏感標識符)。例如在開放平臺,對于不同的開發(fā)者或應用,我們的平臺會給用戶生成不同的ID,比如為一個應用給一個openid1,再為另一個應用給一個openid2,這時可能會用加密或散列函數(shù),或做隨機的映射保留映射關(guān)系,這樣可以保證即使同一個用戶對不同應用的ID也是不一樣的。

5. 泛化技術(shù)和隨機化技術(shù)

泛化技術(shù),是指降低數(shù)據(jù)集中所選屬性的粒度,對數(shù)據(jù)進行更概括、抽象的描述。例如取整,或者使用高于多少和低于多少表達,不是使用一個具體的值而是使用一個范圍來表示。泛化技術(shù)實現(xiàn)簡單,能保護記錄數(shù)據(jù)的真實性,常見于數(shù)據(jù)產(chǎn)品或數(shù)據(jù)報告中。

隨機化技術(shù),是指通過隨機化修改屬性的值,使用隨機化處理后的值區(qū)別于原來的真實值。該過程降低了攻擊者從同一數(shù)據(jù)記錄中根據(jù)其它屬性值推導出某一屬性值的能力。隨機化技術(shù)一般在測試場景中使用,使用隨機化技術(shù)批量生成測試數(shù)據(jù)。

03企業(yè)內(nèi)部常見數(shù)據(jù)脫敏場景

在前面部分我們看到了,數(shù)據(jù)脫敏技術(shù)有非常多種。那么在企業(yè)內(nèi)部我們該選擇哪些技術(shù)呢?接下來我們就一起來看一些典型的場景:靜態(tài)脫敏,數(shù)據(jù)庫脫敏和應用系統(tǒng)脫敏。

1. 靜態(tài)脫敏

靜態(tài)脫敏主要是對數(shù)據(jù)進行批量脫敏,包括測試數(shù)據(jù)和數(shù)據(jù)導出用于離線分析等場景。例如我們拿一些正式環(huán)境中的數(shù)據(jù),到測試環(huán)境中去測試,但測試環(huán)境的安全保護相對較弱,通常不建議直接用真實數(shù)據(jù),那么就需要用靜態(tài)脫敏的方式去生成測試數(shù)據(jù)。或者是有一些模型要訓練,為了保證訓練的有效性,我們需要保證真實數(shù)據(jù)中的屬性的值,但對ID等一些信息進行脫敏處理,如假名化或者不可逆加密。

對于不同的用途,我們可以選擇不同的脫敏技術(shù)或組合。比如對取測試數(shù)據(jù),可能用到隨機化、數(shù)據(jù)遮蔽等。對取模型訓練數(shù)據(jù),可能用到假名化、保序加密和數(shù)據(jù)抽樣。對于數(shù)據(jù)導出,又可能用到數(shù)據(jù)屏蔽、局部抑制等等。

在靜態(tài)脫敏中要注意哪些問題呢?首先如果這個脫敏是低頻的,那可以用腳本,但如果是常態(tài)化的,就需要對ETL工具或數(shù)據(jù)同步工具進行改造。第二就是在脫敏過程中要對字段數(shù)據(jù)類型進行準確識別,以選取對應的脫敏方式。第三是要通過網(wǎng)絡ACL、數(shù)據(jù)庫權(quán)限等方式,對數(shù)據(jù)導出進行收斂。否則,大家還是可以通過數(shù)據(jù)庫管理工具或者應用系統(tǒng)直接地查詢和導出,只要是通過未覆蓋脫敏工具的場景,就依然有明文的數(shù)據(jù)流出來。

2. 數(shù)據(jù)庫動態(tài)脫敏

動態(tài)脫敏是指技術(shù)人員直接對數(shù)據(jù)庫操作,用于對數(shù)據(jù)直接進行管理,一般是對于研發(fā)、運維、DBA等人員,在日常的開發(fā)和數(shù)據(jù)管理等場景。

最常見的脫敏方式就是采取屏蔽技術(shù),如對敏感字段打星號。

動態(tài)脫敏通常有兩種方案:

第一種方案是數(shù)據(jù)庫防火墻,有兩種方式,一是基于數(shù)據(jù)庫協(xié)議,對sql語句進行改造,增加脫敏udf,經(jīng)過改造過后的SQL語句在數(shù)據(jù)庫執(zhí)行后返回的結(jié)果就已經(jīng)是脫敏的了,還有一種方式是對返回結(jié)果進行轉(zhuǎn)化,對原始sql執(zhí)行結(jié)果中的敏感字段進行識別和處理,同樣也可以達到動態(tài)脫敏的效果;

第二種方案是web console,通過應用來訪問數(shù)據(jù)庫,在應用上通過抑制技術(shù)前端展示脫敏、限制查詢條數(shù)等。

無論以上哪種方案,都必須限制原生db console的使用,否則會造成脫敏環(huán)節(jié)被繞過的情況,通常會配合數(shù)據(jù)庫防火墻的接入點選擇,或是數(shù)據(jù)庫端口的網(wǎng)絡ACL來共同完成。

3. 應用系統(tǒng)動態(tài)脫敏

應用系統(tǒng)動態(tài)脫敏主要是對前端頁面或數(shù)據(jù)庫接口數(shù)據(jù)脫敏。例如用戶的手機號或身份證號,需要在頁面上展示,或者是為合作方提供一個API接口,這個時候我們需要在應用系統(tǒng)中做一些脫敏處理。

對于屬性類的敏感信息,比如身份證、手機號,可以采用打星號的屏蔽技術(shù)。對于ID類的信息,可用假名化處理。

在對應用系統(tǒng)脫敏過程中,要注意脫敏的字段和規(guī)則要提前定義。一般較少用數(shù)據(jù)庫防火墻,會影響應用中基于真實數(shù)據(jù)的業(yè)務邏輯,或影響性能。脫敏一定要在服務端進行。

4. 大數(shù)據(jù)平臺綜合場景

這是一個大數(shù)據(jù)平臺各個環(huán)節(jié)綜合的應用,包括ETL過程中的數(shù)據(jù)抽取和加工,面向分析人員(類似于數(shù)據(jù)庫動態(tài)脫敏),結(jié)果數(shù)據(jù)導出(類似于靜態(tài)脫敏)等場景。這部分相當于是對前面三種場景的結(jié)合,在此就不詳細展開講了。

5. 數(shù)據(jù)產(chǎn)品&數(shù)據(jù)報告脫敏

數(shù)據(jù)類應用或編寫數(shù)據(jù)報告時也會需要脫敏。比如內(nèi)部數(shù)據(jù)監(jiān)控類產(chǎn)品,對外服務的數(shù)據(jù)類產(chǎn)品,基于數(shù)據(jù)分析的報告等等。

這種場景常用到數(shù)據(jù)聚合的方式,比如統(tǒng)計分析、圖表等。對于數(shù)值類會采用泛化或截斷。通過數(shù)據(jù)抽樣技術(shù)選取特定范圍的數(shù)據(jù)。

這種場景中要避免出現(xiàn)絕對數(shù)值,或通過占比反推大盤數(shù)據(jù)等情況。

04數(shù)據(jù)脫敏延伸思考

在企業(yè)保證數(shù)據(jù)安全,制定脫敏方案時,不要拿著錘子找釘子,而是要根據(jù)釘子去找錘子,即根據(jù)問題去找解決方案。在數(shù)據(jù)脫敏任務中,需要根據(jù)具體業(yè)務場景,并結(jié)合實際需求去制定數(shù)據(jù)脫敏方案。

業(yè)務需要數(shù)據(jù),但數(shù)據(jù)安全又需要確保最小化給予數(shù)據(jù),如何確保業(yè)務和安全不會互相制約,要在業(yè)務需求和數(shù)據(jù)安全中尋求一個第三解決方案,既不影響業(yè)務的正常運轉(zhuǎn),又保障個人數(shù)據(jù)安全。

(部分內(nèi)容來源網(wǎng)絡,如有侵權(quán)請聯(lián)系刪除)
立即申請數(shù)據(jù)分析/數(shù)據(jù)治理產(chǎn)品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢