- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2022-01-26來源:格子衫小帥氣瀏覽數:727次
? ? ? ??導讀:隨著全球數字經濟的高速發展,中國的數字經濟規模達到了5.4萬億美元,位列全球第二。據IDC預測,2025年中國將成為全球最大的一個數據圈。在數據量高速增長和數字經濟持續發展的背景下,數據安全領域受到越來越多的挑戰和重視。其中,數據泄露正是焦點問題之一。今天和大家分享的議題是數字水印在數據泄露溯源中的應用和挑戰。主要圍繞下面四個方面展開:
數據泄露現狀
數字水印技術
水印在電商的應用
思考與探索
? ? ? ??首先和大家分享下數據泄露的背景。

? ? ? ??以2020年為例,全年的數據泄露總量已經超過了之前15年的總和,達到了36億條。據分析,數據泄露的根本原因可分為三類:系統故障、人為失誤和惡意攻擊。惡意攻擊不僅包括外部的黑客攻擊,也包括內部惡意人員的主動泄露。

? ? ? ??目前,數據泄露,不是一個單點事件,而是形成了包括數據獲取方、數據中間商、數據購買者在內的一條非常完整的黑色產業鏈。
? ? ? ??產業鏈上游:數據獲取方,包括內部惡意人員、黑客,甚至黑客工具的提供者。
? ? ? ??產業鏈中游:數據中間商,獲取到泄露數據后,將對這些數據進行二次加工,在暗網上進行售賣。
? ? ? ??產業鏈下游:數據購買者,泄漏數據的實際使用方會利用泄漏數據實施電信詐騙、精準營銷、惡意刷單等。進一步,由于下游對于數據的精細化要求,又會促使上游去獲取更全面的,更多樣化的數據。據估計,整個產業鏈已經達到了千億規模。

? ? ? ??不容樂觀的數據泄露形勢,對數據全生命周期提出了更高的安全需求。今天的講座主要聚焦在數據交換階段的水印添加技術,及其在數據溯源和版權保護方面的應用。

? ? ? ??網頁上的明水印是用戶最常接觸的一種水印類型。對于有敏感數據或者重要文件展示的網頁,背景往往鋪滿了包含訪問用戶ID、時間、公司logo等信息的水印,用于提醒用戶及防止截圖泄露。但是這種添加的明水印,通過馬賽克、亮度調節、對比度調節,甚至圖像二值化等手段可以簡單直接的去除。

? ? ? ??另一方面,人工智能的發展對于圖片水印、視頻水印造成了非常大沖擊。如圖中的應用實例,即使打有非常厚的水印,通過人工智能算法依然可以去除。重建后,盡管有一些細節的損失,但整體效果已經非常驚人。
? ? ? ??數字水印是永久鑲嵌在其他數據(宿主數據)中具有可鑒別性的數字信號或模式,且不影響宿主數據的可用性。多用于版權保護和數據溯源。

? ? ? ??數字水印通用框架主要分為水印添加階段和水印提取階段。
? ? ? ??水印添加階段:將原始數據和通過密鑰加密的水印內容輸入到水印添加算法,獲取到含水印的數據。較之原始數據,含水印的數據只會有細微的變化,不易被人眼觀察到。
? ? ? ??水印提取階段:將含水印的數據,通過水印提取算法來判斷是否含有水印,提取水印的具體內容,進而定位到數據的具體來源。

? ? ? ??一般,從以下五個維度來評價數字水?。?

? ? ? ??圖片水印是水印技術中發展的最早,相對最成熟的一個領域。LSB水印是一種簡單的添加水印方法。如圖所示,左上角是原始圖片,下方是待插入水印圖像。由于圖片像素取值范圍在0-255之間,由八個bit表示的。改變最低位的0,1取值,對于圖像的整個質量影響很小,肉眼基本看不出什么變化。對于具體的像素值來說,插入0的地方變成了偶數,插入1的地方變成了奇數。因此,可以通過從最低有效位里面直接去抽取到添加的水印內容。LSB水印這種方法實現簡單,但是魯棒性比較差。JPG圖像壓縮就可能改變水印內容,圖像剪切也會破壞掉部分的水印內容。

? ? ? ??當前最常見的數字圖片水印是基于變換域的水印,例如離散小波變換DWT、余弦變換DCT等。通常將待插入水印圖片或水印字符串轉換為二值化數據,插入原始圖片的變化域中,肉眼看不出與原始圖片的差異,后續也可以提取出水印內容。此外,圖片剪裁、遮擋攻擊,盡管會導致提取結果的質量有所下降,但是依然可以判斷出水印信息。

? ? ? ??文本水印可分為三個大類:

? ? ? ??基于零寬字符文本水印的舉例:在Unicode編碼中,存在很多的就是不可見字符,以及不占位的字符。利用這類字符,可以構造出文本水印。圖中的兩種“北京市朝陽區”肉眼看上去并沒有區別,但其實在第二行的“北京市”后面插入了很多的零寬字符,字符串的長度發生了變化。

? ? ? ??基于不同空格文本水印的舉例:在Unicode編碼中,存在不同編碼的空格,如半寬空格、全角空格、1/3空格等。從上圖中可以看出,不同空格在寬度上略有不同,可用于水印嵌入。

? ? ? ??基于自然語言文本水印的舉例:原始文本是“我的媽媽今年30歲,她是北京人,是一名醫生”。同義詞替換時,通過同義詞的對照關系,可以做01編碼去嵌入水印。句法變換時,往往涉及到省略,指代和替換,甚至句式上的變動?;谧匀徽Z言的文本水印方法將水印和內容嵌合在一起,提高了水印的魯棒性。但是它本身也有弊端的,例如,可能會導致語言風格上的變化,或引入歧義。

? ? ? ??數據庫水印是在2002年首次被提出。不同于其他類型的水印,它要求加入的水印對數據可用性影響盡可能小,甚至不能造成微小的精度喪失。因此,主流的研究方向是可逆水印,即:在添加水印后可恢復原始數據。
? ? ? ??針對數據庫中數值型和字符型數據類型,有不同的水印添加方式。
? ? ? ??對于數值型,大部分水印添加方式都是從圖像算法延伸擴展的,例如:基于最低有效位的(不可逆水?。?、直方圖平移、差值直方圖平移和差值擴展素算法(可逆水?。?。
? ? ? ??對于字符型,主要有兩大類:一類是基于特定字符,如空格,大小寫切換,半角全角等;另一類是基于自然語言,如同義詞替換。
? ? ? ??一般來講,圖片水印有空間維度上的約束。文本水印有上下文的約束。不同于它們,數據庫的元組和元組之間強關聯性比較弱。因此,數據庫水印添加階段,需要添加一個預處理步驟,可分為三部分:
數據預處理:對元組和屬性列進行排序操作,用來防止隨機打亂類的攻擊;接著,應用優化算法(如遺傳算法,螢火蟲算法、模擬退火等)確定最佳的水印嵌入位。在保證最小數據失真的前提下,嵌入更多水印容量來提升水印的魯棒性。
? ? ? ??水印嵌入:如上所述的水印嵌入算法。
? ? ? ??水印提?。横槍δ玫降男孤稊祿?,可進行水印提取。
? ? ? ??下面以電商生態為例,介紹若干數字水印技術應用實例。

? ? ? ??電商生態主要由平臺、商家、ISV和物流四大塊構成。所涉及的敏感數據主要分為兩類:
? ? ? ??用戶個人隱私:比如姓名、手機號、收貨地址,身份證號等數據。
? ? ? ??交易數據,比如購買的商品、金額。
? ? ? ??由于電商業務涉及的環節多,從業人員流動性大等特殊性,通過內部人員泄露數據的比例較高,接近50%。截圖拍照、批量導出是兩種較為常見的泄露方式。

? ? ? ??舉兩個內部泄露案例:
? ? ? ??案例一:有操作權限的人員,訪問訂單系統中的訂單記錄。以截屏或者拍照方式,截取含敏感數據的圖片區域,并通過社交軟件途徑外發。
? ? ? ??案例二:內部人員獲取數據庫的權限,批量導出數據,并通過移動存儲設備、上傳到云存儲、郵件或者打印等方式來外發數據信息。

? ? ? ??結合典型案例,水印技術應該覆蓋的場景有截圖拍照、批量導出、文件打印和非結構化數據保護等。
? ? ? ??截圖拍照場景:在展示敏感數據的前端頁面上添加網頁水印,在重點人員的PC終端上添加桌面水印。 批量導出場景:數據庫水印技術。 重要文件打印場景:打印水印,即直接打印在紙質文檔上的水印。 非結構化的數據,比如Word、PPT、PDF文檔、圖片、音頻視頻,需要做對應的水印添加方式。

? ? ? ??結合典型案例,水印在實際應用中面臨著諸多挑戰。
? ? ? ??在案例一中,截屏或拍照肯定會引起仿射變化,畸變,以及屏幕的摩爾紋;截取敏感數據時,會涉及到圖片剪裁,用馬賽克去除明水印、涂改或遮擋;在保存圖片時,JPG保存會帶來的圖像壓縮;在通過社交軟件外發時,會導致圖片二次壓縮。
? ? ? ??在案例二中,打印導出的excel表將引起載體轉換;黑產鏈數據中間商對數據的清洗,如數據格式化、過濾篩選、二次加工等。

? ? ? ??如何解決這些問題?提出兩個解決方案。
? ? ? ??含敏感數據的前端頁面:明暗結合的解決方案。明水印用作事先提醒,可根據場景采用人員ID、訪問時間、公司信息系統信息,或者內部資料請勿外傳等提示語,用來提示員工該頁面是一個不可截圖的敏感頁面。暗水印主要用于泄露溯源。因為它具有隱蔽性,暗水印在傳播過程中不易被主動去除。因為它的魯棒性,暗水印可抵御多種攻擊。當獲取到截圖的時候,依然有很大概率可以提取到水印內容。
? ? ? ??文本水?。簩γ舾凶侄芜M行加強性保護。在選擇文本水印算法時需要注意應選取適用于超短文本,且不僅可通過獲取到的文本進行提取,而且通過截圖亦可提取的算法。

? ? ? ??數據庫水印方案的要點:
? ? ? ??水印包含的信息:人員ID,時間、系統都是可包含在水印中的信息。這樣一來,就可以知道數據是通過誰,在什么時間,通過什么途徑泄露的。
? ? ? ??在敏感屬性中添加數水?。罕苊夂诋a清洗過濾掉水印。
? ? ? ??全元組插入水?。涸谒行欣锊迦胨?,提升水印提取的有效性。因為往往在情報獲取的環節,只能獲取少量的泄漏樣本。
? ? ? ??多重水印添加方式:基于特定的字符、基于自然語言。
? ? ? ??水印驗證和篡改檢測:引入糾錯碼、奇偶驗證等方法,驗證水印的準確性,檢測是否被篡改。
? ? ? ??數據庫水印添加算法應可抵抗篩選、排序、格式化等等常見攻擊。我們自研的水印添加方案在京東場景下,平均50條數據,就可以鎖定到唯一的ID。

? ? ? ??數字水印領域尚有很多未解決的問題,例如:
? ? ? ??通用性的水印添加方式的易分離去除:通用性的水印添加方式經常伴隨著和被保護內容的分離,容易被探測并去除掉。比如文本水印中的加空格或者是零寬字符,網頁水印與頁面內容的分離。
針對超短文本、特定信息的水印添加方法:諸如手機號,身份證號等信息對精確性要求很高,且有固定的數據格式,無法容忍改動。對于這類信息,如何更加有效地去添加水印是值得探索的問題。
水印算法在時間消耗和空間存儲上的優化。

? ? ? ??最后,就數據泄露溯源展開一些討論。數據泄露溯源主要是要回答三個問題:搞清楚泄漏的源頭在哪里、通過什么樣的途徑泄露、數據泄露給了誰。
數據泄露溯源并不止于對單一事件的成功溯源,溯源成功只是一個開始。比如,一旦發現了泄露的源頭,可執行徹底的阻斷,避免長期的內部泄漏風險。還原泄露途徑后,可完善涉及人員管理、業務流程的整個安全體系建設。甚至可以挖掘出背后的黑產鏈,給予法律上的打擊。基于有效溯源所掌握的信息,可對潛在的風險進行預警,例如:給被泄露用戶及時發送反詐騙提醒。
綜上所述,數據泄露溯源既不是一個終點,也不是一種亡羊補牢的操作,而是另外一種起點。
? ? ? ??Q: 網頁暗水印用什么技術好一些?
? ? ? ??A: 網頁暗水印當前比較常見的有高透明度水印、矢量水印,,看起來是一些小點點的那種,用不同的組合,去標注不同的01234這樣的一些編碼。還有就是像我剛才介紹的,可以把圖片數字水印里的變換域水印遷移到網頁來使用。
? ? ? ??Q: 基于自然語言替換的算法,如果兩份帶不同水印的數據互相融合的話,能否溯源出兩個水印信息,如果能的話是怎樣做的?
? ? ? ??A:這也是我們最近在思考的問題。這種情況不僅發生在文本水印中,在數據庫水印場景也會發生。多份數據融合在一起的話,我們如何去精確地提取到水印。多份帶水印數據融合,又可以細分為:1)帶同一水印算法+同一密鑰的數據融合;2)帶同一水印算法+不同密鑰的數據融合;3)帶不同水印算法的數據融合。對于不同細分種類,會有不同的處理方法。對于1)來說,我們通過多條數據提取到的水印內容會呈現較明顯的雙峰現象,那么通過數據分析我們可以同時提取到插入的兩個水印內容;對于2)和3),由于我們只掌握我們自己的算法和密鑰,因此另一份數據中含有的水印會被當成噪聲數據去除,僅可提取到我們自己添加的水印內容。實際場景中還會發生更加復雜的情況,例如我們添加水印的數據又被重復添加了另一種基于自然語言替換的水印,那之前的水印就遭到了嚴重的破壞。對于這種場景,如果兩種算法使用不同的同義詞替換表,可能會有一些有效的區分,那通過我們在水印編碼中加入的糾錯碼,可以進行水印的驗證和糾錯。在真實溯源場景中,通過水印提取我們很多時候不是提取到一個唯一的ID,而可能是疑似的水印列表。例如,一個N位的水印編碼,通過水印提取有一些位數我們是可以確定的,有一些位數是置信度不太高的,那就需要結合例如日志審計等多種手段,去進一步縮小范圍,最后精確定位到源頭。因此數據溯源并不能單純依賴水印,還是要結合多種技術,多方面考慮,最后才能真正找到泄漏源頭。