- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2022-01-18來源:我醒著做夢瀏覽數:384次
? ? ? 接上篇:【干貨】數據安全流通的解決方案(一)
? ? ? 基于之前的分析和我們的安全能力的整體的架構,我們做出了安全流通的解決方案。我們期望在多方間構建有效的一個信任體系,來解決信任問題。機密計算技術就是做到原始數據不出域,但是也能實現數據的價值和知識的流通。結合云安全原生實現數據全生命周期的防護,左邊這個藍色部分是我們要解決的一些問題,也就是說數據需求方和提供方進行一個直接的數據交互,勢必會造成用戶的敏感信息的泄露。
? ? ? 其實還有更重要的一點,數據有一個特性:可復制且不被控制,也就是說它可以二次流轉,甚至N次流轉,但是數據一旦流轉出去,知識產權是沒法進行保護的。我們解決這些問題的方式是在數據生產者和數據消費者之間,搭建一個隱私計算平臺,以這個平臺為中介,用戶將數據在平臺進行分享,但是平臺本身也對這個數據是不可見的,他只是在這個安全的這個環境內進行的數據的計算、分享這樣一個過程。同時這個計算平臺,我們也提供算法的支持,因為我們阿里云的數據中臺也有大量的數據使用這樣的產品的最佳實踐,我們可以通過這種方式來給用戶透出計算能力,但是用戶不用擔心我們的計算平臺竊取他的計算數據。

? ? ??機密計算應用方式,這張圖我們剛才在趨勢里面也進行了一個簡單的討論,不論MPC,還是同態加密、聯邦學習、差分隱私,這一系列的活動,其實都是解決一個問題,就是將原始數據進行變換,轉化為隱私計算數據,能夠進行隱私計算處理,同時不會泄露數據的明文。這樣看其實我們做的就是一個數據流通的管道,包括TEE也是,這些技術都是提供一個數據流通的基礎設施,是一個管道。如果說有朝一日,我們國家建立了這樣一整套數據流通的隱私計算的高速公路,在我們國家范圍內,那所有的數據都可以安全有序的流動,那么我們的數據都是規范在這個車道內,不會去變道,不會去跑出劃線的這個部分,這是我們希望未來一個遠景的建設,一個長期目標。

? ? ??在這云安全產品基礎上,我們構建了這個全生命周期的防護體系,這六個方框代表著六個生命周期,灰色部分其實就是以這個現有的阿里云的這個傳統的技術能力,就已經完全非常好地實現了這樣一個生命周期。但是唯獨在這個處理階段,在TEE技術發布之前,我們是沒有辦法很好的處理在云上服務器cpu運算的時候能夠保護數據的。但是去年這個英特爾正式發布第三代智強處理器之后,我們就能夠在這個云上環境中建立一個可信的執行環境,讓用戶的算法和數據能夠安全的傳遞到這個云平臺上,做計算,保證用戶在不信任云平臺,服務商的基礎上也能完成這樣一個安全的數據的計算,所以我們在這個地方就做了DataTrust。我們是還支持多種計算形態的,包括這個MPC,包括聯邦學習,還有這個TEE環境中的集中化計算。所以我們在全生命周期實現了阿里云整體的一個數據生命周期的可信保護。? ? ??

? ? ??下面介紹一下今年所主要從事的DataTrust隱私增強計算產品,這個產品的核心架構我們從自底向上看,底層的核心技術就是TEE,然后MPC,FL和DP。這些技術我們都是作為一個獨立發展的技術棧,然后再不斷的迭代。在這些基礎的核心能力上,我們在上層建立了一整套數據分享和交互的計算平臺,也就是控制平面和這個數據平面,我們都在這層都進行了建設。然后從總體上來說,我們分為服務端和客戶端,客戶端就是這個安全加密終端節點,這個節點是是部署在用戶的這個虛擬這個網絡VPC里,或者是在客戶的私有機房,我們通過這種方式能夠做到數據密鑰和數據都不出域,都是在用戶的可信的域里邊來進行數據加密和解密的操作。
? ? ??同時整個這個任務的調度運維體系,包括算法的調度都是在我們的安全調度中心,這個調度中心是在云上的。我們提供了這五大服務模塊。包括數據管理,密鑰管理,遠程證明,任務管理和公示審批,遠程證明其實就是針對用戶不信任云服務商提供的硬件來做的一個解決方案,也就是用戶可以在遠程來對我們阿里云的這個計算的基礎設施發起遠程證明的挑戰,我們通過硬件廠商提供一系列的密碼學的能力給到用戶,證明說這個機器是可以信任的遠程遠程服務器?;谶@個,我們進行了一系列的任務的調度和數據的流轉。同時我們也提供了數據的共識審批,這樣實現的目的就是使用方可以對數據進行全生命周期的一個把控,就是說我們所有的計算都是在用戶允許的情況下進行的,不需要去信任阿里云的管理人員去怎么去操作的,完全把把控力全部都給到用戶,這是我們的一個理念。然后在產品服務層面我們提供的主要是數據計算能力,就是聯合建模,聯合預測和洞察,和算法定制,其實這兩塊一部分就是機器學習,另外一部分就是基于這個SQL的這種數據分析,再者就是數據定制,因為我們有強大的算法團隊做支撐。
? ? ??再往上到應用場景,其實大家更多的看到的就是說我們現在其實互聯網在構建的這個各種各樣的生態,其實這些都是需要數據共享能力的,包括政府,政務數據的融合平臺,電商平臺的聯合智能風控,包括金融機構聯合智能風控,再有就是說現在數字經濟,因為店鋪都看不見,也摸不著,只能通過網絡來進行一個搜索和推薦,所以說這個廣告推薦是對數字經濟市場主體是一個非常關鍵的點。很多的新的企業,可能沒有數據就可能就沒法生存下去。醫療建模也是一個非常有意思的點,我們是希望保護病人的這個隱私,同時我們也希望能夠推進醫療研究的進展,所以在這個地方就涉及到對用戶這個病例數據的可用不可見,這也是醫療建模在這個場景里面的一個意義所在,同時,我們這個平臺在這四個領域,也都在做落地的一個嘗試,目前還在落地的過程中。后期我們可以再進一步的去分享我們落地的一些實踐。

? ? ??這個圖是Datatrust工作原理,這張圖上面就有一個非常清晰的體現,也就是說我們在這個參與方A和B之間,有一個這個云上協調中心,我們稱為這個CSCC,這個中心就會起到一個中心化的調度,也就是任務調度的一個能力,但是這個中心并不對數據可見,數據可見只在這個參與方的這個范圍內,同時我們基于阿里云的這個計算底座,比如說maxcompute,還有RDS這樣一個數據能力和計算能力,我們給到用戶一個強大的數據分析能力,同時基于這個云上協調中心我們打造了這一套數據共享的隱私計算保護這樣一個管道出來,出于對計算形態和計算效率的考慮,我們也在這個我們的云上協調中心提供了高性能的可信執行環境的一個中心化的外包服務計算中心,也就是說在雙方都認可的情況下,我們可以把數據加密之后傳遞到這個CSCC的可信執行環境中,做一個中心化的高效計算,然后將結果加密再導出,但是這個過程中我們所有的數據也都是不暴露給我們的云上協調中心,做到了這個數據的可用不可見,這是我們的這個整體的一個架構。

? ? ??再介紹一下我們這個原創產品的這個數據安全融合的一個全過程,這個圖上面相對來說是比較比較詳細,我們看這個步驟的話,第一步首先參與方發起這樣一個項目,第二步是他發出多方協作的邀請,邀請大家把數據共享出來,第三步大家同意共享之后,把數據同步上來,第四步是多方對過程計算的算法進行一個共識的建立和審批,審批之后多方認可的計算及結果的導出這樣一個算法,第五步,在任務管理端控制平面,我們就會控制這個計算開始執行,最終將結果輸出這樣一個流程。就是說我們整個的生命周期用戶都是有這個把控權和參與權的,這也是我們的一個基礎理念。

? ? ??這是一個關于我們用這個TEE技術和密碼學技術的一個概念的展示,也就是我們基礎底座的安全能力,計算能力,我們都是基于阿里云的整套的這個現成的方案。在隱私計算層面,我們提供了這樣一個非常成熟的商業形態。
? ? ??比如說在全域精細運營這個領域,從應用角度來說,數據提供方他要保護自己的數據權益,這個權益建立在樣本空間的分享的范圍內,就是說兩方如果分享,一方首先要確定我的用戶也是你的用戶,我才會告訴你這個用戶的一個形態,同時你也告訴我,同樣的用戶在你那邊的一個使用的情況,這個其實就是保護各方數據的利益的一個方式,所以第一步,我們會提供給用戶一個這個隱私求交PSI的能力,這個隱私求交能力,我們有多種的實現方式。我們有這個基于這個密碼學的非常完備的方案。同時,我們也有這個硬件加速的方案,就是說我們在這個在某些特定的這個情況下,我們可以用硬件來加速。
? ? ??第二步,就是我們對這個對其后的樣本數據進行聯合建模,根據用戶的接受度和他的這個喜好,或者要求,提供這兩套的這個建模的環境,一套就是中心化的高效的這個TEE的執行環境。另外的是基于這個數據不出域的聯邦學習的環境,這兩個我們都可以實現得到一個相同的預測的結果,保證計算正確性。但是這個就要看用戶的合規的情況,就是如果數據不出域,那就用用聯邦,如果數據可以信任SGX這樣的芯片的加速能力我們就用TEE來進行一個低成本的高效的運算。這個運算是直接決定了這個用戶的這個使用成本和計算成本。上層算法模型其實大家也都比較熟悉,就是決策樹,還有回歸等,這部分都是傳統的。目前這個數據智能產業用的基礎的方法,我們現在都是支持的,然后應用業務在我們集團內,我們就主攻的方案是精細的這個全域運營和這個聯合風控,還有智能廣告推薦,這是我們數據中臺的這個能力,在幾方面是非常突出的,所以我們也嫁接到我們的Datatrust這個產品上面去。

? ? ??我們下面給大家隆重介紹一下我們最近推動落地的Datatrust的隱私增強計算一體機,因為我們在實踐中,發現其實有很多用戶,他其實不愿意把數據拿出來到另外一個這個超算平臺,或者說他從成本的考慮,采購這個這個本地化的部署方案對他來說是更優的一個解決。所以我們就基于這些原因,將這個服務進行獨立部署,我們把云上的安全能力都搬到了這個一體機上去,相當于是我們一體機里邊具備了云上的同等安全能力和安全等級,然后提供給用戶幾乎是完全一致的這個使用體驗,也就是說我們在一體機的Datatrust的計算能力和計算形態和整個使用的用戶的接口都是跟在公有云上的SaaS平臺是保持一致的,也就是用戶可以隨時從這個云上遷移到本地,也可以從本地遷移到云上的這樣一個平臺,我們已經實現了這個云端一體化的這樣一個架構,同時我們這個一體機是也是基于這個安全底座,就是可信執行環境,包括這個國內的一些硬件的支持,來做這樣一個可信的執行能力,密鑰的管理的合規能力。
? ? ??在機密計算能力上面,我們也能夠實現像億級的十億級級別的SQL的查詢和聯合分析能力,包括機器學習,XGBOST這些我們都已經實現了本地化部署。同時我們的數據可以做到跟硬件強綁定,就是說我們的數據導入到我們的整體架構之中之后,即使數據盤被這個不法分子拿走,他在另外一臺機器上也是沒法解開里面所有的數據的,我們做到了整個的數據是完全不會出一體機這樣一個這個物理范圍。然后我們也實現了一體機的免運維,這個用戶的環境內,不需要去人為的去干預,它可以自動進行一個基本的運維的能力,這是我們在今年這個著力打造的一體機的一個產品。

? ? ??我們這個產品也獲得了今年六月份信通院的四項基礎能力測評證書,代表我們在這個合規領域和這個基礎能力建設領域,同時我們有非常大量的投入,有很多的這個研發人員投入到這個這個產品里面去。我們在去年的這個全球云廠商品安全能力測評領域,阿里云是排在了安全能力的第二位,僅次于微軟的,是高于亞馬遜,谷歌和甲骨文的,這也其實是我們阿里云的安全部門,一個巨量的投入獲得的結果,我們也會在這個領域會持續的去推進安全的能力建設讓我們國內的用戶和國際用戶有更多的安全選擇。同時我們也推出了這個業內首個SGX2.0,這個第三代至強處理器的虛擬化實力,這也是在全球范圍第一家推出這個SGX虛擬化能力的。

? ? ??我們現在著力的這個場景剛才在其他PPT里面也介紹過,就是在零售、政務、金融、醫療領域,因為都有非常強的數據監管和數據分享的需求,所以Datatrust是在這四個領域,我們有一些樣板式的落地的方案。后期我也期待跟大家有更多的這個機會,能夠去交流我們落地的一些經驗。這個就是我們云平臺目前我們在集團內部使用的精細運營的一個方案。我們最后再簡單介紹一下,就是首先我們會有用戶的行為特征,然后有原始數據,那我們就會在我們的隱私計算平臺里面,用決策樹模型,對這個樣本進行一個預測,預測之后我們就會推斷出某一個ID,這個用戶會有哪些行為特征,我們會對這個用戶進行哪些產品的推薦,服務推薦,怎么去規劃這個客戶在我們商業平臺內部進行處理。同時我們也能保證這個用戶的數據不會被任何的第三方賣家和內部的人員去進行獲取和泄露。這就是我們在內部的最佳實踐的一個算法。
上一篇:汽車行業數字化轉型報告...
下一篇:企業數字化轉型規劃設計...