日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數(shù)據(jù)治理平臺

睿治作為國內(nèi)功能最全的數(shù)據(jù)治理產(chǎn)品之一,入選IDC企業(yè)數(shù)據(jù)治理實施部署指南。同時,在IDC發(fā)布的《中國數(shù)據(jù)治理市場份額》報告中,連續(xù)四年蟬聯(lián)數(shù)據(jù)治理解決方案市場份額第一。

時空伴隨者:拒絕“被彈窗”,如何通過提升數(shù)據(jù)質(zhì)量來確定我們一起吹過風

時間:2022-05-25來源:水紫六瀏覽數(shù):405

當數(shù)據(jù)的質(zhì)量合格后利用經(jīng)緯度字段將數(shù)據(jù)同空間單元進行關(guān)聯(lián),建立對應(yīng)關(guān)系。手機信令數(shù)據(jù)反推密接規(guī)律的核心在于獲取出行鏈。所謂的出行鏈,是指研究范圍的一次單獨出行,比如上班出行,捕獲某手機用戶在上午某時刻離開之前未發(fā)生變動的活動范圍(如居民住所)內(nèi),按照一定的速度位置發(fā)生不斷變化,采集到系列的對應(yīng)的位置出行信息,直到到達某個地點(辦公場所)后,其活動范圍在指定時間內(nèi)和指定閾值規(guī)定的小半徑范圍內(nèi),即可認定從起始點到到達點之間的這次系列位置信息對應(yīng)的出行軌跡為一次完整的出行鏈。

“我吹過你吹過的風,我們算不算相擁?算,屬于密接。我走過你走過的路,我們算不算相逢?算,屬于次密接……”這是最近火爆五一的一個幽默段子,在疫情嚴峻的當下,聽聽小段子,我們輕輕一笑,淡然面對后,有多少人會不禁好奇一下,大數(shù)據(jù)是如何判定我們曾相擁或相逢的?

相擁或相逢,這極致的浪漫賦予共有者一個名稱----時空伴隨者。

什么是時空伴隨者?

時空交集與時空伴隨是相同概念,是公安和電信部門的專業(yè)術(shù)語。是指本人的電話號碼與確診號碼在同一時空網(wǎng)格(范圍是800米*800米)共同停留超過10分鐘,且最近14天任一方號碼累計停留時長超過30小時以上,查出的號碼為時空伴隨號碼。本人的綠色健康碼就會變成帶有警告性質(zhì)的黃色碼,并被系統(tǒng)標記為“時空伴隨者”。

通俗地說,比如感染者14天內(nèi)到過北京,而市民在14天的軌跡與其有交集,這其中,不論是身體上的擦肩而過,還是通訊信號上的漂移,都可能被認定為時空伴隨。而經(jīng)系統(tǒng)檢出后,就屬于風險人群中的時空伴隨者,健康碼就會變色。

因此,篩查“時空伴隨者”可以最大程度發(fā)現(xiàn)潛在風險人群,將有可能感染的人群納入到重點排查中,真正做到早期發(fā)現(xiàn)和防控關(guān)口前移。那么,通過手機號碼提供了什么數(shù)據(jù)讓我們找到這些“時空重合”的伴隨著呢?----手機信令。

手機信令中有哪些數(shù)據(jù)?

手機信令數(shù)據(jù)(Mobile Signal Data),是通過手機用戶在基站之間的信息交換來確定用戶的空間位置,類似下面那張網(wǎng)格圖。手機信令數(shù)據(jù)的數(shù)據(jù)空間分辨率多為基站,時間分辨率則可精確到秒,數(shù)據(jù)字段中包含時間和空間位置屬性,還有通話和信息記錄等信息,通過上述信息的關(guān)聯(lián)可以反推用戶的出行軌跡,能相對準確的記錄人流的時空軌跡。

手機信令數(shù)據(jù)通常包括四個標簽:用戶IMSI表示手機用戶的唯一標識碼,時間戳TIME表示使用手機并被基站記錄的時間,事件類型Event包括接打電話、收發(fā)信息或位置更新等記錄,基站小區(qū)編號CellID表示信令事件發(fā)生時所在的基站小區(qū)。

機信令數(shù)據(jù)格式(圖片來源于百度)

那么問題來了,如果讓手機處于飛行模式、拔卡或者關(guān)機,手機信令還依舊有效嗎?

這個問題的本質(zhì)其實就是:手機和基站到底有沒有進行“手機信令數(shù)據(jù)”的傳輸,說直白點,只要手機可以和基站交換數(shù)據(jù)。

無論是關(guān)閉流量,把卡還是處于飛行模式,我們不難發(fā)現(xiàn),手機都可以進行臨時的緊急呼叫,甚至是剛買回來的手機,即便是你不插卡,也不代表手機就不和基站有信息傳遞。

不僅如此,為了信號穩(wěn)定,手機內(nèi)置了大量的天線,都是為了盡可能主動去找到基站,并保持聯(lián)系,而不是說等你要打電話的時候,它才開始找到基站。

換句話說,但凡你打開了手機,無論是飛行模式,還是拔卡,手機都是和基站交換了數(shù)據(jù)。

手機信令數(shù)據(jù)覆蓋度廣,與其他類型的數(shù)據(jù)相比,其具有實時性、完整性、出行時空全覆蓋性等其他數(shù)據(jù)源所不擁有的優(yōu)勢,在各類規(guī)劃中尤其是交通大數(shù)據(jù)分析中具有獨特的應(yīng)用優(yōu)勢。雖然精度到不了GPS定位那么高,但好在設(shè)備和人能夠進行對應(yīng),我國的手機號碼也實行的是實名制登記,對疫情管理的需求來說相對比較匹配。

手機信令中的數(shù)據(jù)百分百準確嗎?

雖然手機信令數(shù)據(jù)覆蓋面廣,只要用戶開啟手機,即可捕獲出行信息。但是手機信令數(shù)據(jù)并不是100%準確的。

手機信令數(shù)據(jù)不準確主要有兩個原因。

原因一:人生活在城市交界位置,接收信號處于經(jīng)常漫游狀態(tài),在城市的某些區(qū)域,基站數(shù)量較多,區(qū)域基站密度較大,相同的位置可能被多個基站信號所覆蓋,處于該區(qū)域的手機號會因為重疊覆蓋的各個基站信號強度、負荷問題發(fā)生切換,導(dǎo)致表現(xiàn)在信令數(shù)據(jù)上,該用戶真實位置沒有發(fā)生變化的情況下,產(chǎn)生多條位置切換的信令數(shù)據(jù),即在通信領(lǐng)域最常遇到的“乒乓效應(yīng)”。

諸如5月6日,有些人在北京住的好好的,突然“被異地”, 北京健康寶打開后收到彈窗4。

在百度中輸入關(guān)鍵詞“健康寶彈窗 誤傷”,相關(guān)信息有490多萬條。

原因二:手機信令數(shù)據(jù)存在海量化的特點,運算量較大,運行時間較長,尤其是在大范圍、長時間的海量數(shù)據(jù)庫中進行運算時,容易造成數(shù)據(jù)冗余較多、精度降低等問題,對服務(wù)器和軟件的配置,以及對算法設(shè)計的精度保證等都有較高的要求,因此會帶來工作人力、時間等各項成本的提高。同時,在手機進行實名制登記后手機信令數(shù)據(jù)包含大量涉及用戶的個人隱私數(shù)據(jù),如姓名、身份證號碼、性別、常居住地等信息,這些敏感信息極易造成個人隱私數(shù)據(jù)的泄露,需要要求加強算法的脫敏性設(shè)計。數(shù)據(jù)脫敏不僅僅是對于客戶隱私數(shù)據(jù)中的某些字段進行加密,還應(yīng)避免數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系造成其他信息的泄露,如客人的活動軌跡特征信息等。

如何提升信令數(shù)據(jù)的準確性?

手機信令大數(shù)據(jù)用于“疫情密接”人群分析最基礎(chǔ)的算法基礎(chǔ)就是提取完整的出行鏈。為保證出行鏈的準確性,在明確了需求確定的數(shù)據(jù)的時間和地點范圍后,明確數(shù)據(jù)庫中各分表的關(guān)系和要讀取的字段信息,首先要做的就是提升手機信令數(shù)據(jù)的準確性。

1、數(shù)據(jù)的篩選與清洗

根據(jù)研究的需求,提出相應(yīng)的數(shù)據(jù)需求清單,梳理數(shù)據(jù)需求清單,明確需要哪些數(shù)據(jù)、需要哪些字段。比如說,某地流入的數(shù)據(jù)、某地流出的數(shù)據(jù)、駐留期間的OD出行矩陣數(shù)據(jù)等等。

同時在數(shù)據(jù)實際生產(chǎn)過程中,會產(chǎn)生大量的無效或異常數(shù)據(jù),包括字段缺失、信息重復(fù)、信息錯誤的數(shù)據(jù),以及位置冗余數(shù)據(jù)、漂移數(shù)據(jù)和乒乓數(shù)據(jù)等。因此,需要針對這些數(shù)據(jù)開展清洗工作,預(yù)處理后投入使用。

2、對空間數(shù)據(jù)進行單元劃分

基站碰撞,某種意義上是基于地理位置檢索的碰撞。

目前地理位置檢索技術(shù)主要為基于GeoHash與Morton碼兩種方式,兩種方式各有優(yōu)缺點,但究其本質(zhì),他們的索引在命中數(shù)據(jù)后(如某一基站的數(shù)據(jù)),在磁盤上的分布方式如下圖所示,為完全的隨機分布。

因上述數(shù)據(jù)在磁盤上是完全的隨機分布,若檢索基站對應(yīng)的數(shù)據(jù)點非常多,隨機IO很高,則會造成整體性能尤為低下。

故我們建議修改數(shù)據(jù)的存儲分布,如某一基站的數(shù)據(jù),在磁盤上的存儲方式按空間單元中的行政邊界方法劃定。其中,行政邊界可以細化到區(qū)縣、街鎮(zhèn)、社區(qū)/行政村,并對單元數(shù)據(jù)進行全盤掃描,而后進行標準化格式轉(zhuǎn)換、將字段結(jié)構(gòu)、字段完整性進行查重修正并標準化。

通過這種方式,構(gòu)造硬盤上的連續(xù)讀取,可以大幅度的減少隨機讀取的次數(shù)。因常規(guī)磁盤連續(xù)讀取的性能遠遠高于隨機讀寫的性能,從而大幅度提升查詢響應(yīng)的速度。

但這種方法,只能解決數(shù)據(jù)的檢索性能問題,而密切接觸者查詢,在檢索數(shù)據(jù)完畢后,還需要根據(jù)用戶ID與時間進行碰撞,進一步篩選出密切接觸者。故僅僅經(jīng)緯度的數(shù)據(jù)分布干預(yù)也無法完全解決同行人員查詢性能問題,還需對更多數(shù)據(jù)進行關(guān)聯(lián)分析。

3、數(shù)據(jù)關(guān)聯(lián)分析

當數(shù)據(jù)的質(zhì)量合格后利用經(jīng)緯度字段將數(shù)據(jù)同空間單元進行關(guān)聯(lián),建立對應(yīng)關(guān)系。手機信令數(shù)據(jù)反推密接規(guī)律的核心在于獲取出行鏈。所謂的出行鏈,是指研究范圍的一次單獨出行,比如上班出行,捕獲某手機用戶在上午某時刻離開之前未發(fā)生變動的活動范圍(如居民住所)內(nèi),按照一定的速度位置發(fā)生不斷變化,采集到系列的對應(yīng)的位置出行信息,直到到達某個地點(辦公場所)后,其活動范圍在指定時間內(nèi)和指定閾值規(guī)定的小半徑范圍內(nèi),即可認定從起始點到到達點之間的這次系列位置信息對應(yīng)的出行軌跡為一次完整的出行鏈。不同的出行鏈活動半徑差異較大,如在城區(qū)內(nèi)部的出行鏈,其出行距離一般為3-10公里,而城際出行,尤其是乘坐飛機、高鐵出行,其單次出行距離可能超過1000公里。因此對于不同研究范圍的出行鏈計算,最重要的是科學(xué)設(shè)定不同的閾值判定標準,從而準確提取出對應(yīng)的出行信息。

相似出行鏈:出行軌跡吻合度達80%以上,多出現(xiàn)在相同交通工具搭乘者,包括高鐵和飛機、出租車、自駕小汽車、公路客運班車等,但是他們在出行起點之前和終點之后的出行軌跡產(chǎn)生顯著的變化。相似出行鏈則是判定相同交通工具搭乘者的重要依據(jù)。

相同出行鏈:出行軌跡吻合度則高達95%以上,表現(xiàn)在除了提取的出行鏈內(nèi)的軌跡高度吻合外,且在出行鏈起始點之外的軌跡也存在較多的吻合性。較多原因是同名用戶擁有2臺以上手機的情況,同時也有可能是家庭內(nèi)部用戶的或者相同單位內(nèi)部的同事出行的情況。相同出行鏈是數(shù)據(jù)預(yù)處理工作中視具體情況可進行篩除或者去重。

遏制疫情,萬眾一心,我們堅信能打贏這場戰(zhàn)“疫”!

(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)
立即申請數(shù)據(jù)分析/數(shù)據(jù)治理產(chǎn)品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢