日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

張海鵬:另類數據挖掘在風控中的應用研究

時間:2022-03-18來源:正在讀取中瀏覽數:211

分享嘉賓:張海鵬博士?上海科技大學

編輯整理:李冠 百維金科

出品平臺:DataFunTalk

導讀:所謂另類數據,有別于普通或者常規的數據,是那些比較小眾還沒有被大規模挖掘使用的數據。接下來我會給大家介紹另類數據挖掘在當前工程、以及交叉領域的一些前沿進展,最后還會給大家介紹我們課題組在風險建模方面的一些研究成果。

01何為另類數據挖掘(一個200年前的例子)

在19世紀,倫敦爆發了一場非常嚴重的霍亂疫情,造成了四萬多人的死亡。當時學界普遍認為這場瘟疫的源頭是瘴氣,比如垃圾堆的氣體等。有一個年輕的醫生叫約翰·斯諾,他對這個觀點不是特別的認同,因為他曾經在在倫敦較為臟亂的環境中生活過,也接觸到了所謂的瘴氣,但是他發現他本人包括他周圍的人并沒有因此而感染霍亂。

約翰·斯諾當時做了一個非常令人震撼的工作,他每家每戶的去走訪,去調研在每戶地址里面感染霍亂的人員數量,然后在相應的地圖位置進行記錄。大家可以看到下面這個圖上有一些黑色的條,一個條代表一個感染的病例,這個條越高,就代表地址的病例越多,一張霍亂傳染病的疫情地圖就這樣繪制出來了。

這個圖在現在司空見慣,但是在當時是非常領先的,他把感染數據和地圖數據融合在了一起,試圖通過這樣一個數據挖掘和可視化的方式,去找到疫情的來源。通過這個疫情地圖,他發現感染的中間核心區域有一個水泵。周圍的居民都會從水泵去取水,然后他就懷疑是這個水泵受到了污染。約翰·斯諾就向倫敦市政府建議,把這個水泵拆掉,這樣民眾只能從其他的地方去取水。之后很快這塊街區的疫情就得到了遏制。

在19世紀,倫敦的生活用水和生活污水沒有做很好的隔離,可能會出現飲用水被污染的情況,所以約翰·斯諾也因此向倫敦市政府建議去修建地下的下水道系統。從某種程度上來說,這樣一個另類數據挖掘的工作,也推動了社會的進步。

02當前另類數據挖掘(Nature:與人類辯論的AI)

另類數據挖掘發展到今天,已經可以去做一些人類能做的事情,甚至在某種程度上,它可以去超越人類,大家可能比較熟悉的例子是之前谷歌的AlphaGo。今天給大家分享一個例子,是刊登在2021年3月18號自然雜志上的封面文章,叫做Debater,一個人工智能的辯論系統,能夠和人類的辯手展開真實的辯論賽。

這個項目歷時十年,中國、美國、以色列三個國家,大概有四五十的科學家投入研發出這樣一個系統,我當時也非常有幸參與到了這個項目中。以下是當時媒體對Debater的一個報道圖片,就是中間這個黑色東西,在它的右側是一個人類辯論冠軍,他們展開了一場辯論。

Debater用到了深度學習技術,自然語言處理技術,和自然語音生成技術,當然還有數據挖掘的技術。這個系統主要用到了兩方面數據:

新聞文本加上維基百科。他們希望能夠在這樣的數據里面,挖掘出相應的論點和論據,然后組成可以用于辯論的材料。下圖左邊這個模塊里面有一個工作叫做Wikification,用于把新聞文本變成類似于維基百科那樣的一個鏈接式的知識庫。通過命名實體識別(NER),找到這些關鍵的信息,和現成的知識庫(例如維基百科)進行關聯。我當時參與了其中去歧義的部分工作,比如找到了一個關鍵詞:蘋果,那它指的是蘋果手機還是吃的蘋果,需要進行分析辨別。

歷史人類辯論賽的數據記錄。他們希望通過挖掘這樣的歷史辯論記錄,能夠提從中提取出辯論的套路,讓機器了解到如何去開展一個辯論。把這個辯論的論點和論據結合的套路,形成了自己的辯論內容,這個也是系統相對比較重要的部分。

03另類數據與交叉研究(Science:衛星數據與貧困)

在經濟金融研究方面,另類數據挖掘也是有著令人激動的一些進展。下面給大家介紹一篇文章,來自于斯坦福大學的團隊16年發表在Science雜志上,他們用衛星圖片數據去預測一些經濟指標。他們的研究背景是想去消除貧困的人口,或者是對全世界上這些貧困的人口,進行相應的幫助和扶貧。

但是因為貧困的國家的數據工作不是很健全,導致可靠的貧困相關數據的缺失,無法去精準地制定扶貧政策,給人類的扶貧造成了一些困難。科學家就通過一些另類數據挖掘,試圖去擬合出真實的貧困的情況。

他們主要的想法就是用衛星圖片的公開數據建立模型,去預測貧困的指標。通過衛星拍攝地表的情況,通過計算機視覺的各種手段(CNN)得到它相對低維的一個特征表示,比如樓房的密度、荒蕪的程度等,把這樣的一些信息特征X聚合起來,再和這些代表貧困的一些經濟指標Y進行關聯,訓練模型。

但這些Y標簽其實是不具備的。因為對于不同的國家,它的GDP的數據不一定可以直接比較,而且GDP的分辨率也不高,只能精細到國家的級別,但是他們甚至想知道某一個城市甚至城市里某一個區域的級別,這個時候GDP的數據可能就幫不上忙,而且GDP的數據可能要一年才能更新一次。

后來他們找到了一個代替品,“夜晚的光照強度”,這個數據實際上也是來自于衛星照片,因為一些研究已經發現,夜晚的光照強度和當地的經濟發展水平有比較強的正相關性。它有很好的連續性,相對客觀而且是可比較的。這樣的衛星數據,甚至可以做到一天就能更新一次,是一個非常精細和客觀的代替指標。

但夜晚的光照強度,沒有辦法直接用來估計貧困指標。如下圖所示,橫軸是不同地方每天的平均資源消耗,縱軸就是夜晚光照強度。可以看到在中間它擬合的情況還可以,誤差相對較小;但是頭尾兩側的誤差其實是很大的;其實也可以理解,因為貧困的和特別貧困的地區,夜晚一般都是黑的;富裕的和特別富裕的地區,都是最亮的;所以在兩種極端的情況下,它沒有特別好的區分度,但是在中間它有比較好的擬合效果。

然后他們就用中間這段數據,關聯上之前的X特征(樓房的密度、區域開發程度等),訓練了一個模型,拿這個模型去預測了非洲五個國家的貧困指標,效果確實很好,如下圖所示。他們通過這個方式,彌補了貧困國家在調研數據方面的不足,可以幫助更好地去做扶貧工作。

04另類數據與風險(二級市場風險捕捉與建模)

下面來看一下我們課題組在對另類數據的利用,以及對風險監管方面的一些工作。這里的風險主要是針對的二級市場,比如股票市場的風控和建模。主要會介紹兩個工作。

1.突發風險事件的監測和市場監管

近些年國際上經常會發生一些突然的風險事件,比如說大家印象深刻的911事件,還有2011年的福島核泄露等,這些事件發生之后,對于當地以及全球的金融市場都造成了非常大的沖擊。據我們的統計,從2000年以來,全球每年都會有超過6500起的恐怖襲擊,178次以上的大型地震,還有一些其他的自然災害,所以它并不是一個偶發的事件。

所以我們能不能及時地去發現這樣的風險事件,從信息源里面去提取事件的主要信息,然后通過我們掌握的信息,去實時地預測這個事件對市場產生的影響,主要分為以下兩個步驟:

市場模型的建立。這個模型的輸入就是發生的風險事件及其主要信息特征,輸出就是市場根據這樣的事件會產生什么樣的反應,是下跌以及下跌多少這樣一個具體的反應。這一部分我們主要依賴于歷史事件數據庫,因為對于自然災害,包括像剛剛提到的恐怖襲擊,有非常詳實的歷史數據。我們可以利用歷史數據以及更詳實的市場行情數據去建立我們的預測模型。在模型的選擇上,常見的機器學習模型都可以放在里面去使用。

事件的實時發現。因為剛才提到的歷史的事件庫,其實不是實時的,它可能是有非常長的一個時間差的,比如說我今年才能拿到去年的歷史數據,那么對于市場的預測來說,這樣的時間太長了。這部分我們主要是通過對實時新聞的分類及信息提取,先抽取了三個大類別恐襲,自然災害,傳染病,及其相對應的12個小類別,它們具體的信息,包括時間,地點,傷亡人數等信息。接下來我們把這個實時事件的主要信息輸入到市場模型里面,它會告訴我們下一步市場會怎么樣,具體走勢會是怎么樣。

然后我們希望能夠從多個角度去描摹捕獲到的這些事件,所以里面還使用到了之前提到的夜晚光照數據。因為從直覺上來想,如果說兩個造成了同樣傷亡的類似風險事件,但是一個發生在相對發達的地區,另外一個發生在不那么發達的地區,那么這兩個事件對于金融市場的影響可能是不一樣的,所以我們就希望通過夜光的數據去對不同經濟發展水平的地點做描摹。

我們選定了一個特定的事件:恐襲。然后選定了三個觀測的國家:以色列,西班牙,還有哥倫比亞,因為他們有比較健全的金融系統,并且這些國家每年還是會遭受恐襲的侵擾。我們使用馬里蘭大學建立的GTD開源數據庫,它收錄了1970年至今全球恐怖襲擊的信息,具體包括了135個事件相關的特征。接下來我們采用了路透社的新聞數據,大概在900多萬的量級。我們通過這個數據去模擬實時獲取的新聞,然后進行事件的發現和抽取。

在做模型之前,我們通過一些數據的分析,發現當市場下跌越多的日子中,發現它發生恐怖襲擊的比例就越高。如下圖所示,B這個點,它所表示的就是所有市場跌幅超過3.4%的日子里面,有10.3%的比例發生了恐怖襲擊;當市場的跌幅更大,我們看到A這個點,當市場的跌幅都超過4.1%的話,對于這些日子而言,發生了恐怖襲擊的概率有12.9%,所以我們就發現恐怖襲擊對市場確實存在影響。

通過分析,還發現經濟越發達的地方發生恐襲,它就越可能發生市場的下跌呢。從下面這個圖上,我們也可以看到A這個點,它表明的就是夜光100以上的地點,發生恐襲的話,會有49.3%的概率市場會發生下跌;當我們看到經濟更發達的地方就是B這個點,對于夜光強度230以上的地區來說,如果說它們發生恐襲,將有53%的概率市場會發生下跌。所以說也說明了夜光數據在這個問題上的影響。

接下來就是具體的實驗了,我們用了各種分類模型,模型準確率最高做到了接近70%。最后采用的是決策樹模型,因為從解釋性的角度,決策樹模型它會有更好的表現。它可以告訴我們機器做出這樣的判斷,具體的原因是什么。黑箱模型往往只要做對就好,不負責解釋原因。一旦出現問題,我們很難在很短的時間內進行故障排查。

2.國際政要的推文與市場預測

課題背景:越來越多的國際政要,他們會使用社交媒體進行發言。他們的發言對于國際局勢的研判,包括金融市場的方向,有著非常重要的意義。

美國的前總統特朗普,他發表了大量的推文,當時有著超過6000萬的關注者。他有時候會表達對某一些公司及其產品的看法,比如他對一個美國的軍火商發牢騷,覺得他們的戰機成本太高了,該軍火商的市值就應聲下跌;在他執政的中后期,非常關注和中國的關系,推文中有很多關于中國的內容,就在19年的時候,他發表了很多關于中國,尤其是涉及中美關稅的內容,當時確實對全球市場造成了一些擾動。

但一個人是非常難以快速全面的去了解并處理這些推文,那么是不是能夠用機器去做這個事情,機器了解了推文內容之后,再自動的去判定推文對市場會產生什么樣的影響?我們就據此列了幾個研究的問題,推文的背景信息是什么?是什么原因讓他去發了這條推文?以及推文后續會產生的影響等等。

我們擬定的一個研究框架,實際上它的大體思路和我們之前提到的辯論系統,有一些相似之處。一條推文過來,我們會先對它進行一個命名實體識別,知道它里面有哪些關鍵的實體詞語,這些實體詞又和維基百科相應的概念是如何去產生對應的,做一個實體的鏈接,進行知識的補充。然后我們也會對推文做一些情感分析,識別它是正面、負面還是中性的推文。接著我們會用外部的新聞和推文做一個關聯,尤其是他情緒的一些新聞。我們通過這樣的關聯可以去找到他發表這條推文可能的原因,中間也涉及到一些因果推理的工作。基于這個基礎上,我們希望能夠把推文的解讀和市場行情的變化產生關聯,從而能夠對市場的風險產生一些預警,當然這還是在進展中的一個工作。

05簡單的回顧

今天聊到了什么是另類數據,什么是另類的數據挖掘,也講了一個200年之前的例子,隨后我們介紹了最新的研究及工程上的一些進展,在后面還介紹了我們課題組在數據挖掘和市場風險建模之中的一些工作。希望這些內容能夠起到拋磚引玉的作用。非常期待和大家做更深入的交流,也希望大家能夠通過對另類數據的挖掘,找到至關重要的“水泵”,從而推動手上的工作,甚至是人類社會的進步。

今天的分享就到這里,謝謝大家。

在文末分享、點贊、在看,給個3連擊唄~

分享嘉賓:

免費福利:

互聯網核心應用算法寶藏書PPT電子版下載!

大數據典藏版合集PPT電子書下載!

活動推薦:

關于我們:

DataFun:專注于大數據、人工智能技術應用的分享與交流。發起于2017年,在北京、上海、深圳、杭州等城市舉辦超過100+線下和100+線上沙龍、論壇及峰會,已邀請近1000位專家和學者參與分享。其公眾號 DataFunTalk 累計生產原創文章500+,百萬+閱讀,13萬+精準粉絲。

分享、點贊、在看,給個3連擊唄!

(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢