日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

北大關于知識圖譜與圖數據庫的研究工作

時間:2022-08-11來源:我有我的小思念瀏覽數:365

?然語?處理和知識圖譜研究是雙向互動的關系:?然語?處理為知識圖譜抽取知識;知識圖譜可以提升NLP任務的準確度。

導讀:本文分享圖數據庫和知識圖譜的基礎內容以及我們做過的相關工作。主要內容包括以下五個方面:

什么是知識圖譜

知識圖譜研究的多個維度

從人工智能和大數據角度看待知識圖譜

我們的工作

知識圖譜相關案例

01什么是知識圖譜

1. 搜索引擎方式革新

2012年5月6日,Google發布了“知識圖譜”的新一代“智能”搜索功能。

傳統的搜索引擎搜索數據,更多的方法是基于關鍵詞匹配的方式。

近兩年來,我們到各大搜索引擎上搜索信息時,比如搜索關鍵詞“詹姆斯瓦特”,你會發現在某一個地方出現一些卡片,信息卡片的方式是搜索領域的一大革新,它是基于知識圖譜的方式。

2. 知識圖譜的本質

基于關鍵詞匹配的傳統搜索引擎,是將匹配到關鍵詞后再把信息展現出來。

如果把信息的形式進行轉換,例如將里面的人物、地點、時間等信息抽取出來,構建一個知識圖譜的結構,就可以將“詹姆斯瓦特的校友是誰?”等問題的答案推理出來。

知識圖譜實現了從原來的關鍵字匹配、內容匹配的方式,轉變為對信息的推理、對信息的追溯這種方式。

知識圖譜本質上是基于圖的語義網絡,表示實體與實體之間的關系。

02知識圖譜研究的多個維度

知識圖譜相關領域包括知識工程、自然語言處理、數據庫、機器學習等。

知識工程:例如知識庫構建、基于規則的推理等。

自然語言處理:例如信息抽取、語義解析等。

數據庫:例如RDF數據庫系統、數據集成、知識融合等。

機器學習:例如知識圖譜數據的知識表示(Graph Embedding)等。

1. 知識工程

知識圖譜是Web和?數據時代的知識?程新的發展形態。

知識工程的核心是知識庫和推理引擎。

知識庫包括以下幾個方面:

領域本體的構建:面向特定領域的形式化地對于共享概念體系的明確而又詳細的說明。

知識抽取:從海量的數據中通過信息抽取的?式獲取知識。

知識融合:通過對多個相關知識圖譜的對?、關聯和合并,使其稱為?個有機的整體,以提供更全?知識。

① 知識圖譜數據模型

RDF

基于領域本體的構建,有幾種基本的數據模型,比如常見的RDF數據模型。

RDF數據模型將知識庫里面的各個本體以及它的屬性,還有一些相關的屬性值,以及它和其他的本體之間的關系,用一個3元組的方式來描述,即主謂賓三列的表。

RDFs

RDF數據模型的一種變式,在RDF數據層的基礎上引?模式層,定義類、屬性、關系、屬性的定義域與值域來描述與約束資源,構建最基本的類層次體系和屬性體系,?持簡單的上下位推理。

本體語言OWL

進?步擴展RDFs詞匯,可聲明類間互斥關系、屬性的傳遞性等復雜語義,?持基于本體的?動推理,提供了?組合適web傳播的描述邏輯的語法,對機器友好,但認知復雜性限制了?程應?。

② 知識抽取

③ 大規模知識抽取

知識庫的構建有以下案例:

Yago(Yet Another Great Ontology)

融合了WordNet和Wikipedia,從Wikipedia的結構中抽取信息,利???采樣評估

DBPedia

通過社區成員定義和撰寫準確的抽取模板,進?從維基百科中抽取結構信息,并將其發布到Web上。

Freebase

從Wikipedia和其他數據源(如 IMDB、MusicBrainz)中導?知識。

2. 自然語言處理

?然語?處理和知識圖譜研究是雙向互動的關系:?然語?處理為知識圖譜抽取知識;知識圖譜可以提升NLP任務的準確度。

(1)知識圖譜與自然語言處理

知識圖譜與自然語言處理在如下兩個方面關系緊密:

①信息抽取

主要技術:實體識別與抽取、實體消歧、關系抽取

趨勢及挑戰:

? 從封閉?向開放

? ?規模信息抽取

? 深層次挖掘信息背后的語義(從抽取到理解)

②語義解析

語義解析就是將?然語?映射成機器可以表達的形式。

主要技術:詞義消歧、語義??標注、指代消解等。

應?:

? ?向知識圖譜的?然語?問答

? 聊天機器?等

(2)實體識別

在實體識別中,命名實體識別的主要?法有如下兩種:

①基于規則的實體識別?法

基于命名實體詞典的?法:采?字符串完全匹配或部分匹配的?式,從?本中找出與詞典最相似的短語完成實體識別。

優點:規則簡單。

缺點:需要構建詞典和規則;性能受詞典規模和質量的影響。

②基于機器學習的實體識別?法

利?預先標注好的語料訓練模型,使模型學習到某個字或詞作為命名實體組成部分的概率,進?計算?個候選字段作為命名實體的概率值。若?于某?閾值,則識別為命名實體。

分為:最?熵模型(Maximum Entropy Model)和條件隨機場模型(Conditional Markov Random Field)。

(3)語義解析之語義搜索

語義搜索是指搜索引擎的?作不再拘泥于?戶所輸?請求語句的字?本?,?是透過現象看本質,準確地捕捉到?戶所輸?語句后?的真正意圖,并以此來進?搜索,從?更準確地向?戶返回最符合其需求的搜索結果。

(4)語義解析之知識問答

智能問答的主要?法有如下兩種:

①基于信息檢索的?法

?先利?中?分詞、命名實體識別等?然語?處理?具找到問句中所涉及到的實體和關鍵詞,然后去知識資源庫中去進?檢索,并通過打分模型對答案進?排序。

②基于語義解析的?

將?個?然語?形式的問句,按照特定語?的語法規則,解析成語義表達式,將其轉化為某種數據庫的查詢語?。

兩種主要方法的框架對比如下所示:

3. 圖數據庫

知識圖譜與圖數據庫的關系從以下四個方面介紹:知識圖譜與數據管理、基于關系的知識圖譜存儲管理、原生知識圖譜存儲管理、知識圖譜與圖數據庫。

① 知識圖譜與數據管理

知識圖譜本質上是多關系圖,通常?“實體”來表達圖?的結點、?“關系”來表達圖?的邊。

關系型數據庫:實體與實體之間的關系通常都是利?外鍵來實現,對關系的查詢需要?量join操作。

圖數據庫:圖模型建模實體(結點)和實體之間的關系(邊),在對關系的操作上有更?的性能。

② 基于關系的知識圖譜存儲管理

使用三元組進行知識圖譜的存儲:

優點:簡單明了

缺點:最?問題在于將知識圖譜查詢翻譯為 SQL 查詢后會產?三元組表的?量?連接操作。

為解決基于關系的是指圖譜存儲管理中出現的問題,采用以下兩種方法解決:

屬性表:屬性相似的聚為?張表

優點:克服三元組?連接的問題。

缺點:?對多聯系或多值屬性存儲問題、RDF的靈活性等。

代表:采?屬性表存儲?案的代表系統是 RDF 三元組庫 Jena。

垂直劃分:以謂語劃分三元組表

優點:克服屬性表的空值多值問題。

缺點:?量屬性表、刪除代價?。

代表:采?垂直劃分存儲?案的代表數據庫是 SW‐Store。

③ 原生知識圖譜存儲管理

RDF模型

gStore系統利用子圖匹配整個圖譜。

優點:任意一個節點不滿足子圖的模式都可以跳過,實現高并發。

屬性圖

典型屬性圖代表:Neo4j圖數據庫。

與RDF的區別為:邊也有屬性,可以與RDF互相轉換

④ 知識圖譜與圖數據庫

4. 機器學習

在與機器學習的聯系更多地表現在知識表示學習這一方面,應用較多的場景為知識推理。

① 知識表示學習

知識表示學習的背景是基于?絡形式的知識表示存在數據稀疏問題和計算效率問題。

知識表示學習(representation learning)主要是?向知識圖譜中的實體和關系進?表示學習,使?建模?法將實體和向量表示在低維稠密向量空間中,然后進?計算和推理。

優點:顯著提升計算效率,有效緩解數據稀疏,實現異質信息融合。

應?:知識圖譜補全、相似度計算、關系抽取、?動問答、實體鏈指。

舉例:知識表示代表模型:TransE [Bordes et al., NIPS 13]。

對每個事實(Subject, Predicate, Object),將其中的predicate作為從subject到object的翻譯操作。每個Subject/Predicate/Object,都映射成?個多維向量。優化?標是S+P=O 。

② 自然語言問答

03從人工智能和大數據的角度看待知識圖譜

為什么要從這兩個角度來看待?這主要是目前這兩個角度非常火。

① 人工智能的誕生

早在1956年達特茅斯會議上,首次提出“??智能(Artificial Intelligence, AI)”的概念。人們將他概括為“?機器來模仿?類學習以及其他??的智能”。

人工智能目前有兩個流派:符號主義(Symbolism)與連接主義(Connectionism)。

符號主義

符號主義(symbolicism),?稱為邏輯主義(logicism)、?理學派(psychologism)或計算機學派(computerism),其主要原理為認知過程就是在符號表示上的?種運算。

可以舉例理解:

?明認識???O:O(a,b,c,d,e) ,其中a(?把))b(?胎)d(坐墊)e(?架)c(腳踏)。

連接主義

連接主義(connectionism),?稱為仿?學派(bionicsism)或?理學派(physiologism),其主要原理為智能活動是由?量簡單的單元通過復雜的相互連接后并?運?的結果。

當前典型研究:深度學習、深度神經?絡。

可以舉例理解:

?明學騎???:經過?時間練習,?明終于學會了!卻說不清楚“到底該怎樣”騎。

② 知識圖譜與人工智能

計算機的發展分為三個階段:計算智能、感知智能、認知智能。

人工智能需要機器智能,特別是認知智能,而認知智能依賴知識圖譜。

目前的重要研究方向是和連接主義的結合(例如知識圖譜的表示學習等)。

③ 知識圖譜與大數據

知識圖譜與大數據的聯系

“知識圖譜”是?向關聯分析的?數據模型。

大數據的5V 特性包括:Volume(大量),Velocity(高速),Variety(多樣),Value(價值),Veracity (真實)。其中最重要是Value,但價值是隱含的,而大數據里面隱含的關系,可以用一個知識圖譜來表示。

知識圖譜與大數據的應用

知識圖譜與大數據方面的應用包括以下幾個方面:

圖機器學習,例如TransE,GCN等模型。

圖數據庫,例如RDF圖gStore、Virtuoso,屬性圖Neo4j、janusgraph等。

圖計算系統,例如點中心模型系統Pregel、GraphLab等。

圖挖掘算法,例如Pagerank、Simrank、社區發現、影響力傳播等。

04我們的工作

① 研發路線圖

我們團隊來自于北京大學王選計算機研究所數據管理研究室,2011年開始做圖數據庫方面的研究,提出了子圖匹配的方法來實現RDF的查詢、2013年至2017年開發的gStore中提出了基于結構感知的圖數據庫索引和子圖匹配查詢優化理論。

② 技術路線圖

基于圖的生態鏈的系統平臺分為三個步驟研發:知識圖譜的構建、知識圖譜管理、知識圖譜應用。

知識圖譜的構建

大部分數據是結構化或非結構化等形式,存儲在關系數據庫中,而非以RDF或屬性圖的形式存儲,因此在構建時需要進行數據形式的轉換。

涉及知識抽取、知識融合等問題,是整個系統平臺的重難點。

知識圖譜管理

解決轉換成RDF或屬性圖的數據怎么存儲、如何進行數據管理、為知識圖譜應用提供高效訪問接口等問題。

知識圖譜應用

開發知識圖譜的應用,體現數據的價值,是整個系統平臺的價值點。

③ 產品生態

gStore

項?特點:基于?圖匹配的圖數據查詢和優化策略,單機能?持50億規模的圖數據的存儲和查詢,以及更新等。

代碼:除了SPARQL語法解析器外均為獨?開發的,?前有14萬?C++代碼,完成?主知識產權。

目前版本:v 0.9.1

項?主?:gstore.cn

開源地址:https://github.com/pkumod/gStore

gBuilder

項?特點:知識圖譜構建的?體化平臺,包括Schema設計,結構化和?結構數據抽取,融合多種?本抽取的算法模型,以及抽取模型NAS搜索等。

gAnswer

項?特點:基于?圖匹配的知識圖譜的?然語?問答?法。

開源地址:https://github.com/pkumod/gAnswer

gStore Workbench

gStore可視化管理工具。

gCloud

“開箱即用”的gStore服務。

gMaster

支持百億規模分布式部署。

gStore高效RDF圖數據庫管理系統實現了自主可控國產化,能夠與國產化CPU和操作系統適配。賦能國產?主可控的計算機體系架構。

05相關案例

① 金融科技

知識關聯查詢:?融實體查詢、多層股權查詢、?融實體關聯分析。

?險分析:?險識別、資本系分析。

② 政府大數據

社會的自然人會產生諸多數據,例如出生、教育、住房、就業、婚姻生育、醫療養老、死亡等方面的數據。基于這些數據可以進行政府大數據融合與挖掘,例如用于民政和司法的親屬關系檢索。

③ 智慧紀檢

可以使用知識圖譜進行干部廉潔畫像、社會關系分析、話單分析等。

④ 智慧醫療

基于藥物說明書構建“病-癥-藥”的知識圖譜,可以進行疾病科室、疾病癥狀、疾病并發癥、健康飲食智能問答等應用。

⑤ 人工智能

例如智能問答等語音機器人。

⑥ 氣象交通

將規則寫進知識圖譜,實時采集氣象信息并進行知識圖譜的匹配,以起到預警的作用。

⑦ 公安知識圖譜

多維度知識探索:從“同程、同宿、同案件”等多個維度進?知識探索和知識推理。

隱含關系挖掘:從交通出?、?吧上?、出?境等部?和系統中獲取數據,發現?物的“同?,同上?,同出國”等隱含關聯關系。

(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢