睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一，入選IDC企業數據治理實施部署指南。同時，在IDC發布的《中國數據治理市場份額》報告中，連續四年蟬聯數據治理解決方案市場份額第一。

在線免費試用 DEMO體驗視頻介紹

睿治智能數據治理平臺

IDC蟬聯數據治理解決方案市場第一

北大關于知識圖譜與圖數據庫的研究工作

時間：2022-08-11來源：我有我的小思念瀏覽數：365次

?然語?處理和知識圖譜研究是雙向互動的關系：?然語?處理為知識圖譜抽取知識；知識圖譜可以提升NLP任務的準確度。

導讀：本文分享圖數據庫和知識圖譜的基礎內容以及我們做過的相關工作。主要內容包括以下五個方面：

什么是知識圖譜

知識圖譜研究的多個維度

從人工智能和大數據角度看待知識圖譜

我們的工作

知識圖譜相關案例

01什么是知識圖譜

1. 搜索引擎方式革新

2012年5月6日，Google發布了“知識圖譜”的新一代“智能”搜索功能。

傳統的搜索引擎搜索數據，更多的方法是基于關鍵詞匹配的方式。

近兩年來，我們到各大搜索引擎上搜索信息時，比如搜索關鍵詞“詹姆斯瓦特”，你會發現在某一個地方出現一些卡片，信息卡片的方式是搜索領域的一大革新，它是基于知識圖譜的方式。

2. 知識圖譜的本質

基于關鍵詞匹配的傳統搜索引擎，是將匹配到關鍵詞后再把信息展現出來。

如果把信息的形式進行轉換，例如將里面的人物、地點、時間等信息抽取出來，構建一個知識圖譜的結構，就可以將“詹姆斯瓦特的校友是誰？”等問題的答案推理出來。

知識圖譜實現了從原來的關鍵字匹配、內容匹配的方式，轉變為對信息的推理、對信息的追溯這種方式。

知識圖譜本質上是基于圖的語義網絡，表示實體與實體之間的關系。

02知識圖譜研究的多個維度

知識圖譜相關領域包括知識工程、自然語言處理、數據庫、機器學習等。

知識工程：例如知識庫構建、基于規則的推理等。

自然語言處理：例如信息抽取、語義解析等。

數據庫：例如RDF數據庫系統、數據集成、知識融合等。

機器學習：例如知識圖譜數據的知識表示（Graph Embedding）等。

1. 知識工程

知識圖譜是Web和?數據時代的知識?程新的發展形態。

知識工程的核心是知識庫和推理引擎。

知識庫包括以下幾個方面：

領域本體的構建：面向特定領域的形式化地對于共享概念體系的明確而又詳細的說明。

知識抽取：從海量的數據中通過信息抽取的?式獲取知識。

知識融合：通過對多個相關知識圖譜的對?、關聯和合并，使其稱為?個有機的整體，以提供更全?知識。

① 知識圖譜數據模型

RDF

基于領域本體的構建，有幾種基本的數據模型，比如常見的RDF數據模型。

RDF數據模型將知識庫里面的各個本體以及它的屬性，還有一些相關的屬性值，以及它和其他的本體之間的關系，用一個3元組的方式來描述，即主謂賓三列的表。

RDFs

RDF數據模型的一種變式，在RDF數據層的基礎上引?模式層，定義類、屬性、關系、屬性的定義域與值域來描述與約束資源，構建最基本的類層次體系和屬性體系，?持簡單的上下位推理。

本體語言OWL

進?步擴展RDFs詞匯，可聲明類間互斥關系、屬性的傳遞性等復雜語義，?持基于本體的?動推理，提供了?組合適web傳播的描述邏輯的語法，對機器友好，但認知復雜性限制了?程應?。

② 知識抽取

③ 大規模知識抽取

知識庫的構建有以下案例：

Yago(Yet Another Great Ontology)

融合了WordNet和Wikipedia，從Wikipedia的結構中抽取信息，利???采樣評估

DBPedia

通過社區成員定義和撰寫準確的抽取模板，進?從維基百科中抽取結構信息，并將其發布到Web上。

Freebase

從Wikipedia和其他數據源（如 IMDB、MusicBrainz）中導?知識。

2. 自然語言處理

?然語?處理和知識圖譜研究是雙向互動的關系：?然語?處理為知識圖譜抽取知識；知識圖譜可以提升NLP任務的準確度。

（1）知識圖譜與自然語言處理

知識圖譜與自然語言處理在如下兩個方面關系緊密：

①信息抽取

主要技術：實體識別與抽取、實體消歧、關系抽取

趨勢及挑戰：

? 從封閉?向開放

? ?規模信息抽取

? 深層次挖掘信息背后的語義（從抽取到理解）

②語義解析

語義解析就是將?然語?映射成機器可以表達的形式。

主要技術：詞義消歧、語義??標注、指代消解等。

應?：

? ?向知識圖譜的?然語?問答

? 聊天機器?等

（2）實體識別

在實體識別中，命名實體識別的主要?法有如下兩種：

①基于規則的實體識別?法

基于命名實體詞典的?法：采?字符串完全匹配或部分匹配的?式，從?本中找出與詞典最相似的短語完成實體識別。

優點：規則簡單。

缺點：需要構建詞典和規則；性能受詞典規模和質量的影響。

②基于機器學習的實體識別?法

利?預先標注好的語料訓練模型，使模型學習到某個字或詞作為命名實體組成部分的概率，進?計算?個候選字段作為命名實體的概率值。若?于某?閾值，則識別為命名實體。

分為：最?熵模型（Maximum Entropy Model）和條件隨機場模型（Conditional Markov Random Field）。

（3）語義解析之語義搜索

語義搜索是指搜索引擎的?作不再拘泥于?戶所輸?請求語句的字?本?，?是透過現象看本質，準確地捕捉到?戶所輸?語句后?的真正意圖，并以此來進?搜索，從?更準確地向?戶返回最符合其需求的搜索結果。

（4）語義解析之知識問答

智能問答的主要?法有如下兩種：

①基于信息檢索的?法

?先利?中?分詞、命名實體識別等?然語?處理?具找到問句中所涉及到的實體和關鍵詞，然后去知識資源庫中去進?檢索，并通過打分模型對答案進?排序。

②基于語義解析的?法

將?個?然語?形式的問句，按照特定語?的語法規則，解析成語義表達式，將其轉化為某種數據庫的查詢語?。

兩種主要方法的框架對比如下所示：

3. 圖數據庫

知識圖譜與圖數據庫的關系從以下四個方面介紹：知識圖譜與數據管理、基于關系的知識圖譜存儲管理、原生知識圖譜存儲管理、知識圖譜與圖數據庫。

① 知識圖譜與數據管理

知識圖譜本質上是多關系圖，通常?“實體”來表達圖?的結點、?“關系”來表達圖?的邊。

關系型數據庫：實體與實體之間的關系通常都是利?外鍵來實現，對關系的查詢需要?量join操作。

圖數據庫：圖模型建模實體（結點）和實體之間的關系（邊），在對關系的操作上有更?的性能。

② 基于關系的知識圖譜存儲管理

使用三元組進行知識圖譜的存儲：

優點：簡單明了

缺點：最?問題在于將知識圖譜查詢翻譯為 SQL 查詢后會產?三元組表的?量?連接操作。

為解決基于關系的是指圖譜存儲管理中出現的問題，采用以下兩種方法解決：

屬性表：屬性相似的聚為?張表

優點：克服三元組?連接的問題。

缺點：?對多聯系或多值屬性存儲問題、RDF的靈活性等。

代表：采?屬性表存儲?案的代表系統是 RDF 三元組庫 Jena。

垂直劃分：以謂語劃分三元組表

優點：克服屬性表的空值多值問題。

缺點：?量屬性表、刪除代價?。

代表：采?垂直劃分存儲?案的代表數據庫是 SW‐Store。

③ 原生知識圖譜存儲管理

RDF模型

gStore系統利用子圖匹配整個圖譜。

優點：任意一個節點不滿足子圖的模式都可以跳過，實現高并發。

屬性圖

典型屬性圖代表：Neo4j圖數據庫。

與RDF的區別為：邊也有屬性，可以與RDF互相轉換

④ 知識圖譜與圖數據庫

4. 機器學習

在與機器學習的聯系更多地表現在知識表示學習這一方面，應用較多的場景為知識推理。

① 知識表示學習

知識表示學習的背景是基于?絡形式的知識表示存在數據稀疏問題和計算效率問題。

知識表示學習（representation learning）主要是?向知識圖譜中的實體和關系進?表示學習，使?建模?法將實體和向量表示在低維稠密向量空間中，然后進?計算和推理。

優點：顯著提升計算效率，有效緩解數據稀疏，實現異質信息融合。

應?：知識圖譜補全、相似度計算、關系抽取、?動問答、實體鏈指。

舉例：知識表示代表模型：TransE [Bordes et al., NIPS 13]。

對每個事實（Subject, Predicate, Object），將其中的predicate作為從subject到object的翻譯操作。每個Subject/Predicate/Object，都映射成?個多維向量。優化?標是S+P=O 。

② 自然語言問答

03從人工智能和大數據的角度看待知識圖譜

為什么要從這兩個角度來看待？這主要是目前這兩個角度非常火。

① 人工智能的誕生

早在1956年達特茅斯會議上，首次提出“??智能（Artificial Intelligence, AI）”的概念。人們將他概括為“?機器來模仿?類學習以及其他??的智能”。

人工智能目前有兩個流派：符號主義（Symbolism）與連接主義（Connectionism）。

符號主義

符號主義（symbolicism），?稱為邏輯主義（logicism）、?理學派（psychologism）或計算機學派（computerism），其主要原理為認知過程就是在符號表示上的?種運算。

可以舉例理解：

?明認識???O：O(a,b,c,d,e) ，其中a（?把)）b（?胎）d（坐墊）e（?架）c（腳踏）。

連接主義

連接主義（connectionism），?稱為仿?學派（bionicsism）或?理學派（physiologism），其主要原理為智能活動是由?量簡單的單元通過復雜的相互連接后并?運?的結果。

當前典型研究：深度學習、深度神經?絡。

可以舉例理解：

?明學騎???：經過?時間練習，?明終于學會了！卻說不清楚“到底該怎樣”騎。

② 知識圖譜與人工智能

計算機的發展分為三個階段：計算智能、感知智能、認知智能。

人工智能需要機器智能，特別是認知智能，而認知智能依賴知識圖譜。

目前的重要研究方向是和連接主義的結合（例如知識圖譜的表示學習等）。

③ 知識圖譜與大數據

知識圖譜與大數據的聯系

“知識圖譜”是?向關聯分析的?數據模型。

大數據的5V 特性包括：Volume（大量），Velocity（高速），Variety（多樣），Value（價值），Veracity （真實）。其中最重要是Value，但價值是隱含的，而大數據里面隱含的關系，可以用一個知識圖譜來表示。

知識圖譜與大數據的應用

知識圖譜與大數據方面的應用包括以下幾個方面：

圖機器學習，例如TransE，GCN等模型。

圖數據庫，例如RDF圖gStore、Virtuoso，屬性圖Neo4j、janusgraph等。

圖計算系統，例如點中心模型系統Pregel、GraphLab等。

圖挖掘算法，例如Pagerank、Simrank、社區發現、影響力傳播等。

04我們的工作

① 研發路線圖

我們團隊來自于北京大學王選計算機研究所數據管理研究室，2011年開始做圖數據庫方面的研究，提出了子圖匹配的方法來實現RDF的查詢、2013年至2017年開發的gStore中提出了基于結構感知的圖數據庫索引和子圖匹配查詢優化理論。

② 技術路線圖

基于圖的生態鏈的系統平臺分為三個步驟研發：知識圖譜的構建、知識圖譜管理、知識圖譜應用。

知識圖譜的構建

大部分數據是結構化或非結構化等形式，存儲在關系數據庫中，而非以RDF或屬性圖的形式存儲，因此在構建時需要進行數據形式的轉換。

涉及知識抽取、知識融合等問題，是整個系統平臺的重難點。

知識圖譜管理

解決轉換成RDF或屬性圖的數據怎么存儲、如何進行數據管理、為知識圖譜應用提供高效訪問接口等問題。

知識圖譜應用

開發知識圖譜的應用，體現數據的價值，是整個系統平臺的價值點。

③ 產品生態

gStore

項?特點：基于?圖匹配的圖數據查詢和優化策略，單機能?持50億規模的圖數據的存儲和查詢，以及更新等。

代碼：除了SPARQL語法解析器外均為獨?開發的，?前有14萬?C++代碼，完成?主知識產權。

目前版本：v 0.9.1

項?主?：gstore.cn

開源地址：https://github.com/pkumod/gStore

gBuilder

項?特點：知識圖譜構建的?體化平臺，包括Schema設計，結構化和?結構數據抽取，融合多種?本抽取的算法模型，以及抽取模型NAS搜索等。

gAnswer

項?特點：基于?圖匹配的知識圖譜的?然語?問答?法。

開源地址：https://github.com/pkumod/gAnswer

gStore Workbench

gStore可視化管理工具。

gCloud

“開箱即用”的gStore服務。

gMaster

支持百億規模分布式部署。

gStore高效RDF圖數據庫管理系統實現了自主可控國產化，能夠與國產化CPU和操作系統適配。賦能國產?主可控的計算機體系架構。

05相關案例

① 金融科技

知識關聯查詢：?融實體查詢、多層股權查詢、?融實體關聯分析。

?險分析：?險識別、資本系分析。

② 政府大數據

社會的自然人會產生諸多數據，例如出生、教育、住房、就業、婚姻生育、醫療養老、死亡等方面的數據。基于這些數據可以進行政府大數據融合與挖掘，例如用于民政和司法的親屬關系檢索。

③ 智慧紀檢

可以使用知識圖譜進行干部廉潔畫像、社會關系分析、話單分析等。

④ 智慧醫療

基于藥物說明書構建“病-癥-藥”的知識圖譜，可以進行疾病科室、疾病癥狀、疾病并發癥、健康飲食智能問答等應用。

⑤ 人工智能

例如智能問答等語音機器人。

⑥ 氣象交通

將規則寫進知識圖譜，實時采集氣象信息并進行知識圖譜的匹配，以起到預警的作用。

⑦ 公安知識圖譜

多維度知識探索：從“同程、同宿、同案件”等多個維度進?知識探索和知識推理。

隱含關系挖掘：從交通出?、?吧上?、出?境等部?和系統中獲取數據，發現?物的“同?，同上?，同出國”等隱含關聯關系。

（部分內容來源網絡，如有侵權請聯系刪除）

立即申請數據分析/數據治理產品免費試用我要試用

上一篇：企業級IT架構規劃...

下一篇：推動保供穩價舉措落細落實...

相關主題
相關大數據問答
相關大數據知識

數據資源目錄和元數據 VUE 數據管理系統數據駕駛艙的功能運營數據分析軟件 PYTHON金融數據分析生產現場車間數字化可視化管理系統農夫山泉大數據分析數據資產價值評分大數據采集軟件數據分析軟件那個好什么是數字化企業 BI軟件是干嘛的如何做數據處理建筑企業數據治理大數據展廳

1 什么是BI系統，企業如何從0搭建BI系統？

2 數據交易：原油之后的新財富

3 數據倉庫、數據湖、數據中臺的概念的區別

4 關于BI數據分析，這些你都了解嗎？

5 帶你一分鐘了解BI工具！

BI數據分析

主數據

數據治理

數據集成

數據采集

指標管理

智能體問數

資產運營

數據填報

數據處理

指標管理

報表分析

敏捷分析

大屏可視化

智能分析

數據挖掘

移動應用

主數據模型

主數據維護

主數據分發

主數據質量管理

模型管理

元數據管理

數據標準

數據質量

數據資產管理

數據集成管理

數據交換管理

數據安全管理

數據生命周期管理

模型管理

任務管理

調度管理

監控中心

表單設計

數據填報

數據審核

數據審批

數據匯總

數據管理

數據接口

指標體系建設

指標管理與加工

指標運營

指標服務

對話式數據探索的智能問數

更懂數據見解的智能洞察

數據驅動的智能圖表

對話式智能看板

交互式智能報告

對話式大屏匯報

一鍵查詢海量文檔的知識問答

智能決策的數字助理

資產開發計算

資產治理分析

資產盤點管理

資產服務共享

資產交易流通

大數據治理方案

主數據管理方案

數據資產盤點方案

數據倉庫及商業智能方案

大數據資產管理方案

數據標準化及質量管控方案

指標體系建設方案

倉湖一體數據中心建設方案

數據中臺解決方案

數據開發平臺建設方案

智能問數解決方案

高質量數據集建設方案

金融

制造

醫院

能源

教育

衛生

央國企

其他

睿治

智能數據治理平臺

睿治智能數據治理平臺