日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

吐血整理!12種通用知識圖譜項目簡介

時間:2022-03-23來源:可愛的親一口瀏覽數:1046

通用知識圖譜大體可以分為百科知識圖譜(Encyclopedia Knowledge Graph)和常識知識圖譜(Common Sense Knowledge Graph)。

百科知識圖譜是百科事實構成的,通常是“非黑即白”的確定性知識。早在2010年微軟就開始構建商用知識圖譜,應用于旗下的搜索、廣告、Cortana等項目。2012年谷歌基于Freebase正式發布Google Knowledge Graph。

目前微軟和谷歌擁有全世界最大的通用知識圖譜,臉書擁有全世界最大的社交知識圖譜。而阿里巴巴和亞馬遜則分別構建了商品知識圖譜。

相比之下,國內知識圖譜創業公司則從智能客服、金融、法律、公安、航空、醫療等“知識密集型”領域作為圖譜構建切入點。除了上述商業通用圖譜以外,DBpedia、Yago、Wikidata、BabelNet等開放域百科知識圖譜也蓬勃發展。

另一種常識知識圖譜,則集成了語言知識和概念常識,通常關心的是帶有一定的概率的不確定事實,因此需要挖掘常識圖譜的語言關聯或發生概率。下面,我們將對兩類知識圖譜做詳細介紹。

01 百科知識圖譜

百科知識圖譜構建模式可以分為兩類。一類是對單百科數據源進行深度抽取,典型代表有DBpedia。另一類是結合了語言知識庫(如WordNet)后,出現了一大批兼具語言知識的百科知識庫,如Google Knowledge Graph后端的Freebase和BabelNet。

此外,還有世界最大開放知識庫WikiData等。下面我們分別進行介紹。

1. DBpedia

DBpedia是始于2007年的早期語義網項目,也就是數據庫版本的多語言維基百科。DBpedia采用了嚴格的本體設計,包含人物、地點、音樂、組織機構等類型定義。從對維基百科條目和鏈接數據集中抽取包括abstract、infobox、category等信息。

DBpedia采用了RDF語義框架描述,DBpedia與Freebase、OpenCyc、BioRDF等其他數據集也建立了實體映射關系,目前擁有127種語言的超過2800萬個實體與30億個RDF三元組。根據抽樣評測,RDF三元組的正確率達到88%[1]。

2. Freebase

Freebase是Google Knowledge Graph的早期版本,由MetaWeb公司在2005年建立,通過開源免費共享方式眾籌數據[3]。

Freebase通過對象、事實、類型和屬性進行知識表示,其中一個重要的創新在于采用復合值類型(Compound Value Type,CVT)來處理多元關系,也就是說一個關系包含多個子二元關系。這樣采用CVT唯一標識擴展了關系表示的能力。目前Freebase正在向Wikidata上遷移以進一步支持谷歌語義搜索。

3. BabelNet

BabelNet是目前世界上最大的多語言百科知識庫之一,它本身可被視為一個由概念、實體、關系構成的語義網絡[4]。BabelNet采用類似YAGO的思路,將維基百科頁面標題與WordNet概念進行映射,通過維基百科跨語言頁面鏈接以及機器翻譯系統,為WordNet提供非英語語種鏈接數據。

目前BabelNet共擁有271個語言版本,包含了1400萬個概念、36.4萬個詞語關系和3.8萬個鏈接數據,擁有超過19億個RDF三元組。BabelNet中每個概念包含所有表達相同含義的不同語言的同義詞。由于BabelNet中的錯誤來源主要在于維基百科與WordNet之間的映射,目前的映射正確率大約在91%。

4. Wikidata

Wikidata顧名思義,與維基百科有著千絲萬縷的聯系。它由維基媒體基金會發起和維持,目前是一個可以眾包協作編輯的多語言百科知識庫。Wikidata中的每個實體存在多個不同語言的標簽、別名、描述,通過三元組聲明表示每一個條目,比如實體“London-中文標簽-倫敦”。

此外,Wikidata利用參考文獻標識每個條目的來源或出處,通過備注處理復雜多元表示,刻畫多元關系。截至2017年,Wikidata能夠支持近350種語言、2500萬個實體及7000萬個聲明,支持數據集的完全下載[5]。

02 常識知識圖譜

常識知識圖譜除了語言知識庫以外,還包括Cyc、ConceptNet、NELL以及Microsoft ConceptGraph。現階段百科和常識知識圖譜的融合越來越多,下面詳細介紹一下。

6. Cyc

Cyc是1984年由Douglas Lenat創建的,作為知識工程時代一項重要進展,最初目標是建立人類最大的常識知識庫。Cyc知識庫主要由術語斷言組成,術語包含概念、關系和實體的定義。而斷言用來建立術語間關系,通過形式化謂詞邏輯進行描述,包括事實描述和規則描述。

Cyc主要特點是基于形式化語言表示方法來刻畫知識,支持復雜推理,但是也導致擴展性和靈活性不夠,現有Cyc知識庫包括50萬條術語和700萬條斷言。

7. ConceptNet

ConceptNet是一個大規模的多語言常識知識庫,起源于一個MIT媒體實驗室眾包項目Open Mind Common Sense(OMCS),其本質為一個描述人類常識的大型語義網絡[6]。

ConceptNet側重于用近似自然語言描述三元組知識間關系,類似于WordNet。ConceptNet中擁有如“IsA、UsedFor、CapableOf”等多種固定關系,允許節點是自然語言片段或句子,但關系類型確定有利于降低知識獲取的難度。

ConceptNet知識表示框架包含了如下要素:概念、詞匯、短語、斷言和邊。其中斷言描述概念間的關系,類似于RDF中的聲明,邊類似于RDF中的屬性,一個概念包含了多條邊,而一條邊可能有多個來源和附加屬性。

ConceptNet目前擁有304個語言的版本,超過390萬個概念,2800萬個斷言,知識三元組正確率約為81%,支持數據集的完全下載。

8. Microsoft ConceptGraph

Microsoft ConceptGraph前身是Probase,以概念層次體系(Taxonomy)為核心,主要包含的是概念間關系,如“IsA”“isPropertyOf”“Co-occurance”以及實例(等同于上文中的實體)。

其中每一個關系均附帶一個概率值,用于對概念進行界定,因此在語義消歧中作用很大。比如說概念電動汽車,實體可以為特斯拉,那么通過IsA關系描述中“汽車”或“人名”,加上時間屬性,保證了語義理解的正確性。

目前,Microsoft ConceptGraph擁有500多萬個概念、1200多萬個實例以及8500萬個IsA關系(正確率約為92.8%)。支持HTTP API調用[7]。

9. NELL

NELL(Never-Ending Language Learner)是卡內基梅隆大學基于互聯網數據抽取而開發的三元組知識庫。它的基本理念是給定少量初始樣本(少量概念、實體類型、關系),利用機器學習方法自動從互聯網學習和抽取新的知識,目前NELL已經抽取了400多萬條高置信度的三元組知識。

03 中文類知識圖譜

中文類知識圖譜對于中文自然語言理解至關重要,特別是中文開放知識圖譜聯盟(OpenKG)的努力,推動了中文知識圖譜普及與應用[8]。

OpenKG借鑒了Schema.org知識眾包模式,搭建了中文知識圖譜建模、推理、學習的可解釋接口規范cnSchema,構建中文知識圖譜核心數據結構,包括數據(實體、本體、陳述)、元數據(版本管理、信息溯源、上下文),支持RDF邏輯層、JSON-LD存儲層和計算層三個層次的知識表示。

OpenKG技術平臺目前已經包含了Zhishi.me、CN-DBPedia、PKUBase、XLore,以及常識、醫療、金融、城市、出行等15類開放中文知識圖譜。下面我們介紹幾個常見的中文知識圖譜項目。

10. Zhishi.me

Zhishi.me是構建中文鏈接數據的第一份工作,借鑒DBpedia的思路,對百度百科、互動百科和中文維基百科中的信息進行抽取,然后對多源同一實體進行對齊和鏈接[9]。

此外,結合社交站點的分類目錄及標簽云,Zhishi.me也融合中文模式(Schema),包含三種概念間關系,即equal、related與subClassOf關系。Zhishi.me中擁有約40萬個中文概念、1000萬個實體與1.2億個RDF三元組,所有數據可以通過在線查詢得到。人工評測正確率約為84%,并支持數據集的完全下載。

11. XLore

XLore是一個大型的中英文知識圖譜,它旨在從各種不同的中英文在線百科中抽取并生成RDF三元組,并建立中英文實體間的跨語言鏈接[10]。目前,XLore大約有246萬個概念、44萬個關系或屬性、1600萬個實體,詳細情況可以參考其官方網站。

12. CN-DBpedia

CN-DBpedia是目前規模最大的開放百科中文知識圖譜之一,主要從中文百科類網站(如百度百科、互動百科、中文維基百科等)頁面中提取信息[11]。

CN-DBpedia的概念本體復用已有成熟的概念體系(如DBpedia、YAGO、Freebase等)。針對實體正文內容涉及的屬性構建一個抽取器(分類器),從百科文本抽取內容,經過濾、融合、推斷等操作后,最終形成高質量的結構化數據。

目前CN-DBpedia涵蓋1600萬以上個實體、2.2億個關系,相關知識服務API累計調用量已達2.6億次。

在中文領域,還有上交大發布的知識圖譜AceKG,超1億個實體,近100G數據量,使用Apache Jena框架進行驅動[12]。思知平臺發布的ownthink通用知識圖譜[13]。此外,百度公司在過去多年的實踐中,內部積累通用/領域/多源異構類知識圖譜規模已經達到億級實體和千億級屬性關系。

相關參考:

[1] https://wiki.dbpedia.org/develop/datasets

[2] https://www.mpi-inf.mpg.de/departments/databases-and-information-systems/research/yago-naga/

[3] https://www.npmjs.com/package/freebase

[4] https://babelnet.org/

[5] https://dumps.wikimedia.org/wikidatawiki/

[6] http://alumni.media.mit.edu/~hugo/conceptnet/

[7] http://concept.research.microsoft.com

[8] http://www.openkg.cn/

[9] http://zhishi.me/

[10] https://xlore.org/

[11] http://kw.fudan.edu.cn/cndbpedia/intro/

[12] http://jena.apache.org

[13] https://www.ownthink.com/


(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢