睿治

智能數(shù)據(jù)治理平臺

睿治作為國內(nèi)功能最全的數(shù)據(jù)治理產(chǎn)品之一，入選IDC企業(yè)數(shù)據(jù)治理實(shí)施部署指南。同時，在IDC發(fā)布的《中國數(shù)據(jù)治理市場份額》報(bào)告中，連續(xù)四年蟬聯(lián)數(shù)據(jù)治理解決方案市場份額第一。

在線免費(fèi)試用 DEMO體驗(yàn) 視頻介紹

睿治智能數(shù)據(jù)治理平臺

IDC蟬聯(lián)數(shù)據(jù)治理解決方案市場第一

大模型知識管理系統(tǒng)

時間：2024-09-19來源：CIO之家瀏覽數(shù)：407次

隨著人工智能技術(shù)，尤其是大語言模型（LLM）技術(shù)的迅猛發(fā)展，企業(yè)知識管理的潛力有待進(jìn)一步挖掘。LLM 如ChatGPT、Qwen、Gemini、Gemma等，具有良好的自然語言理解能力，不僅可以處理和分析大量文本數(shù)據(jù)，還能夠生成高質(zhì)量摘要，回答復(fù)雜的查詢，甚至推動自動化決策。這些能力有助于大幅提升知識管理的效率和智能化水平。但是大語言模型在生成最終答案時，因自身專業(yè)領(lǐng)域知識不足、知識更新不及時以及企事業(yè)單位數(shù)據(jù)無法獲取等原因，會出現(xiàn)幻覺而生成不當(dāng)內(nèi)容，這在要求內(nèi)容準(zhǔn)確、專業(yè)、合規(guī)的政企領(lǐng)域成為應(yīng)用推廣的最大障礙。檢索增強(qiáng)生成（RAG）應(yīng)運(yùn)而生，成為了當(dāng)前業(yè)界解決該問題的核心技術(shù)。

RAG技術(shù)概念最早由Meta提出。受限于當(dāng)時較差的語言模型能力，盡管RAG技術(shù)已經(jīng)在多個知識密集型自然語言處理（NLP）任務(wù)上取得了不錯效果，但其并未引發(fā)更多的關(guān)注。在大模型時代，模型的性能取得了巨大的提升，伴隨而來的幻覺問題使RAG技術(shù)重新進(jìn)入人們的視野。通過從多數(shù)據(jù)源中獲取外部知識，結(jié)合搜索技術(shù)和LLM的提示詞功能，RAG向大模型提出問題，并把問題在多數(shù)據(jù)源中進(jìn)行搜索獲取的知識作為背景上下文，將問題和背景上下文信息整合到LLM的提示詞中，從而讓LLM做出最終的準(zhǔn)確回答。

在大模型時代，RAG的發(fā)展可分為3個階段。1）基礎(chǔ)RAG （Native RAG）：遵循傳統(tǒng)的工作流程包括索引、檢索和生成3個模塊，也被稱為“檢索-讀取”框架。首先各類知識被分割成離散的塊，然后利用embedding模型構(gòu)建這些塊的向量索引；其次，RAG根據(jù)查詢和索引塊的向量相似性識別和檢索塊；最后，模型根據(jù)從檢索到的塊中獲得的上下文信息合成響應(yīng)。2）高級的RAG：通過豐富的前處理和后處理技術(shù)，在信息檢索精度和準(zhǔn)確率上取得了顯著效果。3）模塊化的RAG（Modular RAG）：將RAG前、后處理等技術(shù)抽離出來并形成模塊，進(jìn)行組合。模塊化RAG相比于傳統(tǒng)的Native RAG框架，提供了更好的通用性和靈活性。

1 系統(tǒng)方案

知識管理系統(tǒng)旨在將人類知識以計(jì)算機(jī)可理解的形式表示出來，并使計(jì)算機(jī)能夠理解、推理和應(yīng)用這些知識。這項(xiàng)技術(shù)涉及知識表示、知識獲取、知識推理、知識存儲和知識管理等方面。

1.1 系統(tǒng)架構(gòu)

如圖1所示，LLM知識管理系統(tǒng)架構(gòu)主要分為以下幾個部分：基礎(chǔ)設(shè)施層、大模型能力層、知識存儲層、知識服務(wù)層和業(yè)務(wù)應(yīng)用層。基礎(chǔ)設(shè)施層是構(gòu)建 LLM 知識管理系統(tǒng)的底層基礎(chǔ)，包括運(yùn)行系統(tǒng)所需要的計(jì)算、存儲和網(wǎng)絡(luò)資源，特別是用于模型部署和推理需要的圖形處理器（GPU）資源。部署方式可以是基于公有云服務(wù)的部署，也可以是基于企業(yè)內(nèi)部私有云的部署。

在基礎(chǔ)設(shè)施層之上是大模型能力層，該層包括多種預(yù)訓(xùn)練的通用 LLM，如 ChatGPT、 Gemma、 LLAMA、 Qwen、ChatGLM等，用于理解和生成自然語言，是系統(tǒng)的智能核心。它不僅包括針對特定領(lǐng)域訓(xùn)練或微調(diào)以適應(yīng)特定領(lǐng)域的專屬LLM，還包括用于知識構(gòu)建和知識檢索過程中的嵌入模型、重排模型等其他模型，以及使用這些模型的提示詞工程。它通過調(diào)用基礎(chǔ)設(shè)施層的計(jì)算資源，為整個系統(tǒng)的其他各層提供大模型服務(wù)。

知識存儲層負(fù)責(zé)存儲和管理企業(yè)的知識資產(chǎn)。該層在系統(tǒng)中主要提供知識的存儲服務(wù)。其中，傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)用于存儲結(jié)構(gòu)化數(shù)據(jù)，分布式存儲系統(tǒng)用于存儲文檔、圖片、音頻和視頻等非結(jié)構(gòu)化數(shù)據(jù)，圖數(shù)據(jù)庫用于存儲知識圖譜數(shù)據(jù)，外部插件系統(tǒng)用于訪問通過外部應(yīng)用程序編程接口（API）獲取的外部知識（例如搜索引擎API等）。另外，向量數(shù)據(jù)庫用于存儲基于大模型嵌入技術(shù)產(chǎn)生的向量數(shù)據(jù)。

知識服務(wù)層分為3個部分，分別是知識構(gòu)建、知識檢索和知識管理。知識構(gòu)建主要將來自多種來源的知識數(shù)據(jù)進(jìn)行預(yù)處理，然后導(dǎo)入到系統(tǒng)，并使用知識存儲層的存儲組件進(jìn)行存儲。常見的知識數(shù)據(jù)來源包括非結(jié)構(gòu)化的文檔數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)庫數(shù)據(jù)、問答（QA）數(shù)據(jù)、知識圖譜數(shù)據(jù)以及外部API插件數(shù)據(jù)等。知識檢索主要實(shí)現(xiàn)根據(jù)用戶問題獲取知識答案的過程。檢索的第一步需要對用戶問題進(jìn)行理解和改寫，隨后采取多種方式進(jìn)行檢索。多種檢索方法獲得的數(shù)據(jù)還會經(jīng)歷重排過程，并由大模型最終理解后生成檢索結(jié)果。知識管理將系統(tǒng)能力統(tǒng)一封裝和管理，對業(yè)務(wù)層提供知識服務(wù)能力，同時封裝統(tǒng)一的知識開放接口、知識檢索能力接口和知識問答能力接口供上層業(yè)務(wù)層使用。

業(yè)務(wù)應(yīng)用層展示了基于 LLM 知識管理系統(tǒng)構(gòu)建的常見業(yè)務(wù)應(yīng)用。通過知識服務(wù)層提供的知識服務(wù)，該層提供了以問答方式提供服務(wù)的智能客服、面向市場售前人員或客戶的產(chǎn)品咨詢助手，面向企業(yè)提供知識檢索和知識問答應(yīng)用（特別是圖書館圖書檢索、檔案館檔案檢索、法律法規(guī)條文檢索、知識產(chǎn)權(quán)專利檢索）、復(fù)雜系統(tǒng)和場景的運(yùn)維服務(wù)助手，以及基于大模型新一代搜索引擎等應(yīng)用。

1.2 業(yè)務(wù)流程

基于 LLM 的企業(yè)知識管理系統(tǒng)的業(yè)務(wù)流程主要包括知識構(gòu)建流程、知識檢索流程和基于大模型的答案生產(chǎn)流程，如圖2所示。知識構(gòu)建流程包括知識數(shù)據(jù)預(yù)處理、建立索引和知識存儲，主要是將企業(yè)內(nèi)部的數(shù)據(jù)庫、知識圖譜、文檔，外部的Web知識以及構(gòu)建的QA對進(jìn)行統(tǒng)一的處理，并存儲為企業(yè)知識庫的統(tǒng)一形式，以完成企業(yè)知識數(shù)據(jù)的處理和構(gòu)建。知識檢索流程包括檢索前處理、知識檢索、檢索后處理、答案生成等步驟。其中，知識檢索前處理和檢索后處理是可選步驟，在基礎(chǔ)知識檢索過程中，可能會缺少相關(guān)步驟。在知識庫構(gòu)建完成后，用戶使用企業(yè)知識庫進(jìn)行知識檢索。知識檢索過程將獲取與用戶問題相關(guān)知識內(nèi)容的上下文信息。最后，基于知識檢索過程獲得上下文內(nèi)容，LLM生成最終答案。

2 關(guān)鍵技術(shù)

2.1 知識構(gòu)建技術(shù)

知識構(gòu)建是企業(yè)知識管理系統(tǒng)的核心部分，負(fù)責(zé)將企業(yè)原始知識數(shù)據(jù)轉(zhuǎn)化為易于存儲和檢索使用的結(jié)構(gòu)化知識，并將其存入知識庫進(jìn)行管理。構(gòu)建的知識庫的知識質(zhì)量決定了RAG的最終檢索質(zhì)量。企業(yè)的知識來源豐富多樣，包括文檔、知識圖譜、數(shù)據(jù)庫、外部插件等。

2.1.1 文檔知識

文檔型知識是企業(yè)知識的主要來源之一。通常，文檔型知識需要經(jīng)過預(yù)處理、文檔切分、向量嵌入等過程，才能完成從原始文檔數(shù)據(jù)到知識庫中知識的轉(zhuǎn)變。其中，文檔切分算法是一個關(guān)鍵的技術(shù)。良好的切分算法應(yīng)該在滿足切片大小的限制的同時，保證每一個切片的語義相對完整。常見的切分算法包括按段落遞歸切分、按標(biāo)題切分、按行切分、按固定分隔符切分、按標(biāo)題切分、按語義切分等。具體的文檔知識構(gòu)建流程如圖3所示。

結(jié)構(gòu)化良好的文檔，比如 word、pdf、html、Markdown等格式文檔，通常具有章節(jié)結(jié)構(gòu)或標(biāo)題層次信息。因此，我們可以考慮文檔本身的章節(jié)或標(biāo)題層次結(jié)構(gòu)信息，使用按標(biāo)題切分算法將標(biāo)題內(nèi)容和正文內(nèi)容綜合起來進(jìn)行切片，通過在每一個切片內(nèi)容的頭部添加切片所在的章節(jié)或標(biāo)題信息，使切片內(nèi)容可以更好地保持原始文檔中的語義信息。

2.1.2 知識圖譜知識

知識圖譜通過將知識組織成網(wǎng)絡(luò)結(jié)構(gòu)的圖來表示，它連接了各種實(shí)體和它們之間的關(guān)系，為知識提供了一種直觀的結(jié)構(gòu)化表示。知識圖譜構(gòu)建流程一般包括數(shù)據(jù)預(yù)處理、實(shí)體識別、關(guān)系提取、屬性提取、知識整合和存儲等步驟。其中，實(shí)體識別和關(guān)系提取是較為關(guān)鍵的步驟，傳統(tǒng)上可以分別調(diào)用專業(yè)的小模型，如在實(shí)體識別任務(wù)上取得 SOTA 的W2NER、LERERT等模型，在關(guān)系提取上取得 SOTA 的CasRel模型等，來完成相應(yīng)任務(wù)。而在大模型時代，由于LLM 具有強(qiáng)大的語義理解能力，可以使用LLM 通過預(yù)設(shè)好的Prompt進(jìn)行實(shí)體識別和關(guān)系抽取，形成三元組進(jìn)行存儲。

2.1.3 數(shù)據(jù)庫知識

數(shù)據(jù)庫知識指的是存儲在傳統(tǒng)關(guān)系數(shù)據(jù)庫、分析型數(shù)據(jù)庫等數(shù)據(jù)庫中的知識。在信息化建設(shè)過程中，企業(yè)一般都陸續(xù)積累了大量的數(shù)據(jù)庫數(shù)據(jù)。通過關(guān)系數(shù)據(jù)庫理論或數(shù)據(jù)倉庫理論，企業(yè)建立了相關(guān)的數(shù)據(jù)庫和表，在企業(yè)知識管理系統(tǒng)中并不需要重復(fù)建設(shè)這部分知識數(shù)據(jù)，但是需要將這部分?jǐn)?shù)據(jù)納入知識管理系統(tǒng)中，以便用戶方便地使用已有的數(shù)據(jù)庫知識。

2.2 知識檢索技術(shù)

知識檢索是RAG的核心過程，也是企業(yè)知識管理系統(tǒng)的最重要的部分，其目的是確保用戶能夠快速、準(zhǔn)確地找到所需的信息。知識檢索包括基礎(chǔ)檢索流程和復(fù)雜檢索流程。其中，典型的復(fù)雜檢索流程包括檢索前處理、知識檢索、檢索后處理、答案生成等步驟。每一個檢索步驟都涉及眾多的技術(shù)細(xì)節(jié)，而基礎(chǔ)檢索流程常省略檢索前處理和后處理環(huán)節(jié)。為了提升RAG的準(zhǔn)確度，我們采取了多種前后處理技術(shù)，并采用了混合知識檢索。知識檢索具體流程如圖4所示。

2.2.1 前處理

在企業(yè)知識檢索系統(tǒng)中，前處理是指對用戶查詢進(jìn)行預(yù)處理的一系列技術(shù)和方法，旨在優(yōu)化查詢，以提高檢索效率和準(zhǔn)確性。前處理方法有很多，包括多查詢擴(kuò)展、分解子查詢、術(shù)語替換、補(bǔ)全歷史、指代消融、假設(shè)答案、StepBack提示詞、查詢改寫、查詢路由等。通過前處理，企業(yè)知識檢索系統(tǒng)能夠更有效地理解用戶的查詢意圖，優(yōu)化查詢以適應(yīng)復(fù)雜的檢索環(huán)境，從而提供更準(zhǔn)確、更相關(guān)的檢索結(jié)果。這里我們將對分解子查詢、指代消解、查詢改寫進(jìn)行介紹。

2.2.1.1 分解子查詢

分解子查詢的核心理念在于將一個復(fù)雜的原始查詢拆分成若干個更小、更易于處理的部分，其中每個部分均代表一個信息獨(dú)立的子問題。為了實(shí)現(xiàn)這一目標(biāo)，可以采用多查詢檢索器。該檢索器借助LLM，從多個維度自動生成針對給定用戶輸入的多個查詢，進(jìn)而自動執(zhí)行提示優(yōu)化流程。對于生成的每個子查詢，多查詢檢索器都會檢索一組與之相關(guān)的文檔，并最終對所有子查詢檢索到的文檔采取并集操作，從而構(gòu)建出一個更廣泛的潛在相關(guān)文檔集合。分解子查詢可以突破基于向量距離檢索方法的某些局限性，從而獲取一組更為豐富和多元的檢索結(jié)果。

2.2.1.2 指代消解

指代消解技術(shù)適用于處理用戶查詢中含有指代詞（如“它”“這個公司”等）的情況，有助于提高檢索系統(tǒng)對用戶查詢的準(zhǔn)確性。傳統(tǒng)通過微調(diào)BERT進(jìn)行指代消解的技術(shù)往往只適用于有限、簡單的查詢語句，在LLM時代，相較于傳統(tǒng)的依賴專用小模型進(jìn)行微調(diào)的方法，可以采用 Fewshot Prompt并結(jié)合思考-行動-觀察（CoT）的策略進(jìn)行指代消解。通過將一些常見的指代消解場景作為Few-shot例子集成到 LLM 的 Prompt 中，結(jié)合 CoT 方法，LLM 能夠分析并處理更復(fù)雜的指代消解問題。

2.2.1.3 查詢改寫

在知識檢索系統(tǒng)中，查詢改寫技術(shù)常常可以大幅提高檢索準(zhǔn)確度。它通過對用戶最初的查詢進(jìn)行語言層面的優(yōu)化與調(diào)整，可以增強(qiáng)檢索效率并提高結(jié)果的精準(zhǔn)度。此技術(shù)特別適用于處理那些表達(dá)模糊不清、含義不明確或結(jié)構(gòu)過于復(fù)雜的查詢。通過這種方式，系統(tǒng)能夠更精確地把握用戶的信息需求，并返回更相關(guān)的檢索結(jié)果。為提高檢索系統(tǒng)的準(zhǔn)確性，查詢改寫技術(shù)依靠 LLM 的強(qiáng)大能力，利用精心設(shè)計(jì)的提示詞，讓LLM能夠有效地改寫用戶的查詢。為了進(jìn)一步提升查詢改寫效果，我們還可以引入一個輔助模型“重寫器”。這個輔助模型專門負(fù)責(zé)調(diào)整用戶查詢，使其更好地適應(yīng)固定檢索器和LLM的處理要求。輔助模型重寫器可以通過收集領(lǐng)域數(shù)據(jù)進(jìn)行有監(jiān)督的預(yù)訓(xùn)練或微調(diào)獲得。這樣，重寫器就能更好地滿足實(shí)際應(yīng)用場景中的改寫需求。

2.2.2 知識檢索

在知識檢索過程中，通常采用多種檢索策略來增強(qiáng)檢索的深度，提高檢索結(jié)果的準(zhǔn)確性。如圖5所示，混合檢索通常將用戶查詢問題進(jìn)行改寫生成一個或多個查詢。經(jīng)過查詢路由模塊后，這些查詢問題被分發(fā)到不同的檢索方法流程中。常見的檢索方法包括數(shù)據(jù)庫查詢、向量檢索、QA檢索、知識圖譜檢索、插件檢索、關(guān)鍵詞檢索等。經(jīng)過多重檢索方法檢索后每一種檢索方法將輸出TopK個檢索結(jié)果。由于不同檢索方法生成的檢索結(jié)果打分標(biāo)準(zhǔn)不同，它們并不能簡單地組合在一起進(jìn)行排序，這時候就需要引入新的重排算法來對這些 TopK 結(jié)果進(jìn)行組合和重新排序，從而得到最終的TopK，并丟棄其他的候選檢索結(jié)果。這些最終被選中的TopK 將作為上下文和用戶查詢問題一起交給大模型，讓LLM基于上下文內(nèi)容為用戶的提問生成答案。

2.2.2.1 知識圖譜檢索

知識圖譜檢索是一種利用知識圖譜信息來檢索和提供與特定任務(wù)相關(guān)信息的技術(shù)。傳統(tǒng)的知識圖譜檢索較為復(fù)雜，一般包括從查詢中進(jìn)行實(shí)體識別、關(guān)系識別和查詢匹配等步驟。每一個步驟往往都需要專門微調(diào)一個小語言模型，而且對于不同的知識圖譜，往往需要重新進(jìn)行微調(diào)訓(xùn)練，時間成本較高。在大模型時代，利用大模型出色的語義理解能力和prompt提示詞工程，我們僅需要一個大模型就可以較好地對多個知識圖譜進(jìn)行知識檢索。基于大模型的知識圖譜檢索有兩種方式：Text2Cypher和GraphRAG。其中，Text2Cypher將用戶問題翻譯成圖數(shù)據(jù)庫能夠識別的 Cypher 語句，然后調(diào)用圖數(shù)據(jù)庫接口執(zhí)行這個生成的 Cypher 語句以獲得執(zhí)行結(jié)果，并將執(zhí)行結(jié)果通過LLM 能力生成最終答案。GraphRAG 通過構(gòu)造子圖（Sub‐Graph）方式來利用知識圖譜中的上下文知識以處理用戶查詢。它首先從用戶輸入的查詢內(nèi)容中提取實(shí)體，然后通過構(gòu)建與查詢相關(guān)實(shí)體的子圖來建立上下文，最后將子圖信息作為上下文和用戶查詢一起送給大模型以給出準(zhǔn)確的回答。知識圖譜檢索工作流程如圖6所示。

2.2.2.2 數(shù)據(jù)庫檢索

Text2SQL，也稱為NL2SQL，是指將自然語言（NL）查詢轉(zhuǎn)換為關(guān)系型數(shù)據(jù)庫中可執(zhí)行的SQL查詢語言的過程。用戶能夠以自然語言形式提出查詢請求，無須編寫SQL語句，從而降低了與數(shù)據(jù)庫交互的復(fù)雜性。與知識圖譜檢索類似，傳統(tǒng)的 Text2SQL 方法也存在流程復(fù)雜、組件冗余的情況。同時，采用傳統(tǒng)的Text2SQL方法，準(zhǔn)確性也難以得到保障。通過引入大模型，我們可以加速整個Text2SQL 的流程，并將準(zhǔn)確率由原先的60%提升到80%。Text2SQL 進(jìn)行數(shù)據(jù)庫數(shù)據(jù)檢索主要包括以下步驟：首先利用Schema過濾器篩選與用戶輸入相關(guān)的Schema，然后將篩選的Schema列表與問題一并交給大模型，利用大模型生成SQL語句并執(zhí)行，最終借助大模型對SQL的執(zhí)行結(jié)果進(jìn)行分析和總結(jié)。

2.2.2.3 插件API檢索

插件 API 檢索是指通過 API 調(diào)用外部服務(wù)或功能的過程，這被視為LLM與外部世界交互的一種方式。這種交互經(jīng)常涉及函數(shù)調(diào)用（Function Calling）。更具體地，它涉及通過API發(fā)送請求和接收響應(yīng)。這些API可能由第三方服務(wù)、工具集或自定義實(shí)現(xiàn)提供，比如：OpenAI的聯(lián)網(wǎng)檢索和代碼解釋器就是常見的兩種插件檢索應(yīng)用形態(tài)。在傳統(tǒng)的插件API檢索中，面對繁雜的插件API，系統(tǒng)往往難以準(zhǔn)確調(diào)用正確的插件 API。在大模型時代，大模型能夠較好地通過API描述，并結(jié)合查詢，從而較為準(zhǔn)確地調(diào)用相關(guān)API進(jìn)行檢索。

插件API檢索的流程首先需要使用API過濾器將用戶通過自然語言輸入的用戶查詢進(jìn)行篩選過濾，從中取出TopK候選相關(guān)的API，并將這些API定義和用戶查詢一起送給大模型進(jìn)行處理。對于支持Function Call功能的LLM，它會返回函數(shù)調(diào)用的名稱和參數(shù)等信息。

2.2.3 后處理

后處理（Postprocessing）階段負(fù)責(zé)對檢索結(jié)果進(jìn)行進(jìn)一步的優(yōu)化和調(diào)整，以提高檢索系統(tǒng)性能和檢索結(jié)果質(zhì)量。這一階段的核心活動包括但不限于對檢索結(jié)果進(jìn)行篩選、壓縮和重新排序等操作。進(jìn)行這些操作的目的是為了精煉并整理出一組最終結(jié)果。這些結(jié)果隨后將被提交給LLM以生成響應(yīng)答案。在本節(jié)中，我們將對上下文壓縮、重排技術(shù)進(jìn)行介紹。

2.2.3.1 上下文壓縮

通過RAG獲得的上下文長度常常達(dá)到數(shù)千個tokens。當(dāng)檢索步驟所獲得的結(jié)果內(nèi)容較多并超出大模型上下文長度時，需要對上下文進(jìn)行壓縮處理以去除冗余信息，查詢無關(guān)噪聲，同時保持語義不丟失，進(jìn)而為LLM提供更有效的上下文信息。常見的上下文壓縮方法有內(nèi)容摘要、關(guān)鍵詞提取、LongLLMLingua等。其中，LongLLMLingua 通過使用對齊并訓(xùn)練好的小模型來檢測移除上下文中不重要的token，并將其轉(zhuǎn)換為人類難以理解但LLM易于理解的形式，有效提升了系統(tǒng)性能。LongLLMLingua的核心思想是將長輸入分兩步處理：首先使用一個小型編碼器模型（通常是BERT等雙向編碼器）將長輸入編碼為一個較短的向量表示，然后將編碼后的向量連同查詢一起輸入到一個 LLM 中（LLM 解碼器能夠識別小型編碼器編碼后的信息），生成最終的輸出。

2.2.3.2 重排

在檢索后處理階段，為確保最相關(guān)且最有價值的檢索結(jié)果能夠優(yōu)先被用作回答查詢的上下文輸入，我們引入了重新排序（Reranking）機(jī)制。重排操作通過對檢索階段獲得的檢索結(jié)果相關(guān)性評分進(jìn)行再次調(diào)整，或采用更精細(xì)的排序算法，從而實(shí)現(xiàn)檢索結(jié)果的重新排列。重排的關(guān)鍵在于設(shè)計(jì)高效的打分模型。常見的做法是引入交叉編碼器。對于給定查詢，交叉編碼器將所有檢索結(jié)果與之進(jìn)行編碼打分，然后按得分遞減排列，得分最高者即為最相關(guān)檢索結(jié)果。為進(jìn)一步提升重排性能，我們采用了經(jīng)過訓(xùn)練的專門用于重排的模型，其中Cohere公司的Cohere重排模型和智源的bge-rerank模型因具有代表性而被廣泛使用。

本文中，我們選用了 bge-rerank 作為重排器，搭配 bge-embedding 模型進(jìn)行文檔嵌入，取得了良好效果。重排環(huán)節(jié)的優(yōu)化有助于提高上下文的相關(guān)性和質(zhì)量，從而為最終答案生成提供更為可靠的語義支撐。

2.3 答案生成技術(shù)

答案生成技術(shù)是指，依賴 LLM 本身的推理能力，結(jié)合系統(tǒng)提供的上下文信息進(jìn)行最終的答案生成。目前，根據(jù)開源情況，主流的LLM可以分為以ChatGPT為首的閉源模型和以LLaMA、Qwen為首的開源模型兩類。在閉源大模型中，OpenAI 的 ChatGPT-4 常常在各大評測排行榜中名列前茅，而近期出現(xiàn)的Claude3也顯示出了強(qiáng)大的性能。然而，盡管這些模型性能強(qiáng)勁，但由于它們是閉源模型，只提供API調(diào)用接口，費(fèi)用昂貴，不適用于企業(yè)知識庫中需要頻繁調(diào)用的場景。此外，企業(yè)知識管理系統(tǒng)通常涉及大量的企業(yè)內(nèi)部知識，這對閉源商業(yè)模型的隱私保護(hù)提出較高要求。

3 結(jié)束語

構(gòu)建一個基于RAG架構(gòu)的大型企業(yè)知識管理系統(tǒng)，以期為企業(yè)提供高效的知識檢索和利用能力。我們提出了基于RAG構(gòu)建企業(yè)知識管理系統(tǒng)的架構(gòu)、流程和方法。該系統(tǒng)采用開放的系統(tǒng)架構(gòu)設(shè)計(jì)，可基于開源或商業(yè)LLM構(gòu)建，充分保障了企業(yè)關(guān)注的數(shù)據(jù)安全；支持多種知識來源，包括文檔、知識圖譜、數(shù)據(jù)庫和問答等，通過深度挖掘和融合這些異構(gòu)知識源，形成了全面的專業(yè)知識基礎(chǔ)。此外，我們設(shè)計(jì)并實(shí)現(xiàn)了完整的知識檢索方案，包括檢索前處理、知識檢索、檢索后處理和答案生成等環(huán)節(jié)，并采用了多種創(chuàng)新技術(shù)來提升檢索效率和答案質(zhì)量，介紹了使用RAGAs評估框架對構(gòu)建的企業(yè)知識管理系統(tǒng)進(jìn)行評估和迭代優(yōu)化的情況。大量用戶反饋和實(shí)驗(yàn)評估表明，該系統(tǒng)在準(zhǔn)確性、知識覆蓋范圍、檢索效率和用戶體驗(yàn)等多個維度均有著優(yōu)異的表現(xiàn)。

然而，系統(tǒng)中仍存在一些需要進(jìn)一步改進(jìn)的問題。首先，當(dāng)前系統(tǒng)所使用的知識來源仍以文本為主，缺乏將多模態(tài)知識融入系統(tǒng)的合理方法。其次，盡管采用了多種文檔切分和檢索優(yōu)化手段，但在實(shí)際應(yīng)用場景中還需要針對特定的文檔內(nèi)容設(shè)計(jì)定制化文檔切分算法。最后，系統(tǒng)已經(jīng)較好地緩解了大模型幻覺的問題，但在企業(yè)應(yīng)用場景下還需要考慮企業(yè)合規(guī)對齊、數(shù)據(jù)安全等問題。在未來，我們希望可以設(shè)計(jì)更多的垂直領(lǐng)域文檔切分算法，采取更有效的embedding和Rerank組合模型，進(jìn)一步提升RAG技術(shù)的檢索效率和準(zhǔn)確度，同時引入最終回答的合規(guī)審查機(jī)制，構(gòu)建一個更高效、更安全的基于RAG的大模型知識管理系統(tǒng)。

（部分內(nèi)容來源網(wǎng)絡(luò)，如有侵權(quán)請聯(lián)系刪除）

立即申請數(shù)據(jù)分析/數(shù)據(jù)治理產(chǎn)品免費(fèi)試用我要試用

上一篇：城市數(shù)字化轉(zhuǎn)型的場景建設(shè)呈現(xiàn)幾個特點(diǎn)...

下一篇：數(shù)字化轉(zhuǎn)型這個詞分開解讀會怎樣？...