
分享嘉賓:陳鳳嬌 美團(tuán) 技術(shù)專家
編輯整理:吳祺堯
出品平臺(tái):DataFunTalk
導(dǎo)讀:美團(tuán)大腦是正在構(gòu)建中的全球最大的生活服務(wù)領(lǐng)域知識(shí)圖譜。隨著美團(tuán)新零售場(chǎng)景的擴(kuò)展,美團(tuán)大腦中圍繞商品領(lǐng)域的知識(shí)圖譜逐步建立,并廣泛應(yīng)用于搜索、推薦、廣告和運(yùn)營(yíng)等場(chǎng)景。本次分享將著重介紹如何利用美團(tuán)大腦中已建設(shè)的商品圖譜,發(fā)揮知識(shí)數(shù)據(jù)的價(jià)值,提供更加精準(zhǔn)的商品理解能力。在模型探索方面,我們將介紹基于知識(shí)增強(qiáng)的商品理解模型,通過(guò)多階段知識(shí)增強(qiáng),提升模型準(zhǔn)確性和泛化性。在模型訓(xùn)練方面,我們將分享一些樣本治理方面的經(jīng)驗(yàn)和心得,以更加高效、低成本的方式提升模型能力。由此所建立的更加精準(zhǔn)的商品理解能力,一方面會(huì)應(yīng)用于搜推等下游場(chǎng)景,另一方面也會(huì)反哺到商品圖譜的數(shù)據(jù)建設(shè),通過(guò)已有知識(shí)不斷提升自身,伴隨業(yè)務(wù)一同成長(zhǎng)。
以下將圍繞下面四點(diǎn)展開(kāi):
美團(tuán)大腦簡(jiǎn)介
知識(shí)增強(qiáng)的商品理解
樣本治理
商品圖譜的應(yīng)用
01美團(tuán)大腦簡(jiǎn)介
首先和大家簡(jiǎn)單介紹一下美團(tuán)大腦。

美團(tuán)大腦是正在構(gòu)建中的全球最大的生活服務(wù)領(lǐng)域知識(shí)圖譜,用人工智能技術(shù)賦能業(yè)務(wù),改進(jìn)用戶體驗(yàn)。我們希望幫大家吃得更好,生活更好。

美團(tuán)大腦包含了餐飲、商品、藥品、酒旅、到綜、常識(shí)等各領(lǐng)域的圖譜。接下來(lái)將主要介紹美團(tuán)在新零售場(chǎng)景下利用知識(shí)圖譜進(jìn)行商品理解。

美團(tuán)的新零售場(chǎng)景包含:美團(tuán)外賣、閃購(gòu)、買菜、優(yōu)選、團(tuán)好貨、快驢、買藥,逐步實(shí)現(xiàn)了“萬(wàn)物到家”的愿景。在此場(chǎng)景下,商品數(shù)量更多、覆蓋領(lǐng)域更寬,如生鮮/果蔬、鮮花/綠植、酒水/沖調(diào)等,但是我們可以顯式地利用的信息很少(標(biāo)題、圖片)。我們需要從這些信息中抽取出結(jié)構(gòu)化數(shù)據(jù)(如品牌、口味、產(chǎn)地等)和商品之間的上下位信息,才可以將它們更好地賦能于下游應(yīng)用,包括搜索中的精確篩選以及無(wú)結(jié)果的擴(kuò)召回。總而言之,美團(tuán)的新零售場(chǎng)景更加依賴知識(shí)圖譜,所以商品知識(shí)圖譜在新零售領(lǐng)域發(fā)展之初就著手構(gòu)架。

商品知識(shí)圖譜分為層級(jí)體系和屬性體系。層級(jí)體系用于解決不同業(yè)務(wù)方、不同使用場(chǎng)景中,“商品”的含義不同的問(wèn)題。最細(xì)粒度的層級(jí)是商品的SKU/SPU,如“蒙牛高鈣牛奶500ml”;最粗粒度的層級(jí)為業(yè)務(wù)類目,例如“牛奶”、“飲品”、“乳品”。其中,圖譜品類是非常重要的層級(jí),它是商品的本質(zhì),是承載了用戶精細(xì)需求的商品粒度,例如“高鈣牛奶”、“純牛奶”等。構(gòu)建圖譜品類的核心任務(wù)是做商品的品類關(guān)聯(lián)。屬性體系包含如品牌、規(guī)格、包裝等通用維度屬性,以及如脂肪含量、電池型號(hào)等特有維度的屬性。它的核心任務(wù)是做商品標(biāo)題解析,因?yàn)榇蟛糠稚唐窐?biāo)題都包含了豐富的屬性信息。

商品知識(shí)圖譜的構(gòu)建流程如上圖所示。大致的流程為:構(gòu)建語(yǔ)料庫(kù)->樣本收集->模型訓(xùn)練->預(yù)測(cè)產(chǎn)出->生成知識(shí)圖譜。在構(gòu)建出知識(shí)圖譜之后,我們還可以使用沉淀出的知識(shí)來(lái)進(jìn)一步增強(qiáng)模型,使得模型能夠構(gòu)建出更好的知識(shí)圖譜。整個(gè)流程中最核心的兩個(gè)模塊是樣本收集和模型訓(xùn)練。接下來(lái)會(huì)著重介紹模型訓(xùn)練中知識(shí)增強(qiáng)的相關(guān)技術(shù)以及樣本收集階段有關(guān)樣本治理的工作。
02知識(shí)增強(qiáng)的商品理解
1.?商品標(biāo)題解析

首先,來(lái)介紹一下“商品標(biāo)題解析”。商品的標(biāo)題一般會(huì)包含品牌、品類等有意義的信息。對(duì)標(biāo)題信息的識(shí)別可以建模為實(shí)體識(shí)別任務(wù)。我們首先使用bert+CRF做了實(shí)體識(shí)別任務(wù)的baseline,得到了一些相對(duì)有意義的結(jié)果。但是,這一方法存在以下問(wèn)題:
商品中品類、品牌垂域特有的詞匯較多。如“伊利”“安慕希”“酸奶”這一例子,若模型沒(méi)有見(jiàn)過(guò)“伊利”、“安慕希”這一類詞匯,它很難對(duì)標(biāo)題做出正確的切分;
消歧需要依賴常識(shí)知識(shí)。比如“樂(lè)事”“黃瓜”“薯片”這一例子,“黃瓜”可以是一個(gè)品類或者是一個(gè)口味,這需要知識(shí)來(lái)輔助模型進(jìn)行正確地消歧;
標(biāo)注數(shù)據(jù)少且含有較多噪音。這是因?yàn)閷?shí)體識(shí)別任務(wù)標(biāo)注難度較大,所以樣本中難免包含錯(cuò)誤信息。這就意味著我們的模型不能僅僅依賴標(biāo)注的數(shù)據(jù)來(lái)進(jìn)行實(shí)體識(shí)別任務(wù),還應(yīng)適當(dāng)?shù)匾胪獠康闹R(shí)作為輔助。

已有一些方法可以通過(guò)外部詞匯信息來(lái)提升實(shí)體識(shí)別的效果。Soft lexicon通過(guò)外部語(yǔ)料進(jìn)行預(yù)訓(xùn)練得到字向量,然后通過(guò)每一個(gè)字來(lái)確定相關(guān)詞匯,隨后將每一個(gè)相關(guān)詞匯通過(guò)其在句子中的位置進(jìn)行分桶。同一個(gè)桶內(nèi)的詞匯會(huì)進(jìn)行聚合操作,不同桶的詞匯會(huì)進(jìn)行拼接。最后,將處理完畢的向量進(jìn)行編碼傳入如transformer、bi-lstm等模型。這一方法可以將外部詞匯信息融入至模型中。LexBert不僅使用了詞匯信息,還使用了詞匯的類型信息。它將識(shí)別出的詞匯和其對(duì)應(yīng)的詞匯類型在原文本中進(jìn)行標(biāo)記,或者將標(biāo)記的詞匯使用位置編碼的方式拼接在原文本之后,對(duì)應(yīng)的編碼與原文本的詞匯進(jìn)行對(duì)齊。通過(guò)上述簡(jiǎn)單的處理方式,LexBert將詞匯和類型信息引入到模型中。此外還有其他詞匯增強(qiáng)類模型,不再一一贅述。
經(jīng)過(guò)實(shí)驗(yàn),我們發(fā)現(xiàn)上述方法對(duì)實(shí)體識(shí)別的效果僅有有限的提升。這是因?yàn)樵谖覀兊膱?chǎng)景中:(1)詞匯歧義問(wèn)題嚴(yán)重;(2)商品標(biāo)題短,使得它提供的有用信息較少;(3)標(biāo)注數(shù)據(jù)少且存在噪聲,無(wú)法有效地對(duì)引入的詞匯進(jìn)行消歧。因此,我們需要考慮引入更多的知識(shí)來(lái)幫助模型作出判斷。

我們提出了基于圖譜結(jié)構(gòu)的知識(shí)增強(qiáng)。對(duì)于詞匯層面,我們借鑒了soft lexicon的做法,將圖譜節(jié)點(diǎn)作為詞典引入模型中;對(duì)于類型層面,我們分別對(duì)不同圖譜類型下的字、詞進(jìn)行了向量表征,使他們?cè)诓煌愋椭芯哂袇^(qū)分性;此外,我們還考慮了圖譜中包含的關(guān)系信息,將圖譜中的實(shí)體與關(guān)系信息構(gòu)造成一個(gè)圖,采用圖學(xué)習(xí)的方法將關(guān)系知識(shí)映射到字和詞的向量表征中。最后,我們將這些信息在輸入端進(jìn)行融合。通過(guò)這種方式,我們緩解了詞匯歧義問(wèn)題,但是歧義問(wèn)題并沒(méi)有完全地被解決。

雖然我們?cè)谇笆龇椒ㄖ袑⑺锌梢岳玫耐獠恐R(shí)都融入了模型中,但是模型并沒(méi)有真正學(xué)習(xí)到這些額外知識(shí)。究其原因,是因?yàn)槲覀冊(cè)跇?gòu)圖、圖學(xué)習(xí)以及信息融合階段都會(huì)造成信息損失,而這些損失很難被衡量與控制。因此,我們考慮采用一種可解釋可控的方法,并迎合工業(yè)級(jí)的產(chǎn)品要求,使得模型可以被在線干預(yù),例如在發(fā)現(xiàn)一些bad case后可以改動(dòng)一些配置來(lái)快速地解決一類問(wèn)題。
我們提出了基于圖譜錨點(diǎn)的知識(shí)增強(qiáng),其動(dòng)機(jī)總結(jié)為以下三點(diǎn):
通過(guò)衡量在當(dāng)前的商品下詞匯的相關(guān)度,顯式地對(duì)詞匯進(jìn)行消岐,使這個(gè)過(guò)程變得可解釋;
通過(guò)融入容易獲得的知識(shí)z作為錨點(diǎn),計(jì)算商品到知識(shí)z的分布和詞匯到知識(shí)z的分布,間接地得到商品與詞匯的關(guān)聯(lián);
通過(guò)融合統(tǒng)計(jì)特征作為先驗(yàn)知識(shí),達(dá)到在線可控的目的。例如對(duì)于一個(gè)新詞或者發(fā)現(xiàn)一類有錯(cuò)誤的詞匯,我們可以通過(guò)改變其對(duì)應(yīng)的統(tǒng)計(jì)特征來(lái)在線干預(yù)一類問(wèn)題。

具體地,這里我們選擇類目知識(shí)作為錨點(diǎn)。在實(shí)體識(shí)別任務(wù)中,類目是具有區(qū)分性的知識(shí),例如“玫瑰”更可能在“鮮花”類目中出現(xiàn),而“葡萄”更可能在生鮮類目中出現(xiàn),那么我們通過(guò)類目就可以將“玫瑰葡萄”做一個(gè)區(qū)分。商品的類目可以通過(guò)商家運(yùn)營(yíng)或訓(xùn)練分類模型得到,也是商品圖譜的一部分,并且這個(gè)過(guò)程相對(duì)容易,準(zhǔn)確率也高。詞匯的類目分布可以由商品的類目統(tǒng)計(jì)得到。通過(guò)將商品的類目分布與詞匯的類目分布的乘積,我們就可以得到基于類目知識(shí)錨點(diǎn)的詞匯與商品的相關(guān)性。隨后,我們可以顯式地建模消歧過(guò)程,這一模塊分為兩部分:基于上下文消歧和基于圖譜錨點(diǎn)消歧。
基于圖譜錨點(diǎn)消歧的上面介紹過(guò)了。基于上下文消歧借鑒了DyLex的方法,使用上下文信息經(jīng)過(guò)soft attention與一個(gè)分類器建模當(dāng)前商品與詞匯的相關(guān)性。兩個(gè)相關(guān)性分?jǐn)?shù)經(jīng)過(guò)線性加權(quán)的方式進(jìn)行融合,加權(quán)參數(shù)代表上下文信息的置信度(若上下文信息越置信,則參數(shù)越大,模型更偏向利用上下文信息)。最后我們通過(guò)attention_mask將相關(guān)性分布融入實(shí)體識(shí)別模型中,其中soft fusion直接使用相關(guān)性得分,hard fusion通過(guò)預(yù)先定義的閾值進(jìn)行0-1化處理再進(jìn)行使用。
經(jīng)過(guò)實(shí)驗(yàn),我們發(fā)現(xiàn)若僅使用soft lexicon的方法融入詞匯信息,實(shí)體識(shí)別的指標(biāo)上升了1PP;使用LexBert額外融入詞匯類型信息,指標(biāo)提升了1.5PP;使用圖譜結(jié)果融入詞匯、類型以及關(guān)系信息后提升達(dá)到了2PP(但是無(wú)法做到在線更新,可解釋性不足);基于圖譜錨點(diǎn)的方法的性能提升最為明顯,達(dá)到了4PP,而且它可以做到在線干預(yù)。
通過(guò)上述方法的迭代,我們發(fā)現(xiàn)將知識(shí)產(chǎn)生影響的鏈路做得更加透明可以使得知識(shí)得到更有效的利用,模型變得更可解釋,在線可控性強(qiáng)。它的優(yōu)點(diǎn)在于我們可以更容易分析問(wèn)題,知道模型的“天花板”在哪里;此外模型更容易更新,維護(hù)成本較低;最后,模型可以被快速地被干預(yù),及時(shí)響應(yīng)業(yè)務(wù)需求。
2.?商品品類關(guān)聯(lián)

下面介紹一下知識(shí)圖譜在商品品類關(guān)聯(lián)中的應(yīng)用。商品品類是商品的本質(zhì),例如牛肉、牛奶、蘋(píng)果等。對(duì)于每個(gè)商品,給定候選品類詞,商品品類關(guān)聯(lián)任務(wù)旨在判斷品類和商品是否相關(guān)(isA關(guān)系)。比如“蒙牛草莓酸牛奶250ml”是一個(gè)酸牛奶、酸奶、乳制品,但不是一個(gè)草莓也不是一個(gè)牛奶。這個(gè)任務(wù)的難點(diǎn)可以分為兩類。首先,兩個(gè)不相關(guān)的詞匯有字面上的包含關(guān)系,具有邊界歧義或類型歧義。其次,兩個(gè)相關(guān)的詞匯字面上不相關(guān),存在泛品類、上位詞或者同義詞關(guān)系。通過(guò)分析問(wèn)題,我們發(fā)現(xiàn)以上問(wèn)題都可以通過(guò)融合圖譜知識(shí)進(jìn)行解決,包括實(shí)體識(shí)別、類目識(shí)別、同義詞/上下位關(guān)系識(shí)別等能力。于是,任務(wù)的重心就轉(zhuǎn)變?yōu)槿绾卫脠D譜知識(shí)。

經(jīng)過(guò)調(diào)研,我們總結(jié)了知識(shí)圖譜融合的三個(gè)階段。第一階段是預(yù)訓(xùn)練階段,它通過(guò)多任務(wù)等方式將知識(shí)融入預(yù)訓(xùn)練模型中,再間接地傳遞給下游任務(wù)。它的優(yōu)點(diǎn)在于對(duì)下游任務(wù)改動(dòng)較小,所以更加通用,但是它存在一定的信息損失,下游任務(wù)容易遺忘知識(shí),且知識(shí)更新的代價(jià)很大(需要重新訓(xùn)練模型)。第二階段是微調(diào)階段,它通過(guò)樣本增強(qiáng)的方法融入知識(shí),更顯式地讓模型記住知識(shí)信息。它的優(yōu)點(diǎn)在于融入的知識(shí)可控且不容易被模型遺忘,但是樣本增強(qiáng)會(huì)引入噪聲,影響訓(xùn)練數(shù)據(jù)的分布,且知識(shí)更新的代價(jià)較大。第三階段是在線/預(yù)測(cè)階段,它使用知識(shí)直接作為模型輸入。它的優(yōu)點(diǎn)是知識(shí)在線可控,且可以達(dá)到在線更新的效果,但是這一方法對(duì)知識(shí)的準(zhǔn)確率要求高,需要探索如何有效利用外部知識(shí)。

在預(yù)訓(xùn)練階段,我們引入了商品領(lǐng)域的數(shù)據(jù)進(jìn)行對(duì)bert預(yù)訓(xùn)練。這里我們只采用了MLM任務(wù),得到了1.4PP的提升。此外,考慮到搜索場(chǎng)景和品類關(guān)聯(lián)任務(wù)的相似性,我們使用線上點(diǎn)擊日志進(jìn)一步增強(qiáng)NSP任務(wù),得到了0.5PP的提升。在微調(diào)階段,我們通過(guò)圖譜中實(shí)體、類目、同義詞等數(shù)據(jù)構(gòu)造正負(fù)樣本,并平衡樣本分布,得到了2.6PP的提升。但是繼續(xù)增加類似的樣本對(duì)效果提升不大,這是因?yàn)榇藭r(shí)繼續(xù)構(gòu)造樣本帶來(lái)的噪聲已經(jīng)大于收益。

接下來(lái),我們考慮了在在線階段進(jìn)行知識(shí)融合的方法。工業(yè)界與學(xué)術(shù)界已經(jīng)有類似的方法,比如Google在2020年提出了REALM,它針對(duì)的是QA任務(wù)。首先,它會(huì)對(duì)query進(jìn)行向量檢索,找到相關(guān)文檔;隨后,它將相關(guān)文檔進(jìn)行拼接,通過(guò)文本抽取的方式得到最后的答案。此外,KELM模型融合了一個(gè)外部知識(shí)庫(kù),將知識(shí)庫(kù)中的相關(guān)知識(shí)對(duì)預(yù)設(shè)的模板進(jìn)行填充,再使用語(yǔ)言模型進(jìn)行潤(rùn)色,得到更多樣性的知識(shí)表征。

Knowledge-to-Text方法將上述兩個(gè)方法進(jìn)行了融合,同時(shí)考慮了模板拼接與文檔檢索。實(shí)驗(yàn)結(jié)果表明使用模板拼接的方法已經(jīng)可以取得較好的結(jié)果,說(shuō)明引入足夠多的外部知識(shí)在QA任務(wù)中模型性能的提升幫助很大。此外,我們注意到,顯式地將外部知識(shí)直接拼接為一個(gè)句子作為輸入與采用GNN隱式建模知識(shí)的方法都可以得到相近的效果。也有研究指出通過(guò)GNN的知識(shí)建模方法的關(guān)鍵在于如何構(gòu)建子圖。

在商品品類關(guān)聯(lián)任務(wù)中,我們借鑒了上述思路,直接將相關(guān)圖譜知識(shí)拍平喂入模型中,并調(diào)整了位置編碼。以上圖例子來(lái)闡述我們的思路。商品的品類是“四季豆”,標(biāo)題是“山東優(yōu)質(zhì)現(xiàn)摘扁青250g”,我們的目標(biāo)是判斷它們之間是否存在關(guān)聯(lián)關(guān)系。
我們面對(duì)的核心問(wèn)題是如何構(gòu)建子圖,并由于我們需要在線進(jìn)行知識(shí)融合,構(gòu)建子圖的速度需要足夠快。我們考慮將商品類目的知識(shí)與同義詞/上下位知識(shí)融入模型。前者較為簡(jiǎn)單,我們直接將商品類目在標(biāo)題中識(shí)別并拼接在標(biāo)題后即可。后者較為復(fù)雜,因?yàn)槿绻?jiǎn)單地將一“跳”的圖譜上下位信息拼接在標(biāo)題后是不足以對(duì)標(biāo)題進(jìn)行消歧的;但是如果將所有“跳”的圖譜關(guān)系都融入輸入,信息量過(guò)多且存在很多噪聲。
因此,我們選擇融入品類和商品標(biāo)題解析后的品類實(shí)體或者類目之間的最短關(guān)聯(lián)路徑組成的子圖。具體地,我們通過(guò)同義詞和上位關(guān)系進(jìn)行構(gòu)圖,使用Floyd+SPFA算法計(jì)算每對(duì)節(jié)點(diǎn)的最短路徑。為了達(dá)到快速地在線知識(shí)融合,我們離線預(yù)處理所有品類關(guān)系。通過(guò)這一方法,我們的模型效果在預(yù)訓(xùn)練與樣本增強(qiáng)的基礎(chǔ)上又進(jìn)一步提升了1.4PP。這一結(jié)果讓我們看到了在線知識(shí)融合的潛力,它可以更直接地將知識(shí)融入模型中,使得信息損失相對(duì)較少,并且能做到在線干預(yù),是一個(gè)后期值得繼續(xù)探索的思路。
03樣本治理

接下來(lái),來(lái)介紹一下樣本治理的相關(guān)工作。我們都知道人工智能的核心是模型+數(shù)據(jù),二者缺一不可。在工業(yè)界實(shí)際問(wèn)題中,數(shù)據(jù)帶來(lái)的效果和效率的提升常常大于模型,所以我們很重視數(shù)據(jù)治理方面的經(jīng)驗(yàn)積累。一個(gè)樣本治理的通用框架如上圖所示。首先我們從未標(biāo)注的數(shù)據(jù)中采樣一些數(shù)據(jù)進(jìn)行標(biāo)注,然后進(jìn)行數(shù)據(jù)質(zhì)檢,生成標(biāo)注數(shù)據(jù),之后我們會(huì)通過(guò)樣本增強(qiáng)的方法進(jìn)一步優(yōu)化樣本,并使用它們進(jìn)行模型的訓(xùn)練。由于訓(xùn)練數(shù)據(jù)并不一定保證百分之百準(zhǔn)確,所以我們還需要在模型訓(xùn)練后進(jìn)行錯(cuò)誤標(biāo)注檢測(cè),對(duì)標(biāo)注錯(cuò)誤的數(shù)據(jù)進(jìn)行進(jìn)一步采樣與標(biāo)注,從而形成一個(gè)正向循環(huán),使得模型質(zhì)量與樣本質(zhì)量進(jìn)一步增強(qiáng)。在這個(gè)框架中,標(biāo)注數(shù)據(jù)采樣與錯(cuò)誤標(biāo)注檢測(cè)模塊十分重要。

首先介紹標(biāo)注數(shù)據(jù)采樣。標(biāo)注是有代價(jià)的,所以我們希望用盡量少的人力、盡量快的速度來(lái)最大化標(biāo)注數(shù)據(jù)的價(jià)值。通常我們會(huì)使用主動(dòng)學(xué)習(xí)的方法,選擇模型預(yù)測(cè)低置信的數(shù)據(jù)來(lái)進(jìn)行標(biāo)注。例如對(duì)于分類問(wèn)題,預(yù)測(cè)分?jǐn)?shù)在(0.4,0.6)這一區(qū)間內(nèi)的樣本就被認(rèn)為是低置信的數(shù)據(jù)。但是這一方法存在以下問(wèn)題:
(1)預(yù)測(cè)分?jǐn)?shù)缺乏區(qū)分度,不能作為置信度,尤其是在使用預(yù)訓(xùn)練模型時(shí),它給出的分?jǐn)?shù)通常趨于極端,導(dǎo)致我們很難選擇出低置信度的數(shù)據(jù);
(2)預(yù)測(cè)高置信部分也存在誤識(shí)別,同時(shí)我們也更希望標(biāo)注這些高置信度的錯(cuò)誤樣本;
(3)錯(cuò)誤的樣本分布較為集中,導(dǎo)致我們?cè)跇?biāo)注采樣時(shí)很容易采樣到很多相似的樣本,造成標(biāo)注冗余。

針對(duì)前述三個(gè)問(wèn)題,我們?cè)O(shè)計(jì)了對(duì)于主動(dòng)學(xué)習(xí)方法的改進(jìn)思路。
首先,我們對(duì)模型預(yù)測(cè)分?jǐn)?shù)進(jìn)行了校準(zhǔn),使得其分布更具有區(qū)分性。具體地,我們使用了label smoothing的方法,其理論解釋較優(yōu)雅且對(duì)模型侵入性低。校準(zhǔn)后的數(shù)據(jù)相較于原始數(shù)據(jù)分布會(huì)向中間區(qū)間靠攏,并且更具有區(qū)分性。此外,label smoothing后依然位于高置信區(qū)間的數(shù)據(jù)的分類準(zhǔn)確率也有了一定提升。
然后,我們對(duì)候選樣本進(jìn)行預(yù)測(cè),通過(guò)將相似樣本進(jìn)行聚類,采樣有代表性的樣本,從而減少冗余標(biāo)注。對(duì)于每個(gè)類內(nèi)的采樣時(shí),我們不僅會(huì)采樣低置信樣本,還會(huì)采樣一些高置信的樣本,使得高置信但識(shí)別錯(cuò)誤的數(shù)據(jù)有一定幾率被人工標(biāo)注。
最后,待標(biāo)注的數(shù)據(jù)提交給標(biāo)注人員完成標(biāo)注,再返回給模型訓(xùn)練提升效果;之后再進(jìn)一步篩選下一階段待標(biāo)注樣本,不斷迭代提升。
從實(shí)驗(yàn)結(jié)果來(lái)看,我們使用少量的標(biāo)準(zhǔn)數(shù)據(jù)就可以達(dá)到相較于隨機(jī)采樣更好的模型準(zhǔn)確率;并且,隨著樣本標(biāo)注量的增長(zhǎng),主動(dòng)學(xué)習(xí)的質(zhì)量依然優(yōu)于隨機(jī)采樣。

現(xiàn)在來(lái)介紹另一個(gè)重要的模塊:錯(cuò)誤樣本檢測(cè)。
雖然我們已經(jīng)對(duì)數(shù)據(jù)進(jìn)行了層層標(biāo)注和質(zhì)檢,但是我們依然無(wú)法保證數(shù)據(jù)被百分之百地標(biāo)注正確,所以我們需要對(duì)其進(jìn)行進(jìn)一步校驗(yàn)。對(duì)于錯(cuò)誤標(biāo)注較少的數(shù)據(jù),我們可以通過(guò)K折交叉驗(yàn)證的方法訓(xùn)練多個(gè)模型進(jìn)行預(yù)測(cè),將預(yù)測(cè)一致性低的數(shù)據(jù)和與標(biāo)注標(biāo)簽不同的數(shù)據(jù)作為潛在錯(cuò)誤樣本。對(duì)于錯(cuò)誤標(biāo)注較多的數(shù)據(jù)(極端情況下,錯(cuò)誤樣本數(shù)量比正確樣本數(shù)量還要多),我們先清洗出一份規(guī)模小、質(zhì)量高的數(shù)據(jù)來(lái)訓(xùn)練模型。之后將這一模型的預(yù)測(cè)作為label,結(jié)合其他可利用的特征,來(lái)驗(yàn)證剩余數(shù)據(jù)的一致性,發(fā)現(xiàn)潛在錯(cuò)誤樣本。通過(guò)這一方法可以糾正大部分錯(cuò)誤標(biāo)注,那么此時(shí)剩余的錯(cuò)誤樣本屬于較難分辨的少量錯(cuò)誤樣本,可以使用交叉驗(yàn)證的方法做進(jìn)一步校正。

我們還探索了其他方法來(lái)改進(jìn)錯(cuò)誤樣本檢測(cè)。
首先,我們可以采用“遺忘次數(shù)”,即本輪識(shí)別正確但后續(xù)輪數(shù)識(shí)別錯(cuò)誤的次數(shù)。有研究表明噪聲樣本是模型最容易遺忘的,因?yàn)槟P蜔o(wú)法記憶那些本身就是錯(cuò)誤的少量樣本。如上圖分布圖所示,紅色柱狀圖即為錯(cuò)誤樣本的遺忘次數(shù)分布,綠色柱狀圖對(duì)應(yīng)正確樣本的遺忘次數(shù),可以發(fā)現(xiàn)錯(cuò)誤樣本的遺忘次數(shù)明顯高于正確樣本的遺忘次數(shù)。因此,我們可以統(tǒng)計(jì)“遺忘次數(shù)”來(lái)區(qū)分噪聲樣本。
對(duì)于多分類問(wèn)題,我們還可以使用“置信學(xué)習(xí)”中的混淆矩陣進(jìn)行進(jìn)一步優(yōu)化。因?yàn)閷?duì)于多分類任務(wù),模型往往會(huì)在個(gè)別類別中出現(xiàn)混淆,所以我們可以通過(guò)計(jì)算驗(yàn)證集上識(shí)別的混淆矩陣,有傾向地多采樣易混淆類別之間的樣本。
此外,我們自己通過(guò)經(jīng)驗(yàn)探索出基于多任務(wù)檢測(cè)的錯(cuò)誤樣本檢測(cè)方法。在單任務(wù)標(biāo)注較少且樣本錯(cuò)誤很難被識(shí)別的情況下,我們可以通過(guò)多個(gè)相似任務(wù)的聯(lián)合訓(xùn)練來(lái)輔助單任務(wù)檢測(cè)出其樣本中的錯(cuò)誤標(biāo)注。我們?cè)趯?shí)驗(yàn)過(guò)程中發(fā)現(xiàn),通過(guò)多任務(wù)檢測(cè)方法將單任務(wù)的樣本識(shí)別并糾正后,單任務(wù)模型的訓(xùn)練效果甚至可以達(dá)到多任務(wù)聯(lián)合訓(xùn)練的訓(xùn)練效果。在樣本多樣性充足的情況下(例如經(jīng)過(guò)主動(dòng)學(xué)習(xí)采樣),這一過(guò)程相當(dāng)于將多任務(wù)聯(lián)合訓(xùn)練的知識(shí)融入了標(biāo)注樣本。
這里對(duì)知識(shí)圖譜的應(yīng)用做一個(gè)小結(jié):
知識(shí)增強(qiáng):介紹了如何充分利用圖譜知識(shí)豐富信息,并借助容易獲取的知識(shí)來(lái)解決較難的任務(wù)。進(jìn)一步地,我們將知識(shí)融合分為三個(gè)階段,并進(jìn)行相應(yīng)使用的介紹。從結(jié)果來(lái)看,知識(shí)增強(qiáng)能有效提升模型效果,并使模型解釋性更強(qiáng),并且在線可控,適合工業(yè)界需求,其潛力仍待挖掘。
樣本治理:介紹了標(biāo)注數(shù)據(jù)采樣和錯(cuò)誤樣本檢測(cè)的經(jīng)驗(yàn)和方法。模型與數(shù)據(jù)是缺一不可的,樣本治理的工作應(yīng)當(dāng)受到重視并得到積累。
04商品圖譜的應(yīng)用

下面來(lái)簡(jiǎn)單介紹一些商品圖譜的落地應(yīng)用。商品圖譜在商品優(yōu)化專項(xiàng)之初就啟動(dòng)建設(shè),其落地范圍廣泛,相關(guān)場(chǎng)景包括:數(shù)據(jù)治理、模型增強(qiáng)、產(chǎn)品優(yōu)化、分析決策等。
比如在搜索場(chǎng)景下,用戶輸入“可愛(ài)多草莓”這個(gè)query,模型可能會(huì)誤識(shí)別為“草莓”這個(gè)品類,但實(shí)際上用戶想搜索“可愛(ài)多冰激凌”,而“草莓”只是一個(gè)口味。這時(shí),我們可以分別在查詢理解端和數(shù)據(jù)檢索端融入商品圖譜知識(shí),使模型正確識(shí)別出“可愛(ài)多”是一個(gè)品牌,“草莓”是一個(gè)口味,而用戶搜索的重點(diǎn)在于“可愛(ài)多”冰激凌上。通過(guò)引入圖譜知識(shí),我們可以有效地降低不相關(guān)的誤召回。

相同的圖譜知識(shí)還可以使用在排序模型的相關(guān)性上。比如用戶搜索“水”,誤召回會(huì)顯示“水洗胡蘿卜”。有可能“水洗胡蘿卜”在召回過(guò)程中無(wú)法被完全過(guò)濾,但是我們可以通過(guò)排序?qū)⑵浞胖迷谀┪玻鉀Q用戶體驗(yàn)不好的問(wèn)題。具體地,我們可以將圖譜的品類信息融入排序特征中,從而使得品類不相關(guān)的商品的排序分?jǐn)?shù)降低。

除了召回-排序鏈路,我們還將圖譜知識(shí)融入商品結(jié)構(gòu)化信息展示中,比如商品篩選項(xiàng)、商品推薦理由、商品標(biāo)簽展示、商品榜單等。
05總結(jié)
本次分享我們以美團(tuán)大腦中的商品領(lǐng)域知識(shí)圖譜為例,介紹了如何利用知識(shí)圖譜數(shù)據(jù)實(shí)現(xiàn)更加精準(zhǔn)的商品理解,從而更好的支持下游搜推應(yīng)用,同時(shí)反哺知識(shí)圖譜的進(jìn)行更加準(zhǔn)確的數(shù)據(jù)建設(shè)。從結(jié)果來(lái)看,知識(shí)增強(qiáng)能切實(shí)有效地提升模型效果,并使模型更可解釋并且在線可控,適合工業(yè)界需求,其潛力仍待挖掘。
美團(tuán)大腦是正在構(gòu)建中的全球最大的生活服務(wù)領(lǐng)域知識(shí)圖譜,除了商品領(lǐng)域以外,美團(tuán)大腦也覆蓋了餐飲、酒店、旅游等領(lǐng)域,我們后續(xù)也會(huì)就其他領(lǐng)域、其他技術(shù)方向,持續(xù)為大家分享美團(tuán)在知識(shí)圖譜方面的工作。
美團(tuán)大腦知識(shí)圖譜團(tuán)隊(duì)大量崗位持續(xù)招聘中,實(shí)習(xí)、校招、社招均可,坐標(biāo)北京/上海,歡迎感興趣的同學(xué)加入我們,利用自然語(yǔ)言和知識(shí)圖譜技術(shù),幫大家吃得更好,生活更好。簡(jiǎn)歷可投遞至:chenfengjiao02@meituan.com。
06精彩問(wèn)答
Q:知識(shí)圖譜上的邊(關(guān)系)是通過(guò)什么方式定義的?
A:圖譜中的關(guān)系是預(yù)先定義的。定義會(huì)參考對(duì)業(yè)務(wù)的理解設(shè)定。比如說(shuō),我們?cè)趫D譜體系拆分為多個(gè)層級(jí)體系的原因之一是業(yè)務(wù)需求,它促使我們將商品分為不同粒度的層級(jí)。當(dāng)然,我們還會(huì)根據(jù)商品的客觀屬性定義其他維度的關(guān)系。
Q:如何保證知識(shí)圖譜的質(zhì)量?
A:在我們的圖譜體系中,由于商品SPU已經(jīng)達(dá)到數(shù)十億量級(jí),所以它與商品的關(guān)聯(lián)無(wú)法一個(gè)個(gè)進(jìn)行人工審核。此時(shí),我們會(huì)設(shè)置一些benchmark,并做定期的抽檢來(lái)保證圖譜的整體準(zhǔn)確率在90%以上,關(guān)鍵數(shù)據(jù)可以達(dá)到95%。對(duì)于層級(jí)體系中品類與業(yè)務(wù)類目,它的數(shù)量并不是很多,并且由于它處于層級(jí)體系的上游,所以它的準(zhǔn)確性對(duì)于下游任務(wù)十分重要。為了避免錯(cuò)誤傳遞,我們會(huì)使用人工審核來(lái)確保高準(zhǔn)確率。
(部分內(nèi)容來(lái)源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)