- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2022-07-12來源:鐵錘妹妹瀏覽數:307次
常見內容風險很多,ppt羅列了幾種典型的風險。如涉政類,包含涉政人物、涉政標志、涉政事件、涉政文字等。涉黃類、涉恐類、違禁類、廣告類等如下所示。每個大類的違規細類別種類繁多,單一技術方案無法全覆蓋,一般需要圖像識別、圖像檢測、人臉識別、logo識別、文字識別,以及其他技術綜合處理。
導讀:大家好,我是張楓,來自虎牙公司內容安全組。虎牙公司作為國內知名的直播平臺,在直播游戲化技術、虛實融合內容生產方面積累了豐富經驗,為了給觀眾創造綠色安全的網絡環境,計算機視覺技術在虎牙得到了廣泛的應用。本文將從內容安全方面作為切入點,跟大家交流計算機視覺技術在虎牙直播中的實踐經驗,內容將圍繞以下四方面進行闡述:
項目背景
常見內容風險
圖像識別算法實踐
未來展望
01項目背景
在直播和短視頻平臺,圖像相關的業務場景非常豐富多樣,主要包括頭像類、視頻類、直播類、聊天圖類等。上述業務每天會生產豐富的音視頻內容,不可避免地會出現一些不適合直播的內容,如音頻、視頻、圖像中的涉政紅線、涉黃低俗、暴恐敏感、廣告版權、其他違規等。我們通過精細化標簽,對風險內容進行快速召回。億級別量級的數據,全違規覆蓋,我們做到了秒級別的響應。

以圖像為例。業界內容安全審核方式主要有3種:滯后審核、實時攔截、實時屏蔽。
第一種,滯后審核指由機器發現高危圖像,繼而推送給人審,最終由人審執行處罰。其優點為人審處罰避免機器誤殺;缺點為響應速度較慢,一般取決于人審的響應速度。
第二種,實時攔截指由機器發現高危圖像后,直接進行處罰。其優點是響應速度快,減少不良信息暴露的風險;缺點是誤殺影響用戶體驗。
第三種,實時屏蔽,機器發現高危圖像,并對圖像中違規的區域進行打碼模糊。其優點為響應速度快,用戶無感知;缺點是對算法要求高。

02常見內容風險
常見內容風險很多,ppt羅列了幾種典型的風險。如涉政類,包含涉政人物、涉政標志、涉政事件、涉政文字等。涉黃類、涉恐類、違禁類、廣告類等如下所示。每個大類的違規細類別種類繁多,單一技術方案無法全覆蓋,一般需要圖像識別、圖像檢測、人臉識別、logo識別、文字識別,以及其他技術綜合處理。

以涉黃低俗類為例,大家一起看下常見案例。
常規案例,特點是低俗主體明顯,處于中間位置,占圖像面積比例較大。
困難案例,特點是低俗主體隱晦,目標區域較小,圖像內容復雜。
其他違規類別也大同小異,復雜多樣的違規案例,給我們帶來了很多挑戰。

03圖像識別算法實踐
下面將為大家介紹我們的圖像識別算法實踐,以及工作過程中遇到的一些難點。
在單幀圖像維度,我們希望做到精準識別,不斷提升召回,降低誤報,對badcase能快速召回。在業務維度,我們希望做到通過通用算子的編排能力,快速滿足各個業務需求。
為了完成上述目標和挑戰,打擊上述各類風險,我們構建了Skyeye天眼系統。本圖為天眼系統整體的系統框架圖。

當業務接入天眼時,我們獲取到具體的業務數據,一般為圖像或者視頻。由數據處理模塊,進行截圖拉流、視頻分片、圖像處理、業務分流等操作;再經過特定業務入口輸入算子流程,輸出對應的識別標簽,按規則推送至對應業務出口,一般為人工審核、實時審核、實時打碼三種。這就是一個普通業務上線的總體流程。
上述流程的核心是算子構建與算子編排。當業務方提出需求時,先評估現有算子是否滿足要求,若不滿足,則積累業務數據,進行算子構建。待該算子效果評估通過后,結合其他現有算子進行算子編排,擬定適合特定業務的算子流程。灰度數據進行數據驗證,若滿足要求則開始推送,不滿足則反饋迭代,進而形成閉環。
以上是天眼的系統框框架介紹。下面將介紹一些算子的構建方法。

目前,涉黃低俗類為主要打擊對象。我們對樣例進行分析,大致分為兩種:第一種圖像主體明顯,一般采用【多標簽+多分支】的方法。而第二種,圖像主體隱晦,以畫中畫、小框圖、表情包等形式出現,一般采用【檢測+分類+搜索】的方法。

針對常規樣例,我們采用【多標簽+多分支分類】的方法。
①由于涉黃低俗類屬于小樣本,我們會人工擴充部分樣例。業務數據+爬蟲數據。
②單張圖,我們為其打多個標簽。例如樣例1,性感、腿部、人體前景框、人體掩膜等。分類標簽采用人工標注與機器打標方式進行,而人體前景框與掩膜區域采用預訓練模型進行打標。
③模型結構采用的主干網絡+注意力模塊的形式,經試驗發現,注意力模塊熱力圖更聚焦于身體部位。
④模型推理時,可同時輸出多個標簽,綜合多個標簽輸出結果,這種方式在一定程度上增加了識別準確率。例如,一級標簽屬于大類,圖像一致性較弱,對應的召回率高,但準確率較低;二級標簽屬于細粒度標簽,圖像一致性強,準確率較高,召回率較低。當一級分類標簽與二級分類標簽不沖突時,才作為類別命中。以上就是常規樣例的技術方案。

針對困難樣例,我們采用【檢測+分類+搜索】的方法。
①我們需要多階段構建算子,訓練檢測網絡與抽特征網絡,建立特征索引庫。
②采用檢測算子篩選候選框,去除了多余的背景干擾,使后續抽特征算子更易于聚焦目標抽取特征。
③抽特征算子同時輸出分類類別(有泛化性)與特征向量,特征向量與搜索庫比對,輸出索引類別。多輸出進行邏輯組合,輸出最終類別,這也是模型集成的思想。
④構建搜索庫的優勢是,特征可以快速入庫,處理誤召或者漏召案例。

相比于涉黃低俗類數據,涉政、暴恐類數據更少,某些特定類別只有幾百的原始數據。我們在實際應用中,發現部分類別在跨域識別的表現極差。原本在業務A表現良好,遷移到業務B上表現不好。分析原因是由于,訓練樣本少且業務傾向性較強。針對上述問題,我們采用了多任務形式構建分類算子。
⑤訓練時,分類任務我們一般用backbone + attention作為主干網絡,同時多個任務共用一個主干網絡,擴大主干網絡的訓練數據量。
⑥假設,需要對任務1進行微調,則只需微調分支網絡,可快速迭代。
⑦模型部署時,共用主干網絡,便于單卡多模型部署。
⑧推理時,對多個輸出進行綜合判斷,提升單幀圖像的準召。

某些標簽難以用單一方法進行召回,如游行圖像。我們嘗試過上述方案,準召情況不理想。后分析具體數據,我們發現可以通過綜合圖像多個元素,進行邏輯組合確認游行類別。如圖一,單一分類模型將趕集圖像命中為游行圖像。圖二,為召回游行案例,我們通過對單幀圖像進行多維度理解,輸出游行標簽。即命中多人聚集標簽,且命中敏感旗幟標簽,即為游行。
我們統一了各類算子的接口,實現在整體流程中即插即用的功能。下面以一個具體業務的例子來說明天眼系統的實際應用。

該典型案例是,某業務需對軍裝類、禁播游戲類、軟色情類等數據進行攔截。分析業務場景與需召回的違規樣例,使用到了以下算子:流量算子、場景分類算子、圖像縮放算子、禁播游戲算子、軟色情算子、涉政軍算子、邏輯腳本算子。經算子編排,如上右圖所示。
每個業務均有一個固定的業務流量入口。
流量算子:用于控制流量大小,同時可對品類信息,地域信息等進行過濾。
場景分類算子:輸出不同場景,如游戲類、影視類、戶外類、窗口類等多個類別。舉個例子,大家可以看下上圖左下角這個樣例,它實際是該業務必須要找回的一個禁播游戲的案例,若命中游戲類,則數據流向左邊,進行圖像縮放到適合下個算子的大小,最終由禁播游戲算子命中某類游戲,進而上報高危類。
上述方案優勢為:節省資源(不需要并行過所有違規),多維度理解提升準召;通過算子編排,快速滿足各個業務需求。

圖像識別算法在內容風控的實踐可由上圖進行總結:我們通過構建精細化算子標簽,加上靈活配置的策略,在各個業務實現了對違規數據的高召回率與低推送率。

基于上述方案,我們在某業務上,2021年整體違規召回率>95%;全類別違規推審量<0.001。下方為部分困難樣本的精準召回。圖1為敏感網站的廣告圖;圖2為手機里的一些小電影的封面;圖3與圖4為微信聊天圖與表情包。

基于在各類業務的成功試驗,我們也對現有能力進行了開放,開放能力主要涵蓋圖像安全、文本安全、音頻安全、視頻安全等這幾個大類,歡迎大家使用!
04未來展望
在內容安全方面,目前常用的依舊是滯后審核,與實時攔截的方式。具有滯后或影響用戶體驗的缺點。隨著不斷迭代技術,我們希望可以做到實時打碼,即機器發現高危圖像,對圖像中違規區域進行打碼模糊。優點為響應速度快,減少不良信息暴露風險,用戶無感知。以下是我們做的一些工作。
某業務的胸線實時打碼,降低低俗類暴露風險。

某業務的文字實時打碼,降低涉政類文字的暴露風險,不影響用戶的觀看體驗。

05
精彩問答
Q:涉黃暴恐,大概推理用的多少個服務器?
A:我們是多云部署,單個云高峰期的圖像量依賴于主播開播的數量。常規模型吞吐量為56K每分鐘,具體多少服務器,按圖像量級去換算。
Q:圖像長寬高比差距較大時如何處理?
A:以直播圖像為例,獲取圖像一般有兩個來源,PC端或者手機端。這兩種來源的圖片一般都會有較固定長寬比。如果有不同的大小,我們會在模型推理之前做統一的圖像預處理。
Q:文字安全怎么處理?
A:彈幕類數據,一般采用自然語言的方法處理;嵌在圖片里的文字,一般要采用OCR+詞庫,或者OCR+NLP的方法處理。