日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

深度思考:從BERT看大規模數據的無監督利用

時間:2019-02-20來源:億信華辰瀏覽數:1853

在擊敗 11 個 NLP 任務的 State-of-the-art 結果之后,BERT 成為了 NLP 界新的里程碑, 同時打開了新的思路: 在未標注的數據上深入挖掘,可以極大地改善各種任務的效果。數據標注是昂貴的,而大量的未標注數據卻很容易獲得。

在分類中,標簽表示訓練示例所屬的類; 在回歸中,標簽是對應于該示例的實值響應。 大多數成功的技術,例如深度學習,需要為大型訓練數據集提供 ground truth 標簽;然而,在許多任務中,由于數據標注過程的高成本,很難獲得強有力的監督信息。 因此,希望機器學習技術能夠在弱監督下工作。

這不可避免地導致我們重新考慮弱監督學習的發展方向。 弱監督學習的主要目標是僅使用有限量的標注數據,和大量的未標注數據,來提升各項任務的效果。

弱監督最大的難點在于如何用少量的標注數據,和為標注數據來有效地捕捉數據的流形。目前的一些解決方案在面對復雜的數據時,比較難準確地還原數據的流形。但是 BERT 通過大量的預訓練,在這方面有著先天的優勢。

因而,BERT 憑借對數據分布的捕獲是否足以超越傳統半監督的效果?又或者,BERT 能否有與半監督方法有效地結合,從而結合兩者優勢?

弱監督

通常,有三種類型的弱監督。第一種是不完全監督,即只有一個(通常很小的)訓練數據子集用標簽給出,而其他數據保持未標注。 這種情況發生在各種任務中。 例如,在圖像分類中,ground truth 標簽由人類注釋者給出;很容易從互聯網上獲取大量圖像,而由于人工成本,只能注釋一小部分圖像。

第二種類型是不精確監督,即僅給出粗粒度標簽。 再次考慮圖像分類任務。 期望使圖像中的每個對象都注釋;但是,通常我們只有圖像級標簽而不是對象級標簽。

第三種類型是不準確監督,即給定的標簽并不總是真實的。 出現這種情況,例如當圖像注釋器粗心或疲倦時,或者某些圖像難以分類。

對于不完全監督,在這種情況下,我們只給予少量的訓練數據,并且很難根據這樣的小注釋來訓練良好的學習 然而,好的一面是我們有足夠的未標注數據。 這種情況在實際應用中經常發生,因為注釋的成本總是很高。

通過使用弱監督方法,我們嘗試以最有效的方式利用這些未標注的數據。有兩種主要方法可以解決這個問題,即主動學習和半監督學習。兩者的明確區別在于前者需要額外的人為輸入,而后者不需要人為干預。

主動學習(Active Learning)

主動學習假設可以向人類從查詢未標注數據的 ground truth。目標是最小化查詢的數量,從而最大限度地減少人工標簽的工作量。換句話說,此方法的輸出是:從所有未標注的數據中,找到最有效的數據點,最值得標注的數據點然后詢問 ground truth。

例如,可能有一個距離決策邊界很遠的數據點,具有很高的正類可信度,標注這一點不會提供太多信息或改進分類模型。但是,如果非常接近分離閾值的最小置信點被重新標注,則這將為模型提供最多的信息增益。

更具體地說,有兩種廣泛使用的數據點選擇標準,即信息性和代表性。信息性衡量未標注實例有助于減少統計模型的不確定性,而代表性衡量實例有助于表示輸入模式結構的程度。

關于信息性,有兩種主要方法,即不確定性抽樣(Uncertainty sampling)和投票機制(query-by-committee)。 前者培訓單個分類器,然后查詢分類器 confidence 最低的未標注數據。 后者生成多個分類器,然后查詢分類器最不相同的未標注數據。

關于代表性,我們的目標是通常通過聚類方法來利用未標注數據的聚類結構。

半監督學習(Semi-Supervised Learning)

另一方面,半監督學習則試圖在不詢問人類專家的情況下利用未標注的數據。 起初這可能看起來反直覺,因為未標注的數據不能像標注數據一樣,直接體現額外的信息。

然而,未標注的數據點卻存在隱含的信息,例如,數據分布。新數據集的不斷增加以及獲得標簽信息的困難使得半監督學習成為現代數據分析中具有重要實際意義的問題之一。

半監督學習的最主要假設:數據分布中有可以挖掘的的信息。

總結

在深入了解弱監管的歷史和發展之后,我們可以看到這一研究領域的局限性和改進潛力。數據標簽成本總是很昂貴,因為需要領域專業知識并且過程非常耗時,尤其是在 NLP 中,文本理解因人而異。但是,我們周圍存在大量(幾乎無限量)未標注的數據,并且可以很容易地提取。

因此,我們始終將持續利用這種豐富資源視為最終目標,并試圖改善目前的監督學習表現。從 ULMFiT 等語言模型到最近的 BERT,遷移學習是另一種利用未標注數據的方法。通過捕獲語言的結構,本質上是另一種標簽形式。在這里,我們建議未來發展的另一個方向 - 將遷移學習與半監督學習相結合,通過利用未標注的數據進一步提高效果。


(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢