- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2022-05-09來源:關于我的愛情瀏覽數:487次
Openbase匯聚了知識圖譜專家、工程師和上百名專業領域志愿者,持續貢獻知識和數據,開源開放共享,我們是在用愛發電。
分享嘉賓:于陽 小米 知識圖譜平臺產品經理編輯整理:梁霖?正己基業出品平臺:DataFunTalk導讀:本次分享的主題是 OPENBASE 知識眾包平臺解析,今天的介紹會圍繞下面七點展開:
OPENBASE介紹
新冠圖譜建設
OPENBASE與數據眾包
眾包任務標注工具
如何提高標注效率
OPENBASE眾包數據質量建設
淺談眾包發展趨勢和OPENBASE展望
01OPENBASE介紹Openbase 致力于打造中文開放域高質量免費知識圖譜。我們的宗旨就是促進中文知識庫數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。Openbase最新網址:openbase.openkg.cn下面是Openbase 整體的模塊結構,與區塊鏈有聯動。


普通民眾,想要了解相關的知識,有基本的百科需求,以及新冠治療方面的問題;
對于官方來講,會發布一些關于個人防護和場所防護的指導,同時也會關注疫情中物資配給的一些狀態;
醫護相關的工作人員,會關注疫苗和傳播鏈等專業和流行病學領域的知識;
媒體則關注在這次事件中的一些典型英雄人物和熱點的事件。

從疫情初始,我們就支持Openkg進行新冠圖譜眾包的建設。在平臺上,目前有新冠事件、新冠英雄、新冠臨床、新冠科研和百科健康,這六個相關的知識圖譜。
Openkg在本次的戰役中與同濟大學、浙江大學、東南大學等多個高校和小米人工智能實驗室等多家單位的知識圖譜技術專家,聯合構建了新冠病毒相關的知識庫,并且采用CC-by SA 協議,完全免費開放,供大家下載使用。在Openbase 上通過離線python script 實現相關圖譜知識眾包任務的分配和抽樣,由志愿者們完成了本次的任務。

另外,我們還推出了openbase小程序版本,可以利用碎片時間在線標注,通過幾次點擊,就可以貢獻自己的知識,為開放圖譜和戰勝疫情做出貢獻。

這里是新冠圖譜的一些應用:
試劑盒的使用注意事項
新冠肺炎疫苗項目的進展情況
中醫證型推薦處方及組成中藥材的突破
確診病例的判斷依據
疾病相關的研究課題

我們通過新冠開放知識圖譜的建設,將過載的信息進行整合,提高信息利用價值,為抗擊疫情做出努力。
03
OPENBASE與數據眾包針對這些海量數據,OPENBASE有一套完整的數據眾包流程機制。眾包是一種公開面向互聯網大眾的分布式問題解決機制。它通過整合計算機和互聯網上未知的大眾來完成計算機單獨難以完成的任務。

數據眾包的利與弊分析


Openbase的定位是一個窗口和協作者。任務機制的改版,從以領域圖譜為中心轉為以圖譜任務為中心。區別在于,以圖譜實體SPO為中心的眾包項目,是對單個領域圖譜的質量提升,而適配多種內容類型和標注類型的眾包項目,發布的任務不局限于圖譜實體,還支持文本、網頁、圖像,甚至設計調查問卷等……可以產出更豐富的數據。

04
眾包任務標注工具“有多人工,就有多智能”。這讓我想起了特斯拉的自動駕駛,倒在路中間的白色大卡車一直是攝像頭識別的一個噩夢。但是通過對巨量數據的訓練,將來的無人駕駛車能夠識別出藍天下的白色卡車,就是因為當年把它標出來了。在去年的特斯拉AI DAY上,AI技術負責人介紹了特斯拉如何搭建人工+自動的數據標注流水線,從2D向量空間標注變成立體的標注。

在圖譜領域,更好的標注工具,其實也是Openbase 的一個建設目標。
Openbase 升級了新的任務管理后臺,不再通過代碼去創建任務、分發數據,大幅降低了平臺的使用門檻。任務相關的所有內容平臺管理員都可以根據任務需要在前端進行配置,并可以對每個任務以及用戶的標注結果進行操作,不需要像以前一樣做離線處理,這也區別于之前的新的任務創建和分配形式。

新版的審核驗收頁面優化了眾包標注的體驗,參考更全面,提示更清晰,由任務后臺配置的屏幕提供參考資料,將需要輸出的重點屬性關系做醒目的標記。并且,輸出的結果可以自定義,標注形式由表格的形式變為單頁布局,可以放置文本或者內嵌網頁等參考資料,可以適配更多任務。

05
如何提高標注效率我們常常會遇到這樣的問題:因為我們的眾包標注主要還是人工標注,并且由于樣本需求量大,標注人員效率提高不上去,樣本也就無法跟上模型迭代。
如何提高眾包標注效率,有三點:
人員:將原始標準轉化為面向廣大志愿者的、更通俗易懂的標注指南,加深數據理解,達成共識,規避邊界模糊、易錯點。這也是和標準重要性相關的、實踐中最耽誤效率的數據,也就是標準之外的數據。所以,數據需求方,平臺方和標注志愿者,在一開始的時候一定要統一標準。
工具:采用簡單一致的題型,審核-驗收流水線化工作,數據無縫對接。流水線是經過實際生產工作驗證過的高效形式。將復雜任務拆解成幾步簡單任務,可以讓標注形成肌肉記憶,極大提高整體效率。
在運營方面,也就是我們常說的項目管理三角形:在預算、準確和效率上盡量取得平衡。針對標注的浮躁期,因為據經驗來講,人員連續標注大概1.5小時左右,會產生一些浮躁的心態。對于這個時間點,我們會給予一些休息或者是激勵。剩余任務一眼看不到頭的時候,是最容易產生浮躁和消極心態的。此時我們會給予一些停頓,或者獎勵來激勵志愿者。

算法工程師都知道有一句話叫做garbage in garbage out。模型效果的好壞根本上還是取決于數據的質量。訓練數據對于模型的重要性也就不言而喻。
06OPENBASE眾包數據質量建設
1. 控制眾包的數據質量的兩條路線
如何控制眾包的數據質量,這里Openbase 有兩條路線:
運營手段
在運營手段上,標準培訓和答疑需要透徹,我們針對每個圖譜,都有單獨定制的數據標準。
權限考試,因為眾包面向的用戶群很廣泛,所以要通過考試題目來過濾,考試題和試標數據的內容是一樣的,相當于通過試標確認用戶的水平。
抽樣質檢,我們分為兩種,一種是平臺質檢,一種是需求方或源數據提供方質檢。這方面有一套相應流程。
用戶激勵也很好理解,根據二八法則,最優質最大量的數據也就是頭部用戶產出的,激勵頭部用戶會同時影響效率和質量,“工欲善其事必先利其器”。
技術手段
在眾包項目過程中,有些標注人員經過高強度大量的標注后,尤其是強制任務,會產生一些抵觸情緒,不排除有作弊的可能,這需要根據用戶的行為模型來分析用戶是否作弊。
腳本監測則是為了防止用戶使用插件、機器標注來大量作弊,獲取收益的行為。
用戶認證,主要是為了保證用戶的真實性,這也是平臺一開始采用邀請制的原因。開放給公眾注冊后,認證用戶和用戶積分比較高的用戶,會接取到更多項目,產生良性循環。

樣本題和標準培訓是控制眾包數據質量的兩個重要的機制。
2. 標準制定的案例
羅翔老師有一段視頻值得我們思考:快餓死了,吃大熊貓還違法嗎?我國法律規定,非法獵捕、殺害國家重點保護動物可能會被判處五年以上,乃至十年的有期徒刑,還要并處罰金。單純按照這個條件,我們可以得出結論:只要吃大熊貓,肯定就是傷害了大熊貓。所以這個行為肯定是違法的,而且大熊貓特別珍貴,可能會被判重刑。

第一個是標注提供的基本數據內容:殺害了熊貓、熊貓屬于珍稀野生動物、傷害野生也傷害珍稀野生動物、觸犯刑法。
第二個是我們要輸出的結果,指人的整體行為是否違法。這里要注意,并不單純是殺害熊貓的行為是否違法,而是說快餓死了吃大熊貓的行為。
第三個是是否有其他的歸類和特殊條件。通過題目可以了解到,這個人快餓死了,而法律中有一個條款叫做緊急避險的條款。
第四個是對于邊界的探討,這也是標準是否模糊的一個要點,就是餓多久算快餓死了,殺幾只熊貓是必要的,沒殺死是否違法。
這里我標紅了一些條件要素,結合這些內容進行推理,我們可以得出與我們剛才的原始結論完全相反的一個結論。比如說一個人如果餓了六七天快餓死了,他去殺熊貓來吃,是符合緊急避險的條款的。不管他是蒸著吃還是烤著吃,人權總是要高于熊貓權的。所以這個行為符合緊急避險,不觸犯刑法。當然他如果吃了一只,吃飽了,餓不死了,然后為了好玩去殺第二只熊貓,他就觸犯了刑法。通過列舉這些條件要素,我們可以知道:在標注規則的制定中,需要考慮以上這幾個要點。通過這些思考去制定標注規則,并且將規則完善,還要深入到數據的實際應用場景中,才能將我們人的判斷推理邏輯轉換為代碼,才能更好地提升策略。3. 樣本題機制
樣本題是由任務發起人標注少量數據作為初始樣本和考試題目,用戶通過考試獲得任務權限,再將樣本隨機分散至正式標注數據中,通過樣本數據的準確率,可以近似得出該用戶的準確率。在質檢過程中,逐步篩選出優質數據,擴大樣本題集合,還可以用于志愿者培訓、權限考試。樣本題量越大,得出的準確率也就越精確,根據統計剔除作弊用戶和劣質數據,可得出整體數據效果。

07
淺談眾包發展趨勢和OPENBASE展望數據眾包的發展趨勢:算法和技術將會整合,所有的人工智能公司都渴望獲得龐大的數據集,這些公司將采用眾包的方式來獲取大量的數據。行業用戶之間的數據交易將越來越頻繁。
在當前的環境下,人們的經濟壓力和工作壓力會越來越大,而眾包以其低門檻、時間自由的優勢,可獲得大量的碎片化時間人力。但眾包模式的踐行,仍存在一些法律和財務問題需要解決。
在三、四線城市,會出現更多專門承接外包和眾包項目的“標注工廠”,以其低人力成本和受當地政策扶植(高新技術產業)的優勢,部分或全部取代現有的公司自有外包標注團隊。
數據訓練工具的開源普及化,原本有限制或無法自己開發人工智能工具的小公司將有機會獲得大量的數據,來訓練和啟動復雜的AI算法。

Openbase 的未來會朝著社群化、大眾化和開源化發展。用戶將被組織起來,形成一個個專業的小團體,而產品將會變得更加易于使用,獲得更多用戶成為真正意義上的眾包,而不是局限于人工智能的圈子,并且平臺會結合區塊鏈的優勢,繼續深化開源。

最后說一句情懷,讓知識從群眾中來,到群眾中去。Openbase匯聚了知識圖譜專家、工程師和上百名專業領域志愿者,持續貢獻知識和數據,開源開放共享,我們是在用愛發電。
再次感謝合作的各個企業、單位、學校以及個人志愿者,因為有你們的努力,才共同創造了Openbase 這個品牌,也歡迎大家注冊成為平臺志愿者,參與到我們的項目建設中。
Openbase網址:?openbase.openkg.cn
今天的分享就到這里,謝謝大家。
下一篇:數據治理總體解決方案...