- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2025-09-03來源:CDO研習社瀏覽數:161次
一、高質量數據集是什么?
高質量數據集是指具有一定主題,可以標識并可以用于人工智能訓練、驗證及測試等處理過程的數據形式,并且在完整性、規范性、準確性、均衡性、及時性、一致性、相關性等多個方面都達到了較高標準的數據集合。能夠幫助研究人員、工程師和人工智能在開展數據分析、機器學習和模型計算時獲得更可靠的結果。
二、為什么需要高質量數據集?
數據集是人工智能“學習”的基礎和源泉。從全球開源數據集語種來看,英語是世界上分布最廣泛的語言,其開源數據集占比也最高,截至2023年底達到了56.9%;美國、英國等以英語為主的國家為英語開源數據集的積累奠定了良好的基礎。作為世界上使用人數最多的語言之一,中文開源數據集占比僅為5.6%,暴露出中國在數字基礎設施建設方面的短板,這與中國在人工智能領域的發展實力和愿景不符。造成國內高質量數據集緊缺的原因是多方面的,包括數據標準和規范的缺失、數據共享和開放程度低、數據處理投入不足等。數據集的緊缺會限制人工智能算法的訓練效果,影響模型的準確性和泛化能力。

三、如何評估高質量數據集?
根據《面向人工智能的數據集通用評估方法》,面向人工智能應用的數據集質量評估需要遵循科學的評估方法,基于人工智能應用需求與數據集質量目標選取合適的評估指標和相應的評估準則。人工智能數據集的評估主要分為定量、定性以及將前兩者有機集合起來進行綜合分析的方法。人工智能數據集的質量評估主要包括完整性、規范性、準確性、均衡性、及時性、一致性、相關性和其他等維度。



下一篇:信息化→數字化→數智化...