日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業(yè)數據治理實施部署指南。同時,在IDC發(fā)布的《中國數據治理市場份額》報告中,連續(xù)四年蟬聯數據治理解決方案市場份額第一。

高質量數據集建設指南

時間:2025-06-05來源:睜眼看見你瀏覽數:497

高質量數據集建設應按照生命周期有序展開,包括數據需求、數據規(guī)劃、數據采集、數據預處理、數據標注、模型驗證等6個階段。其中,各階段主要按以上順序逐步開展,同時,各階段會對其他階段進行反饋,或者會在其他階段反饋下進行迭代。

數據需求

數據需求階段主要涉及確定人工智能應用所需要數據,即根據特定人工智能應用,明確數據集在數據內容、規(guī)范等方面的需求。數據需求如下:

數據規(guī)范方面,需要對數據規(guī)格的創(chuàng)建要求加以規(guī)定,包括數據格式、統(tǒng)計特性和可分性等;

構建數據集所需的數據質量模型,即實例化一個具有相關數據質量特征(包括但不限于完整性、準確性、一致性)的數據質量模型;

檢查數據集建設中數據的可獲得性,即驗證和確認用于特定人工智能應用的數據是否可獲取得到。


數據規(guī)劃

數據規(guī)劃階段旨在確保所用數據滿足數據需求階段的要求,同時為使用這些數據完成人工智能應用的目標提供支持。數據規(guī)劃要求如下:

設計數據架構,即界定所需數據的全部屬性和范圍,以及如何使用這些數據;

制定質量計劃,即制定涵蓋數據采集、數據預處理、數據標注等階段的數據質量計劃,以滿足數據規(guī)范等方面要求;

預計工作量,即預估獲得和準備數據以支持特定人工智能應用所需的工作量,可能包括任何必要的數據重組、數據傳輸或數據收集的時間,以及為特定人工智能應用構建數據質量模型的時間。


數據采集

數據采集階段主要是收集用于特定人工智能應用的數據,即從數據規(guī)劃階段所確定的數據源收集的實時和歷史數據。數據采集要求如下:

確定數據采集方式,即根據所需數據是否已存在并可直接再利用、是否可轉化現有數據來滿足要求、是否可通過購買或許可獲得數據、是否可以生成數據、是否需要采集新數據等情況,確定是以獲取和組合現有數據集、生成數據(包括但不限于仿真模擬數據、合成數據)、收集數據(包括但不限于傳感器采集、手動輸入)等之中何種方式采集數據;

測試并在必要時改進數據收集方法,即測試數據收集方法,在必要時調整相關配置和參數設置、操作條件、傳感器規(guī)格和安裝位置等,以滿足相關數據收集規(guī)范要求;

進行數據質量度量并在必要時提升數據質量,可能會減少數據使用者的工作量,并針對通過應用不同轉換所收集的數據降低引入下游不一致的風險。


數據預處理

數據預處理如下:

數據轉換,以最小的內容損失,將數據從一種表示或空間轉換為另一種表示或空間;

數據驗證,根據驗證正確性、有意義、安全性、隱私性等數據質量特征,確保數據是正確的;

數據清洗,檢測錯誤數據或缺失數據,并通過替換、修改、輸入或刪除等方式修正數據;

數據聚合,將兩個或多個數據集以匯總的形式合并為一個數據集;

數據抽樣,從數據集中選擇數據,抽樣可以替換或非替換方式進行;

特征創(chuàng)建,創(chuàng)建比原始特征更能有效捕捉數據中主要信息的新特征;

特征選擇,使用可用特征的子集來降低數據的維數;

豐富化,連接各類數據源,并為數據增加額外的上下文語境。


數據標注

數據標注階段主要是針對有監(jiān)督機器學習的,其訓練、驗證和測試數據需要對一個或多個目標變量賦值。數據標注要求如下:

所獲取的數據中不包含目標變量,那么數據標注就是為這些目標變量賦值的過程;

數據標注質量是影響數據質量的一個重要方面,相關組織應該明確數據標注規(guī)范,并對數據標注過程進行監(jiān)測和質量管理。


模型驗證

在模型驗證階段,所準備好的數據被用于特定人工智能模型訓練。在該階段,要對所訓練的人工智能模型進行表現效果評估,以確定數據集是否滿足要求。若數據集未能使所訓練人工智能模型的表現達到預期,可以采取以下步驟。

對于人工智能模型,確定數據集相比于算法,是否為致使模型表現效果未達到預期的根本原因;

在數據創(chuàng)建者與數據持有者之間,對模型驗證階段所發(fā)現的數據質量問題進行溝通,可以將對人工智能模型表現產生不利影響的數據質量問題傳達給數據創(chuàng)建者和數據持有者。數據創(chuàng)建者與數據持有者可使用這些信息來改進上游數據的質量,以使下游數據使用者受益;

重復數據規(guī)劃、數據采集、數據預處理、數據標注等階段以提升數據質量;

重新訓練人工智能模型,對于模型的表現效果進行驗證。

(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢