可免費試用30天
已有30000+人申請
全程“零”編碼,高效實現主數據模型、主數據維護、主數據分發、主數據質量的全過程管理,為企業主數據管理落地提供有效支撐,實現各業務系統間的主數據共享,保障企業主數據的唯一性、準確性、一致性。
覆蓋數據建模、采集、處理、集成、共享、交換、安全脫敏于一體,一站式解決數據開發所有的問題。
統一指標定義,實現“一變多變、一數多現”的數據管理效果,為企業提供強有力的數字化保障和驅動效應。
企業級智能體平臺,低門檻搭建智能體,靈活編排流程,融合 LLM 實現“問數”、“問知識”
面向企業級數據資產交易運營場景,助力企業實現數據資產的價值挖掘、升值和資產變現。
2022-12-22
無論您是購買工具還是決定使用自己的工具,創建主數據都有兩個基本步驟:清理和標準化數據,匹配來自所有源的數據以合并重復數據。在開始清理和規范化數據之前,必須了解主數據的數據模型。作為建模過程的一部分,定義了每個屬性的內容,并定義了從每個源系統到主數據模型的映射。此信息用于定義清理源數據所需的轉換。
清理數據并將其轉換為主數據模型與用于填充數據倉庫的提取、轉換和加載(ETL)過程非常相似。如果您已經定義了ETL工具和轉換,那么根據主數據的需要修改這些工具可能會更容易。以下是一些典型的數據清理函數:
(1)規范化數據格式。讓所有的電話號碼看起來都一樣,將地址(等等)轉換成一種通用格式。
(2)替換丟失的值。插入默認值,從地址中查找郵政編碼,查找街道號碼。
(3)標準化計量單位。將所有測量值轉換為公制,將價格轉換為通用貨幣,將零件號更改為行業標準。
(4)映射屬性。分析聯系人姓名字段中的名字和姓氏,將名字和姓氏移到姓名字段。
大多數工具都會盡可能地清理數據,并將其余的放入錯誤表中進行手工處理。根據匹配工具的工作方式,清理后的數據將放入主表或一系列臨時表中。在清理每個源時,應檢查輸出以確保清理過程正常工作。
匹配主數據記錄以消除重復是創建主數據中最困難也是最重要的一步。錯誤的匹配實際上會丟失數據(例如,兩個Acme公司合并為一個),而丟失的匹配會降低維護公共列表的價值。MDM工具的匹配精度是最重要的采購標準之一。有些數據的匹配很容易做,如果您的所有客戶都有社會保險號碼,或者您的所有產品都使用通用的編號方案,則數據庫聯接將找到大多數匹配項。然而,這在現實世界中幾乎不可能發生,所以匹配算法通常非常復雜和繁瑣。客戶可以在姓名、婚前姓名、昵稱、地址、電話號碼、信用卡號碼等方面進行匹配,而產品則在名稱、描述、零件號、規格和價格方面進行匹配。屬性匹配越多,匹配越緊密,MDM系統在匹配中的可信度就越高。每次匹配都會計算置信因子,如果超過閾值,則記錄匹配。閾值通常根據錯誤匹配的結果進行調整。例如,您可以指定,如果置信度高于95%,則記錄將自動合并,如果置信度介于80%和95%之間,則數據管理員應在合并之前批準匹配。
大多數合并工具都會將一組輸入合并到主列表中,因此最好的過程是使用質量最好的數據開始列表,然后一次合并一個其他源。如果你有很多數據和很多問題,這個過程可能需要很長時間。您可能希望從合并后中獲得最大收益的數據開始;使用該數據運行一個試驗項目,以確保您的流程正常工作,并看到您期望的業務收益;然后在時間和資源允許的情況下,開始添加其他源。這種方法意味著你的項目將花費更長的時間,可能花費更多,但風險更低。這種方法還允許您從一些組織開始,并在項目證明成功時添加更多內容,而不是試圖從一開始就讓每個人都參與進來。
將源數據合并到主列表時要考慮的另一個因素是隱私。當客戶成為customer master的一部分時,其信息可能對任何可以訪問customer master的應用程序可見。如果客戶數據是在將其使用限制為特定應用程序的隱私策略下獲取的,則可能無法將其合并到客戶主數據中。您可能想在MDM計劃團隊中添加一名律師。
此時,如果您的目標是生成主數據列表,那么就完成了。打印出來或燒錄成CD,然后繼續。如果希望在添加和更改數據時保持主數據的最新狀態,則必須開發基礎結構和流程來管理主數據。
現在申請試用億信華辰數據軟件,馬上可獲得:
領導駕駛艙、大屏分析等BI模板
多行業數字化轉型解決方案
海量工具及行業應用學習視頻