日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

數據中臺-標簽建設-標簽層設計

時間:2022-10-17來源:我不難過瀏覽數:907

前言

中臺:貼源?- 數倉 - 標簽 - 應用

標簽層對象-標識-標簽層次-標簽設計-標簽匯集表

標簽設計

通過標簽類目設計,已經有了某類對象的標簽體系框架,只是還沒有具體的標簽內容。標簽設計就是設計合適的標簽并將其掛載到標簽類目。

前面介紹標簽按照產生和計算方式的不同可以分為屬性標簽、統計標簽、算法標簽,每一類標簽深挖下去,都可以有無數個。這里探討什么樣的標簽才是需要的、有什么原則以及注意事項。

標簽本質上是一種對客觀世界中實體對象的度量或描述,是經過縝密的邏輯分析和處理后的產物,用以引導發揮數據應用價值。數據必須轉化成能幫助業務提升的標簽才具有價值,否則就是數據負累。因此大數據業內一直嘗試探索的最核心環節就是數據的商業變現,或者叫數據到商機價值之間的橋梁通道建設。

標簽即業務需求的數據呈現,商業價值核心承載在標簽上,再配以相應的工程化能力,將標簽快速、穩定、便捷地輸送到業務以供使用,即完成了數據服務過程。

將數據提煉轉化為標簽的過程就叫標簽化,也就是標簽設計過程。一個好的標簽設計,等于已經完成了好的數據服務50%的工作,標簽設計考驗的是理解、抽象、提煉、提升業務場景的數據能力。標簽設計要充分考慮兩大前提條件。

1)標簽必須是業務上需要的,能體現業務價值,幫助業務人員做出業務判斷或者能創造性的地喚醒新業務場景的數據項,在業務中往往會稱其為屬性、特征、指標、參數等。

2)必須要探查清楚根據業務需求提煉、整理出的標簽是否具有數據可行性,是否有原始數據可以用于加工成標簽,不能天馬行空,沒有落地點。

在分析業務需求,設計出初始業務所需標簽的基礎上,要進行數據可行性分析,剔除沒有數據支撐的標簽,這是一個篩減調整的過程。數據可行性的判斷需要了解數據源有哪些,了解數據普查信息及數據字典信息,充分利用數據設計豐富的標簽以保障標簽的落地可行性。更多:用戶畫像-標簽體系(dwt層)

了解了標簽設計的兩個前提條件,就可以著手設計滿足條件的標簽了。標簽的設計是業務需求與經驗結合的結晶,是一個漫長的持續迭代的過程,沒有一個具體的步驟可以快速構建。

提到標簽,有一些容易混淆的概念,比如標簽類目和標簽、標簽與標簽值。標簽設計的內容不僅包括標簽名,還要有歸屬標簽類目、計算邏輯、取值范圍、安全等級等。

另外標簽設計也有一些必須關注的事項。厘清標簽設計容易混淆的一些概念、設計所包含的內容及注意事項,有助于設計出更規范化、體系化、可擴展的標簽體系。

1.標簽根目錄、標簽類目、標簽和標簽值

標簽根目錄指的是標簽的對象,往往是一種較為模糊、寬泛、簡單的名詞或動詞,例如購房者、旅游酒店、報修。按照之前提到的大數據思維,世上的一切事物都可以歸類為人、物、場景三類對象,因此一個用來指向某個對象的詞(名詞指向人、物,動詞指向場景)都不應該是標簽,往往是根目錄。在物理層面可以和某張大寬表中的主鍵對應,這張大寬表是對該主鍵對象的詳細刻畫和數據記錄。

對對象的拆分及對象的角度、層面或過程,一般是類目,例如基本信息、地理位置、社交關系、功能效用、從屬關系、準備、過程、結果等,也往往由名詞構成。在物理層面可以和某張具體表對應,多張這樣的具體表按照共同的主鍵關聯在一起就可以形成該主鍵對象的大寬表。對對象具體屬性、特征、信息、內容的字段級刻畫,是標簽,例如購房者姓名、購房者電話、旅游酒店地址、報修工單號、報修時間,往往由前后兩個名詞構成,前一次名詞作為定語修飾后一個名詞。

在物理層面可以和某張具體表中的字段對應,因此最近1天報修工單量、最近3天報修工單量、最近7天報修工單量,這些時間維度不同、統計方式和統計對象相同的標簽,屬于3個標簽,因為它的底層由3個字段一一對應。對對象屬性、特征、信息、內容的具體取值,是標簽值,例如張三、李四是購房者名稱這個標簽的標簽值,男、女是性別這個標簽的標簽值,往往由形容詞、名詞、數字組成。在物理層面可以和某張具體表中的字段值字典對應,標簽值有些是可枚舉的離散值,有些是不可枚舉的連續值。

要特別注意的是,往常習慣給別人打標簽、貼標簽的動作,其實不是在設計標簽,而是在設計標簽值。例如對某個人的定義“女、20~30歲、白領、活潑開朗”,分別是性別、年齡段、職業、性格標簽的具體標簽值。

在標簽設計實際過程中,經常會碰到的問題是,同一個標簽是否能夠多掛,即一個標簽是否會屬于多個葉子類目。

在標簽體系方法論中,沒有嚴格規定允許還是不允許多掛,方法論的最核心思維是必須結合企業自身需要來設計組織標簽類目體系。因此一家企業如果按照自身需要用嚴格不冗余的做法來組織安排標簽分類的話,就不能多掛。如果企業沒有嚴格要求,為了最大限度幫助業務同事用數據的方式理解事物,或在所需場景中找到所需數據,或根據現有數據激發新場景思考設計,則在必要時可以多掛,但這并不意味著所有可以多掛的標簽都要多掛,因為那樣會引起冗余問題。

一般情況下,如果是個別標簽具備多種類目歸屬,是可以多掛的;但是如果是一整片大批量標簽都有多重屬性,建議單獨成立一個類目。總而言之,視企業具體情況而定,做好平衡即可。

2.標簽設計內容

標簽的標簽,即元標簽的設計內容主要包括標簽類目、標簽名、標簽加工類型、標簽邏輯、值字典、取值類型、示例、更新周期、安全等級、表名、字段名、負責人、完成時間等。其中“標簽類目、標簽名、標簽加工類型、標簽邏輯、值字典、取值類型、示例、更新周期、安全等級”偏向業務方向,主要登記與業務所需相關的指標;“表名、字段名、負責人、完成時間”偏向技術方向,主要登記的技術開發實施過程相關的指標。

3.標簽設計注意事項

1)某具體對象某標簽的標簽值,只允許有一條記錄,即對應在數據表里,是一個字段取值。例如人的某個標簽的標簽值,在用戶表里就一個值一條記錄,不存在多條記錄,人有“性別”這個標簽,每個人的“性別”取值就一個,要么男,要么女,要么未知,不存在男、女兩條取值記錄。

性別標簽容易理解,再舉一個復雜一些的例子——“同住時長”標簽。該標簽可能是人的標簽,也有可能是同住關系的標簽。如果“同住時長”是人的標簽,那么標簽取值類型應該是K-V型,記錄的是歷次同住人同住時長,標簽值如“張三:2年;李四:1年”。不允許出現兩條標簽取值的記錄,如“2年”和“1年”,因為標簽和標簽之間是相互獨立的,不存在一個標簽必須依賴另一個標簽才能使用的情況,因此不能說“同住時長”必須和“同住人”標簽聯合起來用。從這里也可以看出標簽處理和SQL處理的區別。當然如果“同住時長”是同住關系的標簽,那么每一次的同住關系記錄,就會有一個“同住時長”的標簽,這時候同住時長可以是數值型的標簽。

2)對于人–物–關系各對象標簽間的轉化,大家可能會認為身份證號、證件號是“用戶”的標簽,但實際上身份證號、證件號是“物”的標簽,要變成“用戶”標簽,需要轉化成“擁有的身份證號”這個標簽。同時,由于一個人可能擁有多個證件(身份證、護照、軍官證、駕駛證等),因此“擁有的各證件號”就需要是K-V型,通過key來識別證件類型,其標簽

值應為“身份證:330110********0001;護照:110*******001”,而不能直接存證件號碼,否則通過“擁有的證件號”取到的號碼數值沒法區分是什么證件的號碼。當然還有一種處理方式是拆成多個標簽,如“擁有的護照號”“擁有的軍官證號”“擁有的駕駛證號”。

從以上實例中可以發現,不管是物的標簽還是關系的標簽,都可以按需轉化成人的標簽,同理也可以實現其他對象類型間的標簽轉化。經過以上原則方法,可以設計出符合企業業務需要的標簽體系。

由于企業的業務在不斷變化,數據在不斷變化,業務對標簽的訴求以及標簽的加工方式也在不斷變化。所以標簽體系建設不是一蹴而就的,而應是一個動態調整的過程。不斷更新迭代標簽體系,才能更好地支撐業務,更能體現數據價值


(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢