
全文共7351個(gè)字,建議閱讀需20分鐘
某君請(qǐng)領(lǐng)導(dǎo)吃飯,領(lǐng)導(dǎo)婉拒。他本想回“好的”。卻回成了“媽的”。結(jié)果,他失業(yè)時(shí)才五十多歲!?
某女給男同事發(fā)微信:“你是同事中最出色的,跟你在一起,真的很開(kāi)心!”因?yàn)椴患?xì)心,少打了個(gè)“出”字。很長(zhǎng)時(shí)間后,還一直在納悶,為啥被拉黑?
以上是兩則笑話,這種笑話很“低級(jí)”,但在我們生活中,因“一字之差”而引起的誤會(huì)、誤解、笑話、甚至風(fēng)波卻時(shí)有發(fā)生。有的“一字之差”是粗心、疏忽導(dǎo)致,有的“一字之差”是對(duì)名詞不理解或沒(méi)理解透的濫用導(dǎo)致。數(shù)據(jù)治理領(lǐng)域中,也有一些概念、名詞術(shù)語(yǔ),常常讓人感到頭痛:“水果蛋糕”和“水果味蛋糕”傻傻分不清!下面談一談我的一些理解。
1?數(shù)據(jù)治理、數(shù)據(jù)管理、數(shù)據(jù)管控
數(shù)據(jù)治理、數(shù)據(jù)管理、數(shù)據(jù)管控這三個(gè)名詞在一定程度上的確是有所重疊的,容易混為一談,所以就造成了在實(shí)際使用中,經(jīng)常將這三個(gè)詞語(yǔ)“混著用”、“隨機(jī)用”的現(xiàn)象。有關(guān)數(shù)據(jù)治理、數(shù)據(jù)管理區(qū)別的討論有很多,有人認(rèn)為數(shù)據(jù)治理是包含在數(shù)據(jù)管理中的,數(shù)據(jù)管理的范圍要更廣,例如:在DAMA-DMBOK中就明確提出數(shù)據(jù)管理包含數(shù)據(jù)治理;也有人認(rèn)為數(shù)據(jù)治理要高于數(shù)據(jù)管理,是企業(yè)頂層上的策略。筆者認(rèn)為以上兩個(gè)觀點(diǎn)都沒(méi)有錯(cuò),如果要用一個(gè)模型來(lái)描述數(shù)據(jù)治理、數(shù)據(jù)管理、數(shù)據(jù)管控這三個(gè)名詞,那應(yīng)該是一個(gè)“金字塔”模型。

最頂層的應(yīng)該是數(shù)據(jù)治理。與“治理”相關(guān),我們還會(huì)經(jīng)常看到、聽(tīng)到國(guó)家治理、公司治理的概念,從某種意義上講,治理是一種自頂向下的策略或活動(dòng)。如果我們將國(guó)家治理說(shuō)成國(guó)家管理,把公司治理說(shuō)成公司管控是不是有點(diǎn)怪怪的?因此,數(shù)據(jù)治理應(yīng)該是企業(yè)頂層設(shè)計(jì)、戰(zhàn)略規(guī)劃方面的內(nèi)容,是數(shù)據(jù)管理活動(dòng)的總綱和指導(dǎo),指明數(shù)據(jù)管理過(guò)程中哪些決策要被制定,以及由“誰(shuí)”來(lái)負(fù)責(zé),更強(qiáng)調(diào)組織模式、職責(zé)分工和標(biāo)準(zhǔn)規(guī)范。數(shù)據(jù)管理是為實(shí)現(xiàn)數(shù)據(jù)和信息資產(chǎn)價(jià)值的獲取、控制、保護(hù)、交付以及提升,對(duì)政策、實(shí)踐和項(xiàng)目所做的計(jì)劃、執(zhí)行和監(jiān)督。這個(gè)是DAMA-DMBOK中關(guān)于數(shù)據(jù)管理的定義。筆者理解數(shù)據(jù)管理是實(shí)現(xiàn)數(shù)據(jù)治理提出的決策并給予反饋,強(qiáng)調(diào)管理流程和制度,涵蓋不同的管理領(lǐng)域,諸如:
元數(shù)據(jù)管理、
主數(shù)據(jù)管理、
數(shù)據(jù)標(biāo)準(zhǔn)管理、
數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)安全管理、數(shù)據(jù)認(rèn)責(zé)管理、數(shù)據(jù)服務(wù)管理等。數(shù)據(jù)管控更多的是執(zhí)行層面,是具體的如何落地執(zhí)行所涉及的各種措施,例如:數(shù)據(jù)建模、數(shù)據(jù)抽取、數(shù)據(jù)處理、數(shù)據(jù)加工、數(shù)據(jù)分析等,數(shù)據(jù)管控是確保數(shù)據(jù)被管理和監(jiān)控,從而讓數(shù)據(jù)得到更好的利用。
因此,數(shù)據(jù)治理強(qiáng)調(diào)頂層的策略,管理是側(cè)重于流程和機(jī)制,管控是具體的措施和手段,三者應(yīng)該是相輔相成的。而如今我們聽(tīng)到的更多的“數(shù)據(jù)治理”這個(gè)詞,似乎只要涉及數(shù)據(jù)管理的,都在說(shuō)自己在搞數(shù)據(jù)治理。出現(xiàn)這個(gè)問(wèn)題,主要是企業(yè)越來(lái)越意識(shí)到傳統(tǒng)IT驅(qū)動(dòng)或者說(shuō)技術(shù)驅(qū)動(dòng)的專(zhuān)項(xiàng)數(shù)據(jù)管理項(xiàng)目,在實(shí)施過(guò)程中很難推進(jìn)、困難重重,并且很難解決業(yè)務(wù)和管理上的用數(shù)難的問(wèn)題。而從戰(zhàn)略、組織入手的數(shù)據(jù)治理頂層設(shè)計(jì),更有利于推動(dòng)數(shù)據(jù)管理目標(biāo)的實(shí)現(xiàn)。
2?元數(shù)據(jù)、數(shù)據(jù)元、數(shù)據(jù)源、源數(shù)據(jù)
元數(shù)據(jù)、數(shù)據(jù)元、數(shù)據(jù)源、源數(shù)據(jù),這幾意思毫不相干卻都帶著一個(gè)“yuan”詞語(yǔ),讓多初學(xué)者抓狂。先說(shuō)數(shù)據(jù)元,數(shù)據(jù)元用一組屬性描述定義、標(biāo)識(shí)、表示和允許值的數(shù)據(jù)單元,由三部分組成:對(duì)象、特性、表示。它是組成實(shí)體數(shù)據(jù)的最小單元,或稱(chēng)原子數(shù)據(jù)、數(shù)據(jù)元素,例如,客戶(hù)聯(lián)系人方式中的聯(lián)系人姓名就是就可以理解為一個(gè)數(shù)據(jù)元素,姓名為數(shù)據(jù)元的對(duì)象,“張三”為數(shù)據(jù)元的值。元數(shù)據(jù)(MateData),官方定義是描述數(shù)據(jù)的數(shù)據(jù),讓數(shù)據(jù)更容易理解、查找、管理和使用。從分類(lèi)上,元數(shù)據(jù)分為了業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)、管理元數(shù)據(jù)。業(yè)務(wù)元數(shù)據(jù),例如:數(shù)據(jù)的定義、業(yè)務(wù)規(guī)則、質(zhì)量規(guī)則等;技術(shù)元數(shù)據(jù):數(shù)據(jù)表、字段長(zhǎng)度,字段編碼、字段類(lèi)型等;管理元數(shù)據(jù):數(shù)據(jù)的存儲(chǔ)位置、管理人員、更新時(shí)間、更新頻率等。
元數(shù)據(jù)是業(yè)界公認(rèn)的數(shù)據(jù)管理中的基礎(chǔ),元數(shù)據(jù)管理提供的功能諸如數(shù)據(jù)地圖、血緣分析、影響分析、全鏈路分析、熱度分析等,讓用戶(hù)更容易的對(duì)數(shù)據(jù)進(jìn)行檢索、定位、管理、評(píng)估。用哲學(xué)的思維理解元數(shù)據(jù)的話,元數(shù)據(jù)其實(shí)解決的是:我是誰(shuí),我在哪里,我從哪里來(lái),我要到哪里去的問(wèn)題。
數(shù)據(jù)是物料,而元數(shù)據(jù)是倉(cāng)庫(kù)里的物料卡片;
數(shù)據(jù)是文件夾,而元數(shù)據(jù)是夾子上的標(biāo)簽;
數(shù)據(jù)是書(shū),元數(shù)據(jù)是圖書(shū)館中的圖書(shū)卡。
數(shù)據(jù)源(Data Source),顧名思義就是數(shù)據(jù)的來(lái)源,是提供某種所需要數(shù)據(jù)的器件或原始媒體。在數(shù)據(jù)源中存儲(chǔ)了所有建立數(shù)據(jù)庫(kù)連接的信息,通過(guò)提供正確的數(shù)據(jù)源名稱(chēng),可以找到相應(yīng)的數(shù)據(jù)庫(kù)連接。
10年前我們講數(shù)據(jù)源,更多的是說(shuō)一種數(shù)據(jù)連接的技術(shù),比如:JDBC、ODBC,或者是指數(shù)據(jù)庫(kù)的類(lèi)型,比如:結(jié)構(gòu)化數(shù)據(jù)庫(kù)、非結(jié)構(gòu)化數(shù)據(jù)庫(kù)。而大數(shù)據(jù)時(shí)代,數(shù)據(jù)呈多樣化發(fā)展,數(shù)據(jù)來(lái)源的多樣化是時(shí)代的一個(gè)特征。我們現(xiàn)在提到的數(shù)據(jù)源,除了上述的含義之外,還涉及到圖數(shù)據(jù)源、時(shí)序數(shù)據(jù)源、鍵值數(shù)據(jù)源、內(nèi)存數(shù)據(jù)源、文檔數(shù)據(jù)源等。每一種數(shù)據(jù)源不同,其數(shù)據(jù)的存儲(chǔ)、傳輸、處理和應(yīng)用的模式、場(chǎng)景、技術(shù)和工具也不相同。
源數(shù)據(jù)(Source Data),注意:這個(gè)詞與數(shù)據(jù)源(Data Source)只是詞語(yǔ)換了一個(gè)順序,但是它們代表的含義卻是大相徑庭了。數(shù)據(jù)源本質(zhì)是講存儲(chǔ)或處理數(shù)據(jù)的媒介,而源數(shù)據(jù)本質(zhì)是在講“數(shù)據(jù)”本身,強(qiáng)調(diào)數(shù)據(jù)狀態(tài)是“創(chuàng)建”之后的“原始狀態(tài)”,也就是沒(méi)有被加工處理的數(shù)據(jù)。在數(shù)據(jù)管理的過(guò)程中,源數(shù)據(jù)一般是指直接來(lái)自源文件(業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)、線下文件、IoT等)的數(shù)據(jù),或者直接拷貝源文件的“副本數(shù)據(jù)”。
“問(wèn)渠哪得清如許,為有源頭活水來(lái)”!數(shù)據(jù)治理的核心還是要從數(shù)據(jù)源抓起,以確保源數(shù)據(jù)的標(biāo)準(zhǔn)、準(zhǔn)確、完整、真實(shí)。這是筆者對(duì)于數(shù)據(jù)治理一直堅(jiān)持和提倡的觀點(diǎn)。
3?主數(shù)據(jù)、基礎(chǔ)數(shù)據(jù)、靜態(tài)數(shù)據(jù)
關(guān)于主數(shù)據(jù)以及主數(shù)據(jù)治理所涉及的概念、方法、體系、技術(shù)在我的系列文章中已經(jīng)講了很多了,需要系統(tǒng)的看主數(shù)據(jù)相關(guān)文章的話,可以在【談數(shù)據(jù)】公眾號(hào)的歷史文章中查找。為了方便與基礎(chǔ)數(shù)據(jù)、靜態(tài)數(shù)據(jù)比較,我還是對(duì)其概念的理解重新說(shuō)下。主數(shù)據(jù)是企業(yè)中需要在多個(gè)部門(mén)或系統(tǒng)之間共享的,核心的、高價(jià)值且相對(duì)靜態(tài)的數(shù)據(jù)。主數(shù)據(jù)是企業(yè)信息系統(tǒng)建設(shè)和大數(shù)據(jù)分析的基礎(chǔ),被認(rèn)為是企業(yè)數(shù)字化轉(zhuǎn)型的基石和企業(yè)中的黃金數(shù)據(jù)。有關(guān)主數(shù)據(jù)的三大特性(即高價(jià)值性、高共享性、相對(duì)穩(wěn)定性)和四個(gè)超越(即超越業(yè)務(wù),超越部門(mén)、超越系統(tǒng)、超越技術(shù))的詳細(xì)解讀,請(qǐng)參考《主數(shù)據(jù)的3個(gè)特點(diǎn)、4個(gè)超越和3個(gè)二八原則》。基礎(chǔ)數(shù)據(jù),業(yè)界還沒(méi)有一個(gè)標(biāo)準(zhǔn)的定義。但在很多信息化項(xiàng)目中,基礎(chǔ)數(shù)據(jù)這個(gè)概念都會(huì)被提及和使用。同時(shí),常常會(huì)有客戶(hù)對(duì)基礎(chǔ)數(shù)據(jù)和主數(shù)據(jù)概念混淆。我理解的基礎(chǔ)數(shù)據(jù)是信息系統(tǒng)運(yùn)行的基礎(chǔ),用來(lái)支撐信息系統(tǒng)運(yùn)行的各種數(shù)據(jù)和參數(shù),以及業(yè)務(wù)交易所依賴(lài)的基礎(chǔ)信息。而主數(shù)據(jù)是被多個(gè)系統(tǒng)共享的基礎(chǔ)數(shù)據(jù)。因此,我理解的主數(shù)據(jù)可以是基礎(chǔ)數(shù)據(jù)的一部分,但基礎(chǔ)數(shù)據(jù)絕對(duì)不等于主數(shù)據(jù)。
靜態(tài)數(shù)據(jù)也是一個(gè)使用比較廣泛的詞語(yǔ)并且是經(jīng)常與基礎(chǔ)數(shù)據(jù)“隨機(jī)”來(lái)用的。靜態(tài)數(shù)據(jù)是指在運(yùn)行過(guò)程中主要作為控制或參考用的數(shù)據(jù),它們?cè)诤荛L(zhǎng)的一段時(shí)間內(nèi)不會(huì)變化,一般不隨運(yùn)行而變。例如:客戶(hù)的名稱(chēng)、員工的姓名、系統(tǒng)的參數(shù)。動(dòng)態(tài)數(shù)據(jù)是常常變化,直接反映事務(wù)過(guò)程的數(shù)據(jù),比如,網(wǎng)站訪問(wèn)量、在線人數(shù)、日銷(xiāo)售額等等。因此,筆者認(rèn)為將靜態(tài)數(shù)據(jù)作為基礎(chǔ)數(shù)據(jù),將動(dòng)態(tài)數(shù)據(jù)作為業(yè)務(wù)數(shù)據(jù)(交易數(shù)據(jù))用是沒(méi)有問(wèn)題的。只要是使用的人之間達(dá)成共同的認(rèn)知即可。
4?數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)規(guī)范
提到“數(shù)據(jù)標(biāo)準(zhǔn)”,可能大多數(shù)人第一時(shí)間想到的是一系列的標(biāo)準(zhǔn)化文檔,例如:產(chǎn)品設(shè)計(jì)標(biāo)準(zhǔn)、生產(chǎn)標(biāo)準(zhǔn)、質(zhì)量檢驗(yàn)標(biāo)準(zhǔn)、庫(kù)房管理標(biāo)準(zhǔn)、安全環(huán)保標(biāo)準(zhǔn)、物流配送標(biāo)準(zhǔn)等。事實(shí)上,數(shù)據(jù)標(biāo)準(zhǔn)不應(yīng)該只是停留在文件層面的內(nèi)容,更多的是要為業(yè)務(wù)的運(yùn)行和管理決策提供基礎(chǔ)保障。在信通院發(fā)布的《2019數(shù)據(jù)標(biāo)準(zhǔn)管理實(shí)踐白皮書(shū)》中對(duì)數(shù)據(jù)標(biāo)準(zhǔn)給出了如下定義:“數(shù)據(jù)標(biāo)準(zhǔn)(Data Standards)是指保障數(shù)據(jù)的內(nèi)外部使用和交換的一致性和準(zhǔn)確性的規(guī)范性約束”。這么講,可能比較難以理解。筆者理解數(shù)據(jù)標(biāo)準(zhǔn)是注重結(jié)果而數(shù)據(jù)規(guī)范是定義過(guò)程。數(shù)據(jù)標(biāo)準(zhǔn)是數(shù)據(jù)明確的定義,明確的數(shù)據(jù)分類(lèi)、確定的存儲(chǔ)格式和既定規(guī)則的轉(zhuǎn)換、編碼等。數(shù)據(jù)標(biāo)準(zhǔn)側(cè)重于強(qiáng)調(diào)對(duì)數(shù)據(jù)本身的標(biāo)準(zhǔn)化,諸如:數(shù)據(jù)的定義、結(jié)構(gòu)、存儲(chǔ)等,注重的是結(jié)果。而數(shù)據(jù)規(guī)范是指在操作層面采取的措施、循序的規(guī)則和執(zhí)行的流程,側(cè)重于強(qiáng)調(diào)流程和操作——如何實(shí)現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)化,更注重過(guò)程。
在實(shí)際工作中,我們經(jīng)常會(huì)說(shuō)建設(shè)“數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范體系”,大多數(shù)人認(rèn)為這是一個(gè)事情,但嚴(yán)格來(lái)講,這是兩件事:一是建設(shè)數(shù)據(jù)標(biāo)準(zhǔn),二是要規(guī)范數(shù)據(jù)標(biāo)準(zhǔn)的落地的流程以及流程所涉及到的人員、組織、權(quán)限等問(wèn)題。
5?數(shù)據(jù)目錄、數(shù)據(jù)分類(lèi)、數(shù)據(jù)標(biāo)簽
數(shù)據(jù)資源目錄,最早是政務(wù)領(lǐng)域提出的概念,是為了“數(shù)據(jù)需求方使用數(shù)據(jù)而提供的檢索支持”。數(shù)據(jù)資源目錄的原始驅(qū)動(dòng)力是“政務(wù)數(shù)據(jù)資源共享”,是面向數(shù)據(jù)使用者的。工程實(shí)踐落地,是從2005年國(guó)家政務(wù)數(shù)據(jù)交換、目錄體系、四大庫(kù)試點(diǎn)開(kāi)始的,并在2007年正式發(fā)布國(guó)標(biāo):《GB/T 21063-2007 政務(wù)信息資源目錄體系》。政務(wù)數(shù)據(jù)資源目錄是通過(guò)對(duì)政務(wù)信息資源依據(jù)規(guī)范的元數(shù)據(jù)描述,按照一定的分類(lèi)方法進(jìn)行排序和編碼的一組信息,用以描述各個(gè)政務(wù)信息資源的特征,以便于對(duì)政務(wù)信息資源的檢索、定位與獲取。2007年的國(guó)標(biāo)給出的標(biāo)準(zhǔn)定義,站在現(xiàn)在政務(wù)數(shù)據(jù)治理的高度來(lái)看,原來(lái)的“目錄體系”建設(shè),僅僅是個(gè)工具而已,已經(jīng)很單薄了,當(dāng)前的“數(shù)據(jù)資源目錄”,實(shí)際上可以和“數(shù)據(jù)資產(chǎn)管理”和“數(shù)據(jù)服務(wù)”結(jié)合在一起,才能有更好的發(fā)展前景。數(shù)據(jù)分類(lèi)就是把具有某種共同屬性或特征的數(shù)據(jù)歸并在一起,通過(guò)其類(lèi)別的屬性或特征來(lái)對(duì)數(shù)據(jù)進(jìn)行區(qū)別。換句話說(shuō),就是相同內(nèi)容、相同性質(zhì)的信息以及要求統(tǒng)一管理的信息集合在一起,而把相異的和需要分別管理的信息區(qū)分開(kāi)來(lái),然后確定各個(gè)集合之間的關(guān)系,形成一個(gè)有條理的分類(lèi)系統(tǒng)。——百度百科數(shù)據(jù)標(biāo)簽是對(duì)數(shù)據(jù)實(shí)體特征的符號(hào)表示,每一個(gè)數(shù)據(jù)標(biāo)簽都是我們認(rèn)識(shí)、觀察和描述數(shù)據(jù)實(shí)體的一個(gè)角度。商品有標(biāo)簽,例如衣服的標(biāo)簽中包含了衣服的款式、尺碼、面料、清洗方式等信息。人也有標(biāo)簽,例如人的性別、年齡、地區(qū)、興趣愛(ài)好、產(chǎn)品偏好、購(gòu)買(mǎi)力、忠誠(chéng)度等。數(shù)據(jù)標(biāo)簽也是可以分類(lèi)的,例如:可以按變化頻率可分為動(dòng)態(tài)標(biāo)簽、靜態(tài)標(biāo)簽;按評(píng)估的方式不同,分為定量指標(biāo)和定性指標(biāo);按來(lái)源不同,分為基礎(chǔ)標(biāo)簽、業(yè)務(wù)標(biāo)簽、智能標(biāo)簽等。有關(guān)數(shù)據(jù)標(biāo)簽的分類(lèi),我的一篇《數(shù)據(jù)中臺(tái):基于標(biāo)簽體系的360°用戶(hù)畫(huà)像》文章中,有較為詳細(xì)的說(shuō)明,有興趣可看下。
在實(shí)際的數(shù)據(jù)資產(chǎn)管理中,數(shù)據(jù)資源目錄、數(shù)據(jù)分類(lèi)、數(shù)據(jù)標(biāo)簽是相互配合、相輔相成的。建立良好的數(shù)據(jù)資源目錄的第一步就是明確數(shù)據(jù)資源的分類(lèi),根據(jù)數(shù)據(jù)分類(lèi)去組織資源、編目,之后是為數(shù)據(jù)資源打上數(shù)據(jù)標(biāo)簽,讓數(shù)據(jù)資源更貼近用戶(hù)、更容易管理,以便充分發(fā)揮出數(shù)據(jù)的價(jià)值。
6?數(shù)據(jù)模型、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)字典
數(shù)據(jù)(Data)是描述事物的符號(hào)記錄,模型(Model)是現(xiàn)實(shí)世界的抽象,數(shù)據(jù)模型(Data Model)是數(shù)據(jù)特征的抽象和描述。專(zhuān)業(yè)的術(shù)語(yǔ)總是抽象的,我們舉個(gè)例子,假如你去買(mǎi)房子,就會(huì)看到兩個(gè)模型,一個(gè)是樓盤(pán)模型,另一個(gè)是戶(hù)型模型(戶(hù)型圖)。樓盤(pán)模型描述了樓盤(pán)規(guī)劃、小區(qū)位置、小區(qū)綠化、交通條件、周邊的配套設(shè)施(幼兒園、學(xué)校、醫(yī)院等)、未來(lái)樓盤(pán)發(fā)展等等。戶(hù)型模型描述了房子有幾室?guī)讖d、幾個(gè)陽(yáng)臺(tái),哪里是門(mén),哪里是墻,哪里是窗戶(hù),每個(gè)房間的平米數(shù)是多少,甚至是屋子里的布局全部都用各種符號(hào)表示得清清楚楚。就如樓盤(pán)模型描述樓盤(pán),戶(hù)型模型描述房子一樣,數(shù)據(jù)模型是用來(lái)描述數(shù)據(jù)的一組簡(jiǎn)單易懂便于計(jì)算機(jī)實(shí)現(xiàn)的符號(hào)的集合。再說(shuō)數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)結(jié)構(gòu)是指相互之間存在一種或多種特定關(guān)系的數(shù)據(jù)元素的集合。一般認(rèn)為數(shù)據(jù)結(jié)構(gòu)是構(gòu)成數(shù)據(jù)模型的三個(gè)要素之一。數(shù)據(jù)模型一般會(huì)分為概念模型、邏輯模型、物理模型,而數(shù)據(jù)的邏輯結(jié)構(gòu)、物理結(jié)構(gòu)是與邏輯模型、物理模型對(duì)應(yīng)的。邏輯結(jié)構(gòu)反映數(shù)據(jù)元素之間的數(shù)據(jù)關(guān)系,包含數(shù)據(jù)元素的層次關(guān)系、關(guān)聯(lián)關(guān)系,不包含數(shù)據(jù)在計(jì)算機(jī)中的存儲(chǔ)位置;數(shù)據(jù)的物理結(jié)構(gòu)是指數(shù)據(jù)的邏輯結(jié)構(gòu)在計(jì)算機(jī)存儲(chǔ)空間的存放形式。如果還拿房子舉例的話,我認(rèn)為說(shuō)戶(hù)型模型或者戶(hù)型結(jié)構(gòu)都是沒(méi)有問(wèn)題的。數(shù)據(jù)字典是指對(duì)數(shù)據(jù)的數(shù)據(jù)項(xiàng)、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)流、數(shù)據(jù)存儲(chǔ)、處理邏輯、外部實(shí)體等進(jìn)行定義和描述,這個(gè)是數(shù)據(jù)字典的標(biāo)準(zhǔn)定義。但是,目前的實(shí)際使用中對(duì)數(shù)據(jù)字典有兩種不同的說(shuō)法或用法。一種說(shuō)法是:在軟件工程中,數(shù)據(jù)字典是作為分析階段的工具,供人查詢(xún)對(duì)不了解的條目的解釋?zhuān)纾好枋瞿硞€(gè)數(shù)據(jù)表中都包含了哪些數(shù)據(jù)項(xiàng),某個(gè)數(shù)據(jù)項(xiàng)的業(yè)務(wù)含義是什么等。另外一個(gè)說(shuō)法是:對(duì)基礎(chǔ)數(shù)據(jù)參照的管理,我們還拿房子舉例,一個(gè)房子的數(shù)據(jù)字典,包括,房屋的朝向:東,南,西,北,東西,南北等;房屋的戶(hù)型:兩室一廳,三室一廳,兩室二廳,三室兩廳等;房屋的性質(zhì):經(jīng)濟(jì)適用房,房改房,商品房等。如果按第一種說(shuō)法理解數(shù)據(jù)字典,其實(shí)本質(zhì)上和數(shù)據(jù)模型沒(méi)有什么區(qū)別,只是叫法不同而已。如果按第二種說(shuō)法理解,似乎叫參照數(shù)據(jù)管理也沒(méi)什么不妥。到底該怎么理解?這可能就“仁者見(jiàn)仁智者見(jiàn)智”了。
7?數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖、數(shù)據(jù)工廠、數(shù)據(jù)中臺(tái)
數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse)是一個(gè)面向主題的、集成的、相對(duì)穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理決策和信息的全局共享。所謂面向主題,是指根據(jù)使用者實(shí)際需求,將不同數(shù)據(jù)源的數(shù)據(jù)在一個(gè)較高的抽象層次上做整合,所有數(shù)據(jù)都圍繞某一主題來(lái)組織,例如:采購(gòu)主題、生產(chǎn)主題、客戶(hù)主題、銷(xiāo)售主題等。所謂集成性,是指數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)的數(shù)據(jù)是來(lái)源于多個(gè)數(shù)據(jù)源的集成、匯總。由于原始數(shù)據(jù)來(lái)自不同的數(shù)據(jù)源,存儲(chǔ)方式各不相同。要整合成為最終的數(shù)據(jù)集合,需要從數(shù)據(jù)源經(jīng)過(guò)一系列抽取、清洗、轉(zhuǎn)換的過(guò)程。所謂相對(duì)穩(wěn)定,是指數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)的數(shù)據(jù)一般為“既成事實(shí)”的數(shù)據(jù),也可理解為歷史數(shù)據(jù)的一個(gè)快照,只做查詢(xún)分析用,不允許修改。所謂反映歷史變化,是指數(shù)據(jù)倉(cāng)庫(kù)根據(jù)不斷集成新的主題數(shù)據(jù),反應(yīng)出該主題的數(shù)據(jù)變化情況,例如:銷(xiāo)售業(yè)績(jī)完成情況。數(shù)據(jù)湖是將來(lái)自不同數(shù)據(jù)源、不同數(shù)據(jù)類(lèi)型(結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化)的數(shù)據(jù),以原始格式存儲(chǔ)進(jìn)行存儲(chǔ)的系統(tǒng),它按原樣存儲(chǔ)數(shù)據(jù),而無(wú)需事先對(duì)數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理。有人認(rèn)為數(shù)據(jù)湖是數(shù)據(jù)倉(cāng)庫(kù)的PLUS版,增強(qiáng)了數(shù)據(jù)存儲(chǔ)的能力。而實(shí)際上,數(shù)據(jù)湖不簡(jiǎn)單是數(shù)據(jù)倉(cāng)庫(kù)一個(gè)技術(shù)上的升級(jí),更重要的是數(shù)據(jù)管理思維的升級(jí)。數(shù)據(jù)倉(cāng)庫(kù)是需要事先定義好數(shù)據(jù)結(jié)構(gòu),然后是報(bào)表取數(shù)。而大數(shù)據(jù)的發(fā)展,數(shù)據(jù)形式越發(fā)多樣化,傳統(tǒng)數(shù)倉(cāng)這種定義數(shù)據(jù)結(jié)構(gòu)、取數(shù)、出表的模式,已經(jīng)很難滿足業(yè)務(wù)上的需求了。因此,數(shù)據(jù)湖以原始格式存儲(chǔ)各種類(lèi)型數(shù)據(jù),以及按需進(jìn)行數(shù)據(jù)結(jié)構(gòu)化處理、數(shù)據(jù)清理、提供數(shù)據(jù)服務(wù),以更加靈活的方式支持多種應(yīng)用場(chǎng)景的能力越來(lái)越受到人們的歡迎。再來(lái)說(shuō)說(shuō)這個(gè)數(shù)據(jù)工廠。前邊提到的數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖,重點(diǎn)側(cè)重于數(shù)據(jù)的存儲(chǔ),本質(zhì)上是“原材料”的存儲(chǔ)系統(tǒng),而要讓數(shù)據(jù)發(fā)揮價(jià)值,就必須將這個(gè)“原材料”需要加工成用戶(hù)需要的“產(chǎn)品”。
數(shù)據(jù)工廠就是根據(jù)用戶(hù)的需求,將原始數(shù)據(jù)進(jìn)行加工、處理、清洗、轉(zhuǎn)換、匯總等各種加工工序,生產(chǎn)出能夠被用戶(hù)直接使用的數(shù)據(jù)產(chǎn)品。數(shù)據(jù)工廠包含了多種數(shù)據(jù)處理的工具,以滿足不同處理工序的作業(yè)需要,例如:數(shù)據(jù)源連接、數(shù)據(jù)同步、
數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)工作流、數(shù)據(jù)目錄、數(shù)據(jù)服務(wù)等等。最后,再說(shuō)說(shuō)數(shù)據(jù)中臺(tái),盡管之前的文章已經(jīng)說(shuō)過(guò)很多次了。其實(shí),如果從功能構(gòu)件上來(lái)講,我認(rèn)為:數(shù)據(jù)中臺(tái)就是數(shù)據(jù)湖+數(shù)據(jù)工廠的一個(gè)綜合。但不同的是數(shù)據(jù)中臺(tái)更注重
數(shù)據(jù)應(yīng)用,離業(yè)務(wù)更近,強(qiáng)調(diào)
快速敏捷。數(shù)據(jù)中臺(tái)不僅關(guān)注原始數(shù)據(jù)的存儲(chǔ)及處理加工,更側(cè)重將數(shù)據(jù)處理過(guò)程中,常用的邏輯、算法、標(biāo)簽、模型進(jìn)行沉淀,而形成一系列的“數(shù)據(jù)半成品”,然后根據(jù)前臺(tái)業(yè)務(wù)的需要,快速生產(chǎn)出用戶(hù)需要的“數(shù)據(jù)產(chǎn)品”。數(shù)據(jù)中臺(tái)能力強(qiáng)弱,要看這個(gè)“數(shù)據(jù)半成品”積累的多少了。
在數(shù)據(jù)生產(chǎn)的整個(gè)鏈條中,對(duì)于如何筑湖、如何選址建廠、按什么工序加工、以及如何配送,這是技術(shù)部門(mén)的事情,而“數(shù)據(jù)半成品”的沉淀和積累,卻不是技術(shù)能決定的了。因此,數(shù)據(jù)中臺(tái)的建設(shè)更強(qiáng)調(diào)需求驅(qū)動(dòng)、業(yè)務(wù)主導(dǎo)。
8?數(shù)據(jù)指標(biāo)、數(shù)據(jù)維度、數(shù)據(jù)度量
數(shù)據(jù)治理的目標(biāo)是讓數(shù)據(jù)更好的使用,而數(shù)據(jù)的應(yīng)用和分析的過(guò)程就不得不理一下:數(shù)據(jù)指標(biāo)、數(shù)據(jù)維度、數(shù)據(jù)度量這幾個(gè)概念了。數(shù)據(jù)指標(biāo)是用數(shù)據(jù)表示,用來(lái)衡量對(duì)象目標(biāo)的參數(shù)或預(yù)期中打算達(dá)到的指數(shù)、規(guī)格、標(biāo)準(zhǔn),是具有(業(yè)務(wù))意義的指向和標(biāo)桿。數(shù)據(jù)指標(biāo)分為基礎(chǔ)指標(biāo)和衍生指標(biāo),基礎(chǔ)指標(biāo)是指表達(dá)業(yè)務(wù)實(shí)體原子量化屬性的且不可再分的指標(biāo),如交易筆數(shù)、交易金額、在線用戶(hù)數(shù)等;衍生指標(biāo)是在基礎(chǔ)指標(biāo)的基礎(chǔ)上,通過(guò)添加一個(gè)或多個(gè)統(tǒng)計(jì)維度形成新的指標(biāo)、或通過(guò)不同指標(biāo)進(jìn)行運(yùn)算而形成新的指標(biāo),如平均購(gòu)買(mǎi)金額、生產(chǎn)計(jì)劃完成值,累計(jì)問(wèn)題數(shù)、同比、環(huán)比、占比等。關(guān)于“維度”網(wǎng)上很多人給出的定義是這樣的:“維度可指定不同值的對(duì)象的描述性屬性或特征”。不知道大家能不能看懂,如果只看這段文字,我是一臉懵逼的。我理解的維度就是觀察和分析事物或指標(biāo)不同角度,例如:銷(xiāo)售額這個(gè)指標(biāo),可以按時(shí)間周期(當(dāng)日、周、月、季度、年度)進(jìn)行分析,也可以按照產(chǎn)品類(lèi)型(A產(chǎn)品銷(xiāo)售額、B產(chǎn)品銷(xiāo)售額…)分析,也可以按地理位置(北京銷(xiāo)售額、上海銷(xiāo)售額…)分析,還可以按銷(xiāo)售主體(a部門(mén)銷(xiāo)售額、b部門(mén)銷(xiāo)售額)分析等等。最后說(shuō)下度量。度量是被聚合(觀察)的統(tǒng)計(jì)值,也就是聚合運(yùn)算的結(jié)果,維度其實(shí)可以理解成一種分類(lèi)的方式,或者叫做標(biāo)簽,而度量往往是一個(gè)計(jì)算出來(lái)的數(shù)值。度量可以是指標(biāo)的度量衡也可以是針對(duì)指標(biāo)的某個(gè)維度的度量,例如上邊例子中,銷(xiāo)售額的度量是金額,當(dāng)月銷(xiāo)售金額也是度量。度量、維度、指標(biāo)不是固定的,在一定的應(yīng)用場(chǎng)下度量可以轉(zhuǎn)化為維度,維度也可以轉(zhuǎn)化為指標(biāo)。篇幅問(wèn)題,有關(guān)度量、維度、指標(biāo)的轉(zhuǎn)化這里就不展開(kāi)了。寫(xiě)在最后的話
在筆者之前寫(xiě)的一篇《有關(guān)“數(shù)據(jù)”的一些概念的整理和總結(jié)》中其實(shí)已經(jīng)對(duì)相關(guān)概念進(jìn)行了說(shuō)明,并給出了相應(yīng)的應(yīng)用實(shí)例。可能是由于數(shù)據(jù)治理真的是很火,有很多網(wǎng)友私信我咨詢(xún)相關(guān)問(wèn)題。由于時(shí)間原因無(wú)法一一回答,本篇權(quán)當(dāng)做對(duì)一直關(guān)注“談數(shù)據(jù)”并陪伴我一起成長(zhǎng)的各位伙伴的一個(gè)統(tǒng)一的回復(fù),希望能夠?qū)δ兴鶈l(fā)而不是誤導(dǎo)。同時(shí),也是針對(duì)上一篇文章的一個(gè)完善和補(bǔ)充吧,如有不足、偏頗,請(qǐng)?jiān)诹粞詤^(qū)留言指正。談數(shù)據(jù)?拜上!
部分內(nèi)容參考:畢馬威《KPMG大數(shù)據(jù)挖掘》
(部分內(nèi)容來(lái)源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)