日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數(shù)據(jù)治理平臺

睿治作為國內(nèi)功能最全的數(shù)據(jù)治理產(chǎn)品之一,入選IDC企業(yè)數(shù)據(jù)治理實施部署指南。同時,在IDC發(fā)布的《中國數(shù)據(jù)治理市場份額》報告中,連續(xù)四年蟬聯(lián)數(shù)據(jù)治理解決方案市場份額第一。

數(shù)據(jù)中臺的底層架構(gòu)

時間:2023-08-08來源:空青瀏覽數(shù):338

數(shù)據(jù)中臺到底是什么,幾年過去了,也一直眾說紛紜。筆者認為數(shù)據(jù)中臺不應該是一個單純的系統(tǒng)或者是一個軟件工具,而應該是一套架構(gòu)、一套數(shù)據(jù)流轉(zhuǎn)模式。數(shù)據(jù)中臺需要采集數(shù)據(jù)作為原材料進行數(shù)據(jù)加工、數(shù)據(jù)建模,然后分門別類地儲存,再根據(jù)實際的業(yè) 務場景,打造各類數(shù)據(jù)服務(含數(shù)據(jù)應用平臺)從而實現(xiàn)對業(yè)務的賦能加速。但以上流程的實現(xiàn),需要有對應的系統(tǒng)與產(chǎn)品作為支撐,那么基礎(chǔ)的數(shù)據(jù)中臺到底應該由哪些系統(tǒng)或者產(chǎn)品組成?這里我們可以先來看一下幾個企業(yè)的數(shù)據(jù)中臺架構(gòu)。

可以看出,雖然每個企業(yè)由于自身業(yè)務的不同,衍生出來的數(shù)據(jù)中臺體系都有所不同,但大的架構(gòu)方面是基本統(tǒng)一的,都需要通過一個“數(shù)據(jù)采集接入”-“加工存儲”-“統(tǒng)一管理”-“服務應用”的階段。這里筆者認為《數(shù)據(jù)中臺產(chǎn)品經(jīng)理:從數(shù)據(jù)體系到數(shù)據(jù)平臺實戰(zhàn)》一書中總結(jié)的數(shù)據(jù)中臺架構(gòu)是比較具有普適性的, 不論是互聯(lián)網(wǎng)行業(yè)、還是傳統(tǒng)行業(yè),都可以在該架構(gòu)上進行改造,設(shè)計建設(shè)自己的中臺架構(gòu)。總體來說數(shù)據(jù)中臺的功能架構(gòu)由大數(shù)據(jù)平臺、數(shù)據(jù)資產(chǎn)管理平臺與數(shù)據(jù)服務平臺三大部分組成,其中在數(shù)據(jù)服務平臺中自助分析平臺與標簽管理系統(tǒng)的應用場景最為廣泛。

大數(shù)據(jù)平臺是數(shù)據(jù)中臺的基座,我們也可以把大數(shù)據(jù)平臺稱為大數(shù)據(jù)開發(fā)平臺,它需要具備與大數(shù)據(jù)相關(guān)的開發(fā)能力,提供數(shù)據(jù)存儲數(shù)據(jù)清洗/計算、數(shù)據(jù)查詢展示及權(quán)限管理等功能。那么,應該如何建設(shè)上述功能與服務?是不是擁有了上述能力就等同于成功打造大數(shù)據(jù)平臺了呢?參考:數(shù)據(jù)治理與數(shù)據(jù)中臺架構(gòu)(滿分資料)其實我們可以發(fā)現(xiàn)各公司的大數(shù)據(jù)平臺系統(tǒng)架構(gòu)其實大同小異,各類架構(gòu)都包含了數(shù)據(jù)采集組件、數(shù)據(jù)存儲組件、數(shù)據(jù)計算引擎、數(shù)據(jù)權(quán)限與安全組件,以及集群管理與監(jiān)控組件等。除了少數(shù)像阿里這樣傾力打造自研“飛天”系統(tǒng)的企業(yè),其他企業(yè)在底層組件選用上,還是以 Hadoop 生態(tài)構(gòu)建的技術(shù)體系為主,依托各類開源組件進行優(yōu)化改進與二次開發(fā)。例如,數(shù)據(jù)存儲組件可以選擇HBase、Hive等組件,數(shù)據(jù)計算引擎可以選擇Spark、Flink等分布式計算引擎。既然大家選用的組件相同或者相似,那為什么最終各企業(yè)大數(shù)據(jù)平臺的服務能力還是存在差距呢?這有些類似于購買零件組裝臺式電腦,零件不需要選最貴的,而是要根據(jù)實際需求來選擇最適合的。好用的大數(shù)據(jù)平臺需要擁有為用戶解決問題的能力。因此,數(shù)據(jù)中臺的大數(shù)據(jù)平臺建設(shè)不是比拼引用了多少新技術(shù)、覆蓋了多少技術(shù)組件,而是要看它能否解決數(shù)據(jù)中臺建設(shè)中所面臨的復雜數(shù)據(jù)現(xiàn)狀,能否成為數(shù)據(jù)中臺打破數(shù)據(jù)壁壘的技術(shù)保障,能否提供簡潔有效的數(shù)據(jù)處理工具,如提供自助配置式的數(shù)據(jù)采集與數(shù)據(jù)清洗工具等,以及能否提供更多的附加價值。數(shù)據(jù)中臺的大數(shù)據(jù)平臺建設(shè),可以避免各事業(yè)部技術(shù)團隊各自搭建大數(shù)據(jù)集群所帶來的資源浪費。統(tǒng)一的、成熟的大數(shù)據(jù)平臺對企業(yè)來說,不能一蹴而就,需要循序漸進、分步實施,在持續(xù)迭代中構(gòu)建企業(yè)的大數(shù)據(jù)平臺生態(tài)。數(shù)據(jù)資產(chǎn)管理平臺主要解決數(shù)據(jù)資源的管理, 數(shù)據(jù)資產(chǎn)遍布在各個大數(shù)據(jù)組件中, 有 hive 的表, 有 hbase 的表, 有 druid 的 datasource, 有 kafka 中的流, 各個組件的管控系統(tǒng)很難互相打通, 所以需要一個統(tǒng)一的數(shù)據(jù)資產(chǎn)管理服務, 來統(tǒng)籌大數(shù)據(jù)資源的管理。參考:企業(yè)數(shù)據(jù)資產(chǎn)運營體系隨著大數(shù)據(jù)平臺的建設(shè),構(gòu)建數(shù)據(jù)中臺的數(shù)據(jù)體系成為可能,通過對各業(yè)務線數(shù)據(jù)的歸類整合,我們可以構(gòu)建出各個數(shù)據(jù)主題域,完成數(shù)據(jù)的規(guī)范存儲,形成數(shù)據(jù)資產(chǎn),進而完成數(shù)據(jù)資產(chǎn)管理。在數(shù)據(jù)中臺體系中,數(shù)據(jù)資產(chǎn)管理平臺主要由元數(shù)據(jù)管理與數(shù)據(jù)模型管理組成,下面讓我們分別了解一下。講述元數(shù)據(jù)管理,我們需要先弄清楚什么是元數(shù)據(jù)。元數(shù)據(jù)(MetaData)通常被定義為:關(guān)于數(shù)據(jù)的數(shù)據(jù)(Metadata),或者描述數(shù)據(jù)的數(shù)據(jù)(data about data),對數(shù)據(jù)及信息資源的描述性信息。元數(shù)據(jù)是所有數(shù)據(jù)中最重要的數(shù)據(jù)。這里舉一個最通俗的例子。當我們?nèi)D書館借書時,直接面對數(shù)以萬計的圖書,自然難以尋找,但是你通過在圖書館查詢系統(tǒng)中輸入這本的書名、作者、出版社等信息,獲取就能準確的圖書位置。那么這些書名、作者等信息,就可以理解為元數(shù)據(jù),而圖書的存放位置、借閱歷史記錄等,則是我們系統(tǒng)中的普通數(shù)據(jù)。在數(shù)據(jù)庫中,每一張數(shù)據(jù)表的表名、創(chuàng)建信息(創(chuàng)建人、創(chuàng)建時間、所屬部門)、修改信息、表字段(字段名、字段類型、字段長度等),以及該表與其他表之間的關(guān)系等信息都屬于這張數(shù)據(jù)表的元數(shù)據(jù)。其實,元數(shù)據(jù)有多種分類方式,筆者更傾向于按照元數(shù)據(jù)的用途來區(qū)分,總共分為三類:業(yè)務元數(shù)據(jù)、技術(shù)元數(shù)據(jù)和管理元數(shù)據(jù)。 業(yè)務元數(shù)據(jù):描述數(shù)據(jù)的業(yè)務含義、業(yè)務規(guī)則等,包括業(yè)務規(guī)則、數(shù)據(jù)字典以及安全標準等多項內(nèi)容。通過明確業(yè)務元數(shù)據(jù),讓人們產(chǎn)生統(tǒng)一的數(shù)據(jù)認知,消除數(shù)據(jù)歧義,讓不懂數(shù)據(jù)庫的業(yè)務方讀懂數(shù)據(jù)表的內(nèi)容。 技術(shù)元數(shù)據(jù):描述數(shù)據(jù)源信息、數(shù)據(jù)流轉(zhuǎn)信息及數(shù)據(jù)結(jié)構(gòu)化信息,主要服務于數(shù)據(jù)開發(fā)人員,讓開發(fā)人員明晰數(shù)據(jù)表結(jié)構(gòu)與所依賴的上下游任務,主要包括庫表字段(存儲位置、數(shù)據(jù)庫表、字段長度和類型)、數(shù)據(jù)模型、ETL腳本(調(diào)度信息)與SQL腳本等。 管理元數(shù)據(jù):描述數(shù)據(jù)的管理歸屬信息,包括業(yè)務歸屬、系統(tǒng)歸屬、運維歸屬以及數(shù)據(jù)權(quán)限歸屬等信息,是數(shù)據(jù)安全管理的基礎(chǔ)。 所以有人說,元數(shù)據(jù)記錄了數(shù)據(jù)從無到有的全過程,就像一本有關(guān)數(shù)據(jù)的“字典”,讓我們可以查詢到每一個字段的含義與出處,同時它又像是一張“地圖”,讓我們可以追溯數(shù)據(jù)產(chǎn)生的路徑。通過對數(shù)據(jù)體系的建設(shè),數(shù)據(jù)中臺的元數(shù)據(jù)匯聚了企業(yè)各業(yè)務線與各系統(tǒng)的數(shù)據(jù)信息,讓數(shù)據(jù)中臺具備了提供全域數(shù)據(jù)資產(chǎn)視圖的能力,實現(xiàn)了統(tǒng)一數(shù)據(jù)資產(chǎn)查詢與獲取入口的目標。元數(shù)據(jù)管理包括對元數(shù)據(jù)增刪與編輯管理、版本管理、元數(shù)據(jù)統(tǒng)計分析與元模型管理。通過上述功能模塊,有計劃地進行數(shù)據(jù)體系的落地實施,實現(xiàn)數(shù)據(jù)中臺元數(shù)據(jù)的結(jié)構(gòu)化與模型化,這樣既可以避免元數(shù)據(jù)出現(xiàn)雜亂與冗余的現(xiàn)象,也便于用戶查詢與定位數(shù)據(jù)。參考:元數(shù)據(jù)及元數(shù)據(jù)管理策略、方法和技術(shù)介紹元數(shù)據(jù)時,我們提到技術(shù)元數(shù)據(jù)中包括數(shù)據(jù)模型,這里的數(shù)據(jù)模型就是指使用元數(shù)據(jù)進行數(shù)據(jù)建模的工作產(chǎn)物。根據(jù)底層數(shù)據(jù)的使用情況,如數(shù)據(jù)表的關(guān)聯(lián)信息、SQL腳本信息(數(shù)據(jù)聚合與查詢信息等),來獲取元數(shù)據(jù),可以更好地完成對業(yè)務的抽象,提高建模效率。數(shù)據(jù)模型是數(shù)據(jù)整合的有效手段,它完成了各數(shù)據(jù)源之間的映射關(guān)系設(shè)計,為數(shù)據(jù)主題建設(shè)提供了“實施圖紙”。同時,在數(shù)據(jù)建模過程中,通過明確數(shù)據(jù)標準,可以確保數(shù)據(jù)的一致性,還可以消化冗余數(shù)據(jù)。至于數(shù)據(jù)模型管理,其是指在數(shù)據(jù)建模過程中,通過既定的數(shù)據(jù)模型管理制度,實現(xiàn)對數(shù)據(jù)模型增、刪、改、查的管理,同時遵守數(shù)據(jù)標準化與數(shù)據(jù)統(tǒng)一化的要求,確保數(shù)據(jù)質(zhì)量參考:2023年數(shù)據(jù)中臺項目建設(shè)方案(136頁word)自助分析平臺,也就是商業(yè)智能平臺(BI平臺)。BI平臺目前已經(jīng)是很多企業(yè)的標配,目前BI商用市場的行業(yè)競爭日趨激烈,進場者可以分為如下3類: 國內(nèi)BI廠商,如帆軟、永洪、思邁特 國外BI廠商,如Tableau 互聯(lián)網(wǎng)大廠內(nèi)部孵化 BI 平臺是數(shù)據(jù)中臺服務能力的主要輸出方,要想讓數(shù)據(jù)中臺發(fā)揮出應有價值,那么BI平臺的建設(shè)必不可少,所以需要將BI 平臺建設(shè)劃分在數(shù)據(jù)中臺體系下。綜合來看,BI平臺應該具備如下能力。(1)數(shù)據(jù)接入除了數(shù)據(jù)中臺的自有數(shù)據(jù)源,BI平臺還需要支持外部數(shù)據(jù)源的接入。其接入方式,主要有如下3種。 文件數(shù)據(jù)集:支持Excel/XML/TXT等文件數(shù)據(jù)的上傳。 數(shù)據(jù)連接型:支持Mysql、Oracle等數(shù)據(jù)庫,以及Hadoop、Spark等大數(shù)據(jù)平臺(數(shù)據(jù)中臺的大數(shù)據(jù)平臺也在此列)。 API讀取:支持通過API獲取第三方系統(tǒng)數(shù)據(jù)。 某BI平臺支持的數(shù)據(jù)源(2)數(shù)據(jù)處理BI 平臺需要能為用戶提供數(shù)據(jù)建模工具,幫助用戶創(chuàng)建目標數(shù)據(jù)(數(shù)據(jù)集),其提供的功能包括拖拽表字段、自動識別維度/指標、自定義視圖語句、預覽數(shù)據(jù)、設(shè)置虛擬字段、函數(shù)計算、設(shè)置參數(shù)等基本操作,以及多源異構(gòu)的 JOIN/UNION等數(shù)據(jù)處理功能。BI的數(shù)據(jù)處理界面(3)數(shù)據(jù)分析與可視化在數(shù)據(jù)處理的基礎(chǔ)上,BI 平臺還需要為用戶提供豐富的圖表制作和聯(lián)機分析處理(OLAP)操作,讓用戶在前端頁面完成數(shù)據(jù)分析與數(shù)據(jù)可視化等工作。其操作流程如下:用戶選擇處理后的數(shù)據(jù)集,對維度與指標進行篩選過濾,然后通過上卷下鉆、圖表聯(lián)動、報表跳轉(zhuǎn)等操作,完成業(yè)務需求的分析,同時BI平臺會為用戶提供可視化圖形組件,使其最終完成可視化內(nèi)容的設(shè)計。BI的數(shù)據(jù)分析與可視化界面(4)內(nèi)容分發(fā)與基礎(chǔ)服務BI平臺需要具備分發(fā)可視化內(nèi)容,并進行查看權(quán)限與數(shù)據(jù)權(quán)限控制的能力。主要的分發(fā)方式包括BI平臺、移動BI(App)、數(shù)據(jù)大屏、郵件、鏈接訪問,以及第三方嵌入等方式。同時BI平臺還需要具備基礎(chǔ)的運營管理、角色管理、幫助中心與消息推送等功能。只有滿足以上功能、具備了多維分析、數(shù)據(jù)可視化與數(shù)據(jù)大屏等服務能力的BI平臺,才可以最大限度的發(fā)揮在數(shù)據(jù)中臺體系中的價值,有效地幫助分析師與運營團隊提升工作效率。除了BI平臺,標簽管理系統(tǒng)也是數(shù)據(jù)服務的重要應用方向之一。目前,業(yè)務部門面臨著大量的精準營銷場景,這些千人千面的推薦、推送需要基于一個完善且準確的用戶畫像來實現(xiàn),而用戶畫像的構(gòu)成又需要由大量、全面的用戶標簽來支撐。參考:詳解數(shù)據(jù)標簽體系構(gòu)建方法因此,標簽數(shù)據(jù)作為個性化業(yè)務應用的基礎(chǔ)數(shù)據(jù),其可信度與有效性就成了衡量用戶畫像成熟度的關(guān)鍵指標。我們可以把標簽管理系統(tǒng)看作用戶畫像系統(tǒng)的基座,基于數(shù)據(jù)中臺打造的數(shù)據(jù)體系,可以順其自然地打通標簽治理中的數(shù)據(jù)壁壘,構(gòu)建企業(yè)級的、統(tǒng)一認可的用戶標簽體系,并由此打造一個企業(yè)級的用戶畫像系統(tǒng)。數(shù)據(jù)中臺的標簽管理系統(tǒng),主要具備以下功能。(1)用戶唯一性識別很多企業(yè)內(nèi)各業(yè)務線都有自己的獨立用戶識別體系,如在 58 集團內(nèi)就有 58設(shè)備指紋、安居客唯一用戶、招聘自然人、金融自然人等多種用戶識別方式,但是這些識別方式大部分是服務于單一業(yè)務線的,各業(yè)務線內(nèi)的標簽也是面向本業(yè)務的獨立用戶標識進行研發(fā)的。數(shù)據(jù)中臺的標簽管理體系,可以提供統(tǒng)一的用戶識別服務,將各業(yè)務線的獨立用戶標識進行關(guān)聯(lián)和統(tǒng)一,從而打通面向整個企業(yè)的獨立用戶識別和標簽交互轉(zhuǎn)換方案。(2)標簽體系管理標簽體系管理的主要工作是制訂標簽數(shù)據(jù)和信息交互方案,打通用戶畫像研發(fā)和服務中的信息及數(shù)據(jù)壁壘,提供標簽接入、可視化標簽信息展現(xiàn)、可視化標簽權(quán)限控制、可視化用戶標簽分析、可視化人群定向提取與可視化相似人群擴展(Lookalike)等功能。(3)標簽數(shù)據(jù)服務標簽管理系統(tǒng),需要提供用戶畫像研發(fā)和應用過程中涉及的標簽提取與查詢等服務,以標準化服務接口(API)的方式將相關(guān)解決方案提供給各業(yè)務方,支持業(yè)務方基于數(shù)據(jù)中臺的能力,打造業(yè)務線的個性化服務。除了商業(yè)智能BI和標簽管理外,各企業(yè)還需根據(jù)自身所處行業(yè)的特性去進行數(shù)據(jù)應用價值的最大化挖掘。
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)
立即申請數(shù)據(jù)分析/數(shù)據(jù)治理產(chǎn)品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢