日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數(shù)據(jù)治理平臺

睿治作為國內(nèi)功能最全的數(shù)據(jù)治理產(chǎn)品之一,入選IDC企業(yè)數(shù)據(jù)治理實(shí)施部署指南。同時,在IDC發(fā)布的《中國數(shù)據(jù)治理市場份額》報告中,連續(xù)四年蟬聯(lián)數(shù)據(jù)治理解決方案市場份額第一。

數(shù)據(jù)存儲建模

時間:2022-05-19來源:蹺二郎腿上課瀏覽數(shù):365

相較于系統(tǒng)數(shù)據(jù)庫存儲及文件存儲,分布式存儲引入了對象存儲和NoSQL數(shù)據(jù)庫,都還遠(yuǎn)遠(yuǎn)沒有成熟,相較與傳統(tǒng)數(shù)據(jù)庫的分割方式來支持大數(shù)據(jù)并發(fā),分布式存儲優(yōu)勢明顯,但設(shè)計模式基本都在實(shí)踐中,但理論還遠(yuǎn)沒成熟,這需要技術(shù)人員不斷實(shí)踐、借鑒,實(shí)現(xiàn)適合自己需求的存儲與數(shù)據(jù)系統(tǒng)。

我們通過一個實(shí)際的數(shù)據(jù)建模實(shí)踐來展示如何使用大數(shù)據(jù)技術(shù)進(jìn)行實(shí)際問題的解決。

這個設(shè)計是針對分布式存儲的。存儲架構(gòu)是大數(shù)據(jù)系統(tǒng)的一個重要環(huán)節(jié),尤其是對以后的服務(wù)十分重要。

分布式存儲的架構(gòu)

目前,在云計算中廣泛使用的數(shù)據(jù)存儲系統(tǒng)是分布式文件系統(tǒng),如Hadoop HDFS系統(tǒng),運(yùn)行在普通硬件上,提供多備份支持的容錯功能,能夠有效利用服務(wù)器上配置的硬盤,形成海量存儲空間,目前GFS支持服務(wù)器節(jié)點(diǎn)以十萬計,而 Hadoop HDFS也有過萬節(jié)點(diǎn)系統(tǒng)在運(yùn)行。無論是GFS還是HDFS,雖然在具體處理技術(shù)上各自有各自的實(shí)現(xiàn),但其總體構(gòu)架基本上都如下圖所示。

分布式數(shù)據(jù)存儲系統(tǒng)

在存儲層面,將數(shù)據(jù)分成一個一個塊(block),meta-data是塊的相關(guān)信息,如同文件系統(tǒng)的目錄節(jié)點(diǎn)文件中對文件塊描述,可以理解為具體數(shù)據(jù)塊的定位信息,當(dāng)然包含備份數(shù)據(jù)塊信息。這里Meta-data是數(shù)據(jù)存儲的目錄結(jié)構(gòu),以數(shù)據(jù)塊為對象。數(shù)據(jù)塊是實(shí)際數(shù)據(jù)存儲,被分配到系統(tǒng)數(shù)據(jù)節(jié)點(diǎn)上的塊設(shè)備上,一般是硬盤。這一層有點(diǎn)像操作系統(tǒng)中的塊設(shè)備驅(qū)動,不同的是分布式的。

在存儲層面之上是數(shù)據(jù)處理層,主要目標(biāo)是將塊組合成用戶需要的數(shù)據(jù),如對象或者文件,大量對象與大文件訪問時,為了提升性能,往往需要通過MapReduce,實(shí)際是分布式數(shù)據(jù)處理,來提升數(shù)據(jù)訪問效率。

數(shù)據(jù)存儲一般對上層有三種不同的接口,首先是對象存儲,這是一個較低層接口,一般用于程序?qū)ο笾苯哟鎯Γ浯问荖oSQL DB,提供數(shù)據(jù)庫接口,一般在存儲上實(shí)現(xiàn)數(shù)據(jù)庫都是NoSQL的,如Google的Bigtable和Hadoop的Hbase,還有文件存儲接口,對應(yīng)用來講,就是以文件方式訪問數(shù)據(jù),對于以網(wǎng)頁為中心的系統(tǒng),文件接口應(yīng)用更多。

分布式系統(tǒng)通常通過讀寫分離,和在寫入時同步來保障數(shù)據(jù)最終一致性的,下圖是Ceph支持的三種讀寫的順序圖,用于理解分布式存儲的讀寫方式。

分布式存儲的讀寫:Ceph支持的三種讀寫的順序圖

MapReduce通過把對數(shù)據(jù)集的大規(guī)模操作分發(fā)給網(wǎng)絡(luò)上的每個節(jié)點(diǎn)來實(shí)現(xiàn)可靠性,每個節(jié)點(diǎn)會周期性地把完成的工作和狀態(tài)的更新報告發(fā)送回來。如果一個節(jié)點(diǎn)保持沉默超過一個預(yù)設(shè)的時間間隔,主節(jié)點(diǎn)記錄下這個節(jié)點(diǎn)狀態(tài)為死亡,并把分配給這個節(jié)點(diǎn)的數(shù)據(jù)發(fā)到別的節(jié)點(diǎn)。每個操作使用命名文件的不可分割操作以確保不會發(fā)生并行線程間的沖突;當(dāng)文件被改名的時候,系統(tǒng)可能會把他們復(fù)制到任務(wù)名以外的另一個名字上去。Reduce操作方式很類似,但是由于Reduce操作并行能力較差,主節(jié)點(diǎn)會盡量把Reduce操作調(diào)度在一個節(jié)點(diǎn)上,或者離需要操作的數(shù)據(jù)盡可能近的節(jié)點(diǎn)上了。

數(shù)據(jù)存儲設(shè)計

相較于系統(tǒng)數(shù)據(jù)庫存儲及文件存儲,分布式存儲引入了對象存儲和NoSQL數(shù)據(jù)庫,都還遠(yuǎn)遠(yuǎn)沒有成熟,相較與傳統(tǒng)數(shù)據(jù)庫的分割方式來支持大數(shù)據(jù)并發(fā),分布式存儲優(yōu)勢明顯,但設(shè)計模式基本都在實(shí)踐中,但理論還遠(yuǎn)沒成熟,這需要技術(shù)人員不斷實(shí)踐、借鑒,實(shí)現(xiàn)適合自己需求的存儲與數(shù)據(jù)系統(tǒng)。

應(yīng)用針對存儲設(shè)計,首先是數(shù)據(jù)形式,那些數(shù)據(jù)需要以文件方式保存,那些數(shù)據(jù)要以對象形式保持,那些數(shù)據(jù)要用數(shù)據(jù)庫。一般來講,音視頻、文檔及網(wǎng)頁等用數(shù)據(jù)適合以文件形式保存在存儲中,而應(yīng)用中格式化數(shù)據(jù)適合以對象或數(shù)據(jù)庫形式保存,對與對象實(shí)例較多,而且需要查詢的,一般使用數(shù)據(jù)庫方式存儲。此外,分布式存儲都提供數(shù)據(jù)域,區(qū)分?jǐn)?shù)據(jù)域是用于將數(shù)據(jù)分割存儲到不同物理區(qū)域,為了提升效率,雖然數(shù)據(jù)可以動態(tài)分布到所有節(jié)點(diǎn),但這樣效率并不高,因此需要盡量將處理與數(shù)據(jù)統(tǒng)一到一個區(qū)域,提升數(shù)據(jù)訪問效率。

NoSQL設(shè)計實(shí)際是對象模型設(shè)計。同傳統(tǒng)數(shù)據(jù)庫schema的設(shè)計不同,在使用NoSQL時應(yīng)用程序需要設(shè)計自己的對象模型樹,針對對象實(shí)現(xiàn)流化,即以數(shù)據(jù)塊方式存儲數(shù)據(jù)對象。NoSQL與傳統(tǒng)數(shù)據(jù)庫不同,每個對象的屬性可以動態(tài)改變,而一個對象就是傳統(tǒng)數(shù)據(jù)庫的一個行,對象屬性可以認(rèn)為是數(shù)據(jù)庫的列,而傳統(tǒng)數(shù)據(jù)庫的列是預(yù)先定義和不可改變的。NoSQL數(shù)據(jù)庫支持每一行數(shù)據(jù)自行定義自己的屬性,這樣對象設(shè)計自由度更大,可以完全按照程序邏輯設(shè)計自己數(shù)據(jù)對象和確定數(shù)據(jù)圖。NoSQL數(shù)據(jù)庫都支持?jǐn)?shù)據(jù)圖關(guān)系,這樣在獲取對象時就能夠獲取到相關(guān)對象,從而減少查找,以提升應(yīng)用效率。

NoSQL的問題

目前,分布式存儲特別是在其上的NoSQL數(shù)據(jù)庫,不支持?jǐn)?shù)據(jù)關(guān)聯(lián)性處理,數(shù)據(jù)關(guān)系要通過類似全文搜索來處理,因此對于結(jié)構(gòu)數(shù)據(jù),特別關(guān)系密切性的數(shù)據(jù)處理,有很大限制。對于熟悉關(guān)系數(shù)據(jù)庫處理的程序人員是很大缺陷。

另一個方面,數(shù)據(jù)庫拆分,目前也是用來解決大數(shù)據(jù)問題的常用用法,但對于線性增長的數(shù)據(jù),數(shù)據(jù)庫會一點(diǎn)一點(diǎn)變慢,如果分庫數(shù)量過多,管理和重組數(shù)據(jù)開銷一樣會增多,系統(tǒng)性能還是逐步降低,對于每日上億條數(shù)據(jù)入庫,數(shù)據(jù)庫分庫也很難滿足要求,而系統(tǒng)延展性會變差,而數(shù)據(jù)庫管理會隨著庫數(shù)量上升而日益困難,應(yīng)用開發(fā)難度增加。

為了克服這些困難,人們又提出了在分布式存儲方案上實(shí)現(xiàn)分布式關(guān)系數(shù)據(jù)庫的方式,比較典型的如基于Hadoop的Hadoop DB方案,該方案通過使用Hadoop數(shù)據(jù)分布及MapReduce并行計算方案,將關(guān)系數(shù)據(jù)庫數(shù)據(jù)分布存儲到不同數(shù)據(jù)庫上。在查詢時,使用MapReduce 并行計算,同時在多個并行數(shù)據(jù)庫上執(zhí)行,并將執(zhí)行接口匯總到MapReduce任務(wù),合成成一個完整的結(jié)果,下圖是該方案的設(shè)計圖:

分布式存儲方案上實(shí)現(xiàn)分布式關(guān)系數(shù)據(jù)庫的方式

該方式可以支持關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)庫表關(guān)聯(lián)查詢,相較于NoSQL的類似全文查詢,該方式要友好很多,性能也提升很多。對使用者來講,由于該方式可以認(rèn)為是分布式的關(guān)系型數(shù)據(jù)庫,可以極大降低應(yīng)用開發(fā)的難度與成本。

本書采用理論與實(shí)踐相結(jié)合的形式,系統(tǒng)闡述云計算和大數(shù)據(jù)服務(wù)的具體實(shí)現(xiàn)。

云計算和大數(shù)據(jù)服務(wù)戰(zhàn)略的落地,包括技術(shù)構(gòu)建和運(yùn)營管理、新興的人工智能技術(shù)的應(yīng)用,以及組織能力的建設(shè)。針對這一目標(biāo),全書分為七部分:云計算技術(shù)、大數(shù)據(jù)與數(shù)據(jù)智能、服務(wù)的技術(shù)運(yùn)營、智能運(yùn)營(AIOps)、安全技術(shù)與管理、服務(wù)質(zhì)量管理和組織能力。寫作本書的目的是幫助讀者對云計算和大數(shù)據(jù)的重要專題從基本概念、發(fā)展思路到解決方案有一個系統(tǒng)認(rèn)識。

本書具有非常強(qiáng)的可讀性和實(shí)踐指導(dǎo)意義,可作為云計算和大數(shù)據(jù)企業(yè)的高層管理人員和技術(shù)架構(gòu)師的參考讀物,也可作為高校相關(guān)專業(yè)師生的教學(xué)參考用書。


(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)
立即申請數(shù)據(jù)分析/數(shù)據(jù)治理產(chǎn)品免費(fèi)試用 我要試用
customer

在線咨詢

在線咨詢

點(diǎn)擊進(jìn)入在線咨詢