日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數(shù)據(jù)治理平臺(tái)

睿治作為國(guó)內(nèi)功能最全的數(shù)據(jù)治理產(chǎn)品之一,入選IDC企業(yè)數(shù)據(jù)治理實(shí)施部署指南。同時(shí),在IDC發(fā)布的《中國(guó)數(shù)據(jù)治理市場(chǎng)份額》報(bào)告中,連續(xù)四年蟬聯(lián)數(shù)據(jù)治理解決方案市場(chǎng)份額第一。

一句話解讀數(shù)據(jù)編織、湖倉(cāng)一體、增強(qiáng)分析等20個(gè)最新數(shù)據(jù)技術(shù)概念

時(shí)間:2022-09-06來(lái)源:蒲公渶瀏覽數(shù):252

老板關(guān)心技術(shù),經(jīng)常會(huì)問(wèn)一些技術(shù)的問(wèn)題。

有次跟老板匯報(bào)大數(shù)據(jù),記得當(dāng)時(shí)介紹到了NO SQL數(shù)據(jù)庫(kù),然后老板問(wèn)起數(shù)據(jù)庫(kù)的發(fā)展歷史,讓我說(shuō)說(shuō)關(guān)系型數(shù)據(jù)庫(kù)以前是什么數(shù)據(jù)庫(kù),為什么會(huì)演變成這樣,我一時(shí)語(yǔ)塞。

還有一次跟老板匯報(bào)數(shù)據(jù)治理,老板問(wèn)主數(shù)據(jù)是什么意思,我說(shuō)主數(shù)據(jù)是為了確保各系統(tǒng)之間數(shù)據(jù)的一致性,然后發(fā)現(xiàn)自己答非所問(wèn)。

造成以上現(xiàn)象有兩個(gè)原因,第一個(gè)是我認(rèn)為理解了某個(gè)概念,但實(shí)際上理解歪了或者不全面,另一個(gè)是雖然理解了概念,但卻無(wú)法簡(jiǎn)潔而準(zhǔn)確的表述,也就是說(shuō)不到點(diǎn)上。

無(wú)論如何,我都不算是發(fā)揮失常,而是水平不夠,這就是孔子說(shuō)得學(xué)而不思則罔吧。

作為專業(yè)人士,還是要能用自己的語(yǔ)言把專業(yè)領(lǐng)域的概念通俗的說(shuō)出來(lái),如要具備這個(gè)能力,靠百度、谷歌搜索一下或者讀讀別人的文章是達(dá)不到的,必須建立在自身的實(shí)踐和思考之上,從而形成一套自己的體系。

最近幾年數(shù)據(jù)技術(shù)發(fā)展迅速,很多新概念爬上了Gartner曲線,比如數(shù)據(jù)湖、數(shù)據(jù)網(wǎng)格、數(shù)據(jù)編織啥的,這些概念中的很多是舶來(lái)品,理解起來(lái)不易,但我們有時(shí)也不得不去理解,一方面是技術(shù)決策的需要,另一方面是來(lái)自于解釋的需要,否則容易被人帶偏。

這次特意挑了數(shù)據(jù)網(wǎng)格、數(shù)據(jù)編織、湖倉(cāng)一體、存算分離、DataOps等20個(gè)數(shù)據(jù)領(lǐng)域比較前沿的、抽象的概念來(lái)挑戰(zhàn),希望盡量能用一句話解釋清楚,后來(lái)發(fā)現(xiàn)實(shí)在講不清楚,因此還是做了一些備注,文后列了參考文獻(xiàn)。

我的解釋也許不是很嚴(yán)謹(jǐn),但希望能勉強(qiáng)的應(yīng)對(duì)電梯挑戰(zhàn)吧,想象那么一個(gè)場(chǎng)景,電梯里突然碰到你的老板,然后老板問(wèn):”最近有家做數(shù)據(jù)編織的XX公司要來(lái)拜訪,那什么是數(shù)據(jù)編織?”

1、數(shù)據(jù)網(wǎng)格

一種分布式領(lǐng)域驅(qū)動(dòng)數(shù)據(jù)集成服務(wù)架構(gòu),數(shù)據(jù)網(wǎng)格是分析系統(tǒng)的”微服務(wù)“。

2、數(shù)據(jù)編織

基于知識(shí)圖譜(主動(dòng)元數(shù)據(jù)為核心)的自動(dòng)化、智能化數(shù)據(jù)集成架構(gòu)。

3、數(shù)據(jù)倉(cāng)庫(kù)

具備結(jié)構(gòu)化數(shù)據(jù)采集、存儲(chǔ)、離線處理分析能力的集中化平臺(tái),數(shù)據(jù)管理能力較強(qiáng),比如在存儲(chǔ)階段即按預(yù)先定義好的格式寫入平臺(tái),在使用的時(shí)候基于預(yù)定義的格式進(jìn)行加工處理。

4、數(shù)據(jù)中臺(tái)

基于沉淀的數(shù)據(jù)資產(chǎn)進(jìn)行封裝后對(duì)外提供數(shù)據(jù)服務(wù)(API等形式)的平臺(tái)。

5、數(shù)據(jù)湖

具備結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)采集、存儲(chǔ)及離線處理能力的集中化平臺(tái),數(shù)據(jù)湖是原始數(shù)據(jù)的一份鏡像,數(shù)據(jù)管理能力很弱,比如數(shù)據(jù)在存儲(chǔ)階段直接寫入(不做格式規(guī)范),在應(yīng)用需要的時(shí)候才進(jìn)行數(shù)據(jù)格式的定義并進(jìn)行加工處理。

6、湖倉(cāng)一體

具備結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)采集、存儲(chǔ)共享實(shí)時(shí)處理實(shí)時(shí)分析數(shù)據(jù)管理能力的集中化平臺(tái),相比于數(shù)據(jù)湖,湖倉(cāng)一體能支持實(shí)時(shí)分析場(chǎng)景,相比于數(shù)據(jù)倉(cāng)庫(kù),湖倉(cāng)一體能支持多類型數(shù)據(jù)的實(shí)時(shí)處理能力。

注1:共享意味著針對(duì)各種類型數(shù)據(jù)可以互相訪問(wèn),減少了搬遷成本。實(shí)時(shí)處理指支持實(shí)時(shí)的數(shù)據(jù)變更及事務(wù)處理能力,實(shí)時(shí)分析指諸如BI等可以直接對(duì)接數(shù)據(jù)源進(jìn)行分析,不用遷移數(shù)據(jù)到數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)管理能力指模型的管理等能力。

注2:業(yè)界對(duì)于湖倉(cāng)一體有兩種實(shí)現(xiàn)模式,一種是橫向打通方案,以阿里M axCompute 為代表,主要是針對(duì)數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行網(wǎng)絡(luò)、存儲(chǔ)及元數(shù)據(jù)的橫向打通,具備保護(hù)原有投資的優(yōu)勢(shì),另一種是縱向整合方案,以Iceberg、Hudi和DeltaLake為代表,其在數(shù)據(jù)湖之上構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)。

7、流批一體

流批一體是一種架構(gòu)思想,指在滿足流處理計(jì)算的同時(shí)也可以同步滿足批處理任務(wù)的計(jì)算,這樣不僅可以降低成本,也可以保證數(shù)據(jù)一致性,因?yàn)槔碚撋先魏瘟魈幚矶伎梢钥闯砷g隔極短的批處理。

8、存算分離

針對(duì)傳統(tǒng)hadoop架構(gòu)中計(jì)算資源和存儲(chǔ)資源按某一比例強(qiáng)綁定,系統(tǒng)擴(kuò)容必須按節(jié)點(diǎn)數(shù)目增加,導(dǎo)致內(nèi)存或磁盤浪費(fèi)的問(wèn)題,提出的一種新架構(gòu),其解耦了計(jì)算和存儲(chǔ)綁定關(guān)系,實(shí)現(xiàn)計(jì)算和存儲(chǔ)單獨(dú)彈性擴(kuò)展、按需分配,降低了系統(tǒng)部署和擴(kuò)展成本,解決了資源利用不均衡的問(wèn)題。

9、隱私計(jì)算

隱私保護(hù)計(jì)算技術(shù)能夠?qū)崿F(xiàn)數(shù)據(jù)處于加密狀態(tài)或非透明(Opaque)狀態(tài)下的計(jì)算,在保護(hù)參與方隱私的基礎(chǔ)上,實(shí)現(xiàn)數(shù)據(jù)“價(jià)值”和“知識(shí)”的流動(dòng)與共享, 真正做到“數(shù)據(jù)可用不可見(jiàn)”。隱私計(jì)算其實(shí)是一堆“數(shù)據(jù)可用不可見(jiàn)”技術(shù)集合,包括多方安全計(jì)算、聯(lián)邦學(xué)習(xí)、機(jī)密計(jì)算、差分隱私及數(shù)據(jù)脫敏等等。

10、云原生數(shù)據(jù)倉(cāng)庫(kù)

云原生數(shù)據(jù)庫(kù)是在公有云、私有云和混合云等新型動(dòng)態(tài)環(huán)境中,基于存儲(chǔ)與計(jì)算分離架構(gòu)的、存儲(chǔ)和計(jì)算可以獨(dú)立彈性擴(kuò)展的、松散耦合的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)。

注:一般分為三個(gè)層次,最上層是服務(wù)層,主要做查詢解析、優(yōu)化、元數(shù)據(jù)管理,包括安全控制等等,中間層是查詢計(jì)算層,可以分成多個(gè)小的集群,不同的用戶可以使用不同的集群,類似于多租戶的概念,這樣就帶來(lái)了高并發(fā)等好處,底下是存儲(chǔ)層,包括對(duì)象存儲(chǔ)、HDFS等等,典型的產(chǎn)品包括Snowflake、阿里的AnalyticDB等。

11、HTAP 數(shù)據(jù)庫(kù)

HTAP是對(duì)傳統(tǒng)OLTP+OLAP+ETL 的數(shù)據(jù)架構(gòu)的替代,能夠在一份數(shù)據(jù)上同時(shí)支撐OLTP和 OLAP運(yùn)行的數(shù)據(jù)庫(kù),可以在保證事務(wù)處理性能的基礎(chǔ)上,同時(shí)具備實(shí)時(shí)分析的能力,不僅避免 ETL 跨平臺(tái)數(shù)據(jù)傳輸帶來(lái)的高昂成本,同時(shí)具備分布式、彈性擴(kuò)容及高并發(fā)的能力。

12、DataOps

DataOps是一種面向數(shù)據(jù)全生命周期,以價(jià)值最大化為目標(biāo)的實(shí)踐、流程和技術(shù)。聚焦于從數(shù)據(jù)需求輸入到交付物輸出的全鏈路過(guò)程,實(shí)現(xiàn)數(shù)據(jù)研發(fā)運(yùn)營(yíng)的一體化、敏捷化、標(biāo)準(zhǔn)化、自動(dòng)化、智能化、價(jià)值顯性化。

注:參考了信通院DataOps成熟度框架,相對(duì)于維基抽象的定義,增加了標(biāo)準(zhǔn)化、智能化等的闡述。

13、圖計(jì)算

基于圖數(shù)據(jù)進(jìn)行的分析計(jì)算都屬于圖計(jì)算,圖計(jì)算的核心在于圖算法,常用的算法包括最短路徑算法、PageRank、PageRank等等。

注1:圖(Graph)是用于表示對(duì)象之間關(guān)聯(lián)關(guān)系的一種抽象數(shù)據(jù)結(jié)構(gòu),使用節(jié)點(diǎn)(Vertex)和邊(Edge)進(jìn)行描述:頂點(diǎn)表示對(duì)象,邊表示對(duì)象之間的關(guān)系。

注2:圖數(shù)據(jù)庫(kù)(Graph Database)是一種以圖結(jié)構(gòu)進(jìn)行存儲(chǔ)和查詢的數(shù)據(jù)庫(kù),相對(duì)于存儲(chǔ)行列數(shù)據(jù)的關(guān)系型數(shù)據(jù)庫(kù),其在兩個(gè)節(jié)點(diǎn)遍歷的時(shí)候只需在這兩個(gè)節(jié)點(diǎn)間局部數(shù)據(jù)進(jìn)行檢索,而關(guān)系型數(shù)據(jù)庫(kù)則需要全局遍歷,這使得以圖結(jié)構(gòu)存儲(chǔ)的數(shù)據(jù)在涉及關(guān)系復(fù)雜的海量數(shù)據(jù)查詢時(shí)速度有量級(jí)的提升。

14、增強(qiáng)分析

增強(qiáng)分析是指利用機(jī)器學(xué)習(xí)自然語(yǔ)言處理 (NLP) 等人工智能 (AI) 技術(shù)實(shí)現(xiàn)增強(qiáng)的分析。機(jī)器學(xué)習(xí)技術(shù)能夠讓系統(tǒng)自動(dòng)執(zhí)行數(shù)據(jù)準(zhǔn)備自動(dòng)分析深化洞察等復(fù)雜的分析流程,自然語(yǔ)言處理技術(shù)則支持用戶(甚至是未經(jīng)培訓(xùn)的業(yè)務(wù)用戶)以會(huì)話形式提出數(shù)據(jù)問(wèn)題,并輕松獲取答案。

注:有種說(shuō)法說(shuō)傳統(tǒng)分析、自助分析增強(qiáng)分析是分析的三個(gè)階段,但我對(duì)于增強(qiáng)分析還是一臉懵逼,因?yàn)槲艺J(rèn)為自動(dòng)數(shù)據(jù)準(zhǔn)備、自動(dòng)分析和會(huì)話式分析過(guò)于理想化,只要自動(dòng)的規(guī)則還是人定義的,姑且不說(shuō)這個(gè)規(guī)則能否制定出來(lái),但制定這個(gè)規(guī)則的代價(jià)實(shí)在太大了,以至于后面的自動(dòng)化失去了意義,只有深化洞察是大家現(xiàn)在都在做的,也有很多案例。

自動(dòng)執(zhí)行數(shù)據(jù)準(zhǔn)備:分析師 80% 的時(shí)間都是在準(zhǔn)備數(shù)據(jù),包括導(dǎo)出、合并、清理和結(jié)構(gòu)化處理,增強(qiáng)分析內(nèi)嵌的機(jī)器學(xué)習(xí)技術(shù)能夠自動(dòng)執(zhí)行這一流程

自動(dòng)分析:機(jī)器學(xué)習(xí)模型可以自動(dòng)執(zhí)行復(fù)雜的分析,數(shù)據(jù)科學(xué)家不再需要花費(fèi)數(shù)周時(shí)間來(lái)做分析。用戶可以即時(shí)獲取查詢答案和可視化數(shù)據(jù)內(nèi)容,減少數(shù)據(jù)挖掘的時(shí)間,將更多精力用于解讀數(shù)據(jù)洞察

深化洞察:機(jī)器解讀數(shù)據(jù)的能力遠(yuǎn)超人類。與人類相比,機(jī)器不僅能夠從更多角度審視更大的數(shù)據(jù)集,還能挖掘人類靠肉眼無(wú)法識(shí)別的統(tǒng)計(jì)相關(guān)性、關(guān)系和模式

會(huì)話式分析:自然語(yǔ)言處理技術(shù)支持不了解查詢語(yǔ)言或代碼的業(yè)務(wù)用戶采用會(huì)話方式進(jìn)行提問(wèn),自然語(yǔ)言生成 (NLG) 技術(shù)則能以完整的書面或口頭語(yǔ)句,對(duì)分析結(jié)果進(jìn)行匯總或解釋,為用戶提供答案

15、對(duì)象存儲(chǔ)

由于存算分離等架構(gòu)都會(huì)用到對(duì)象存儲(chǔ),因此特意解釋下對(duì)象存儲(chǔ)。對(duì)象存儲(chǔ)是一種數(shù)據(jù)存儲(chǔ),其中每個(gè)數(shù)據(jù)單元(稱為“對(duì)象”)作為離散單元存儲(chǔ)。這些對(duì)象實(shí)際上可以是任何類型的數(shù)據(jù):pdf,視頻,音頻,文本,網(wǎng)站數(shù)據(jù)或任何其他文件類型。

注:相對(duì)于文件存儲(chǔ),對(duì)象存儲(chǔ)中的所有對(duì)象都存儲(chǔ)在單個(gè)平面地址空間中,通過(guò)一個(gè)全局唯一的標(biāo)識(shí)符(即對(duì)象的ID)尋址(類似于鍵值管理),不需要像文件存儲(chǔ)那樣維護(hù)文件夾復(fù)雜的層次結(jié)構(gòu)和豐富的元數(shù)據(jù)信息,意味著訪問(wèn)單個(gè)對(duì)象既快速又簡(jiǎn)單,而且具有極高的伸縮性,其缺點(diǎn)是由于簡(jiǎn)單的元數(shù)據(jù)無(wú)法維護(hù)每個(gè)對(duì)象的操作信息(比如保留修改、插入、刪除文件中的某一小段數(shù)據(jù)而造成的復(fù)雜映射關(guān)系),導(dǎo)致沒(méi)法像文件存儲(chǔ)那樣進(jìn)行隨意的增刪改,比如網(wǎng)盤大多是對(duì)象存儲(chǔ),若要進(jìn)行任何修改,只能把該對(duì)象對(duì)應(yīng)的所有數(shù)據(jù)全部重新寫入。

16、AutoML

AutoML即為Auto+ML,是自動(dòng)化+機(jī)器學(xué)習(xí)兩個(gè)學(xué)科的結(jié)合體;從技術(shù)角度來(lái)說(shuō),則是泛指在機(jī)器學(xué)習(xí)各階段流程中有一個(gè)或多個(gè)階段采取自動(dòng)化而無(wú)需人工參與的實(shí)現(xiàn)方案,其覆蓋了特征工程(Feature Engineering)、模型選擇(Model Selection)、算法選擇(Algorithm Selection)以及模型評(píng)估(Model Evaluation)4個(gè)典型階段,而僅有問(wèn)題定義、數(shù)據(jù)準(zhǔn)備和模型部署這三部分工作交由人工來(lái)實(shí)現(xiàn)。

17、AIOps

智能運(yùn)維(AIOps,Artificial Intelligence for IT Operations)是指通過(guò)機(jī)器學(xué)習(xí)自動(dòng)的從海量運(yùn)維數(shù)據(jù)(包括日志、業(yè)務(wù)數(shù)據(jù)、系統(tǒng)數(shù)據(jù)等)中進(jìn)行實(shí)時(shí)和離線分析來(lái)自動(dòng)化IT運(yùn)營(yíng)流程,包括事件關(guān)聯(lián)、異常檢測(cè)、因果關(guān)系確定等。

18、數(shù)字孿生

數(shù)字孿生是物理對(duì)象的數(shù)字模型,該模型可以通過(guò)接收來(lái)自物理對(duì)象的數(shù)據(jù)而實(shí)時(shí)演化,從而與物理對(duì)象在全生命周期保持一致?;跀?shù)字孿生可進(jìn)行分析、預(yù)測(cè)、診斷、訓(xùn)練等(即仿真),并將仿真結(jié)果反饋給物理對(duì)象,從而幫助對(duì)物理對(duì)象進(jìn)行優(yōu)化和決策。

19、Serverless

Serverless,又叫無(wú)服務(wù)器。Serverless 強(qiáng)調(diào)的是一種架構(gòu)思想和服務(wù)模型,讓開(kāi)發(fā)者無(wú)需關(guān)心基礎(chǔ)設(shè)施(服務(wù)器等),而是專注到應(yīng)用程序業(yè)務(wù)邏輯上。Serverless 與 FaaS(函數(shù)即服務(wù))通常被視為可以互換的術(shù)語(yǔ),但這并不準(zhǔn)確。Serverless 是一種抽象層次更高的架構(gòu)模式,而“FaaS(函數(shù)即服務(wù)) + BaaS(后端即服務(wù))”只是 Serverless 這種架構(gòu)模式的一種實(shí)現(xiàn)。Serverless 一般具有免運(yùn)維、免運(yùn)維、按需付費(fèi)及按需付費(fèi)等特點(diǎn),數(shù)據(jù)領(lǐng)域如統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、流程處理等能力也可以封裝成函數(shù)接口,從而具備更細(xì)粒度的按需使用和按需付費(fèi)能力。

20、零信任

零信任是對(duì)傳統(tǒng)網(wǎng)絡(luò)邊界保護(hù)方法的改進(jìn),指在公司網(wǎng)絡(luò)內(nèi)、外部均不設(shè)置安全區(qū)域或可信用戶,而是將企業(yè)內(nèi)、外部的所有操作均視為不可信任,依循“永不信任,一律驗(yàn)證“的原則。零信任提倡相互認(rèn)證,包括在不考慮位置的前提下檢查設(shè)備身份和完整性,以及基于設(shè)備身份和設(shè)備狀況的置信度來(lái)結(jié)合用戶身份驗(yàn)證,提供對(duì)應(yīng)用程序和服務(wù)的訪問(wèn)許可。隨著數(shù)據(jù)安全重要性凸顯,零信任概念也逐漸被引入到數(shù)據(jù)安全技術(shù)體系。

以上這些概念基本反映了最近幾年數(shù)據(jù)技術(shù)領(lǐng)域最新的發(fā)展趨勢(shì),希望對(duì)你的延伸閱讀有所幫助。

(部分內(nèi)容來(lái)源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)
立即申請(qǐng)數(shù)據(jù)分析/數(shù)據(jù)治理產(chǎn)品免費(fèi)試用 我要試用
customer

在線咨詢

在線咨詢

點(diǎn)擊進(jìn)入在線咨詢