日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

數據囤積日益增長的威脅

時間:2019-02-28來源:億信華辰瀏覽數:875


在數據豐富的環境中生活和工作的缺點之一是希望將所有最后的位和字節松開以備將來使用。得益于Amazon S3和Hadoop等廉價存儲系統,技術上可以存儲您收集的每一條數據。但是走太遠的路可能會導致危險的情況,即數據囤積。

雖然數據囤積可能不像物理囤積現實世界的物品一樣具有威脅,但是有類似的心理學在起作用。在過去的25年中,存儲每一期“紐約時報”的物理囤積者可能會因為錯誤的想法而這樣做,他們將來需要在某個時候參考該論文。同樣地,數字囤積者可能會抓住谷歌的每一個關鍵詞報告,因為它錯誤地認為它會促進營銷工作。

數據囤積的事件正在上升,這應該不足為奇。畢竟,由于大數據熱潮,我們擁有豐富且價格合理的存儲,其中大部分存儲在云端。根據EMC數據傳播者Bill Schmarzo的說法,對于相同數量的資金,您可以在基于Hadoop的數據湖中存儲50倍于傳統數據倉庫的數據。這是一個很大的優勢。

一些大數據解決方案提供商告訴客戶不要丟棄數據,這加劇了數據囤積問題。當你將這種心態與可以從數據耗盡中輕松挖掘競爭優勢的心態以及囤積本身產生的動力結合起來時,你可以看到數據囤積有可能成為一個嚴重的問題。

從一個極端到另一個極端

在過去的20年中,我們在數據存儲領域的兩個極端之間反彈。在過去(即1995年),當存儲成本高得多時,公司只會存儲對其運營至關重要的數據。通常,數據源自操作數據存儲,并且數據將被大量轉換以嚴格符合預設模式。然后可以提取洞察并從這些嚴格控制的數據倉庫運行報告。

但是,對于數據倉庫而言,大數據湖泊已經顛覆了腳本。公司現在不存儲具有經過驗證的商業價值的數據,而是存儲任何有可能在未來提供價值的數據。其中大部分是原始數據,或“數據耗盡”,之前被丟棄,因為它沒有提供直接的商業價值。

我們已經從一個極端走向另一個極端,一家名為Xplenty數據集成初創公司的首席執行官兼聯合創始人Yaniv Mor說,他看到這種類型的數據囤積多年來變得更糟。

“現在公司傾向于簡單地存儲數據只是為了安全起見,以防萬一有人想在未來使用這些數據,”Mor說。“相對來說,存儲現在很便宜,所以他們只會將所有內容都放在Amazon?S3或Google Cloud存儲上。但是當分析師來并需要從中提取一些信息時,它就成了一個巨大的挑戰。這是我們一直看到的東西。“

Mor表示,Apache Hadoop和云存儲是數據囤積的推動因素。雖然這些平臺在存儲成本方面具有優勢,但它們也暴露了缺乏從數據中提取有用信息的專業技能。

“這是一個很大的挑戰,”莫爾說。“梳理這些數據并獲得洞察力并不容易。你必須有數據科學家和非常專業的分析師,他們擁有篩選這些數據的技能。“

數據ROT的增長

大公司和其他組織,如政府機構,都是屈從于數據囤積的人。據喬迪霍克,美國國防部和美國情報工商業的執行董事船級社,聯邦機構發現很容易只是添加,而不是面臨著數據囤積迎面而來的困難更多的存儲空間。

“有很多神話,”侯克在4月接受聯邦新聞電臺采訪時說道。“他們認為存儲是便宜的,所有數據都有價值,所有數據都具有相同的價值,并且他們會將這些數據轉移到云端。所以這是免費存儲空間,為什么我不能保留它呢?“

事實上,并非所有數據都是信息,Houck說。事實上,根據Veritas的2016年數據基因組學指數,目前普通組織存儲的數據中有40%到60%是冗余的,過時的或微不足道的(ROT)。

更重要的是,Veritas發現超過40%的組織數據是陳舊的(即三年內沒有被觸及)。組織正在花費巨額資金來存儲數百萬個沒有人正在使用的個人文件。“他們每桶花費500萬美元來存儲ROT,”Houck說。

關注營銷

雖然數據囤積是一個平等的機會犯罪者,但Xplenty的Mor所說的業務中有一部分可能特別容易發出警報:營銷。

“營銷人員只是晚上收集,但他們不一定知道如何處理它,”莫爾說。“營銷人員需要了解并非所有數據都是平等的。他們不一定必須收集營銷服務提供給他們的每個位和字節。營銷人員是創建數據沼澤的一個很好的例子。“

跟蹤事物(即“治理”)也成為囤積者的一個大問題。就像那些囤積物理物品的人可能無法在裝滿天花板的房子里找到特定物品一樣,數據囤積者也會發現自己在數據的重壓下掙扎。當嚴格的模式控制崩潰并且“隨時隨地”的心態接管數據湖時,它很快就會變成一個模糊的數據沼澤。

數據囤積沒有明確的定義,并且該綜合癥可能在不同的機構中存在不同程度。它還應該從法律規定的檔案中消除歧義。例如,銀行可能在法律上要求保留數據多年,而一些醫療保健組織必須保持數十年的醫療數據。

內部數據是20年前大多數數據倉庫計劃的來源,但今天的大數據囤積者傾向于使用隨時可用的外部數據。特別是社交媒體數據通常存儲在數據湖中,并且可以將其與其他數據混合以產生有意義的信號。但社交媒體數據通常非常“嘈雜”,并且包含可疑的商業價值。

數據囤積解決方案

解決數據囤積問題的第一步是承認存在問題。在那之后,可以采取幾種策略。

Veritas的Houck提倡自上而下的數據治理解決方案,首先要獲得對數據及其價值的可見性。在創建更好的模型來對數據進行分類之后,由數據專業人員或首席數據官來決定是否擁有所有權并實施更好的數據治理策略。

“如果我們今天實施信息治理策略并開始使用ROT和陳舊數據,我們相信有更好的方法可以支持我們的任務并降低成本,然后繼續提出創建分配項目的解決方案,以便我們能夠她在接受聯邦新聞電臺采訪時表示,移動那些對我們的系統毫無價值的數據。“這是一種文化變革。這是一項技術變革。我們無法通過手動查看每個數據來實現,但有能力自動爬行,記錄您擁有的數據,然后采取行動。“

Xplenty的Mor認為,迫切需要教育人們關于數據囤積問題。“你必須教育人們他們需要對他們可用的數據做些什么,特別是在評估數據架構方面,特別是在云上,”他說。“人們不知道如何在云上構建數據架構。”

最終,數據囤積問題必須從下至上解決,這意味著讓個人改變他們查看數據的方式。“這不是關于你在一天結束時收集了多少數據 - 這是你將從數據中獲得什么價值的問題,”他說。“每個分析師,每個數據專業人士,每天都應該問問自己這個問題。”


(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢