- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2022-05-19來源:二二的女生瀏覽數:330次
數據分析也是一個比較專業的領域,通常在 IT 團隊中,因為只有專業人員才能處理和運行復雜計算,以及選擇正確的數據可視化和輸出的復雜的分析結果。數據準備也是一項專業的任務,在整合、清理和優化數據集方面具有自身的復雜性。

全文共 2986 個字,建議閱讀需 5 分鐘
在數據科學和數據分析領域,通常說數據準備和處理占所涉及的工作占 80%。為什么在分析數據之前需要付出如此多的努力來準備數據呢?
業務系統中的數據很少以正確的格式存儲以供分析。例如:超市的銷售系統通過檢查購物車中的物品并盡可能高效地更新到庫存系統,就能幫助企業及時作出季度庫存報告和供應鏈預測。但事實上,往往是銷售系統和庫存系統的數據標準不一致,無法及時互通。
同樣重要的是,數據質量問題的存在無法滿足數據分析需要。一些數據記錄有缺失、不正確或不一致的值,它們需要修復,而且這個過程可能很復雜。企業也不希望數據分析拖慢業務系統,因此企業需要將數據移動到新位置以進行分析和報告——經常對其進行整合、組合和管理數據質量。
由于所有這些原因,數據準備是分析應用程序中一個重要的,實際上也是不可避免的步驟。事實上,我經常說數據準備是一個重要意義的數據分析,因為你需要知道你將如何使用數據才能知道如何準備它。大多數情況下,真正了解這些用例的不是 IT,而是業務用戶或數據科學家。現在,他們可以使用一些工具來進行自助數據準備。
01 什么是自助數據準備?
即使在最近,數據分析也是一個比較專業的領域,通常在 IT 團隊中,因為只有專業人員才能處理和運行復雜計算,以及選擇正確的數據可視化和輸出的復雜的分析結果。數據準備也是一項專業的任務,在整合、清理和優化數據集方面具有自身的復雜性。
近年來,分析的實踐取得了長足的進步,現在業務用戶擁有出色的、相對簡單的數據分析、數據可視化和數據報告工具。他們可以是業務專家,但大部分技術負擔現在由更智能的 BI 應用程序處理。
隨著業務用戶熟悉自助式 BI 和分析,他們也希望直接使用數據。您可以根據需要構建自己的可視化、報告和儀表板,那么如果您總是需要向 IT 或數據管理團隊咨詢更多,并且IT團隊需要按您想要的方式組織和格式化的數據,這將成為你生產力的障礙。
數據科學家處于類似的情況,但有一些不同。他們還需要將數據從操作系統中提取出來,放到合適的位置進行機器學習、預測建模和其他高級分析。他們也需要整理數據記錄,但他們可能會發現一些不一致的地方很有用——比如欺詐分析。他們還需要數據處于正確的形狀以供算法處理,這可能意味著將所有數據收集到一個非常大的表中。他們通常想自己做所有這些事情。
自助數據準備使數據科學家和業務用戶能夠做到這一點,使他們能夠通過簡單易用的桌面或云應用程序進行數據來源、整形和清理工作。
02 自助數據準備的工作原理
在許多方面,自助數據準備過程與傳統 IT 驅動的數據準備過程相同,以下是六個稍微簡化的步驟:
收集數據。當 IT 進行數據準備工作時,它可能會從整個企業收集數據,通常使用專業的連接器和數據庫技術的“專業知識”。業務用戶最有可能使用其自助數據準備平臺中內置的簡化連接器連接到熟悉的應用系統。
分析數據。為了有效地使用您收集的數據,您需要預覽它并查看它的完整性和準確性。自助服務工具通常包括數據分析功能,該功能還提供有關值范圍、異常值、錯誤和其他數據屬性問題的統計信息。
連接數據。當您需要分析來自不同數據集的數據,或者來自一個數據集中不同表的數據時,您必須首先將數據連接起來。執行連接的邏輯和代碼仍然是數據庫程序員技術考試中最喜歡的問題。但是自助服務工具可以幫助您,通常使連接變得像拖放程序一樣簡單。
清理數據。您的數據很少立即足以進行分析。您可能需要為缺失值添加默認值或使不同格式符合相同的模式,例如標準國家代碼。數據準備工具越來越多地提供出色的數據質量功能。其他可能包括與專業數據質量服務集成的更簡單的功能。
轉換數據。我之前提到過,數據需要以正確的形式進行分析。例如,數據科學家使用的非常扁平的結構與金融分析師使用的非常分層的結構之間存在顯著差異。這種整形是數據轉換的一個重要元素,它還涉及將數據轉換為最后一步的正確格式。
存儲數據。完成所有這些工作后,數據需要保存到某個地方以備將來使用。常見目標包括:數據倉庫和數據湖,您也可以在其中將其提供給其他用戶。您還可以將數據存儲在特定于首選的 BI 和數據可視化工具的系統中,或者您可以將其保存在本地以供自己使用。
良好的自助數據準備工具包括支持所有這些步驟的功能,即使其中一些數據準備過程的流程略有不同。
03 自助數據準備的好處
自助數據準備的優勢可分為以下三類:
它通過為業務用戶和數據科學家提供簡化的工具來獨立完成傳統上復雜的工作,從而使他們更加敏捷和高效。這使他們免于 IT 團隊收集需求、構建和測試原型、獲取反饋等耗時的流程。
使分析用戶能夠完成自己的數據準備工作還可以釋放 IT 和數據管理資源,以完成更高效的任務。
自助服務方法使數據準備工作能夠更廣泛地分布在整個企業及其 IT 基礎設施中,避免瓶頸并增強彈性。
當營銷團隊需要對商業環境的重大變化做出反應時,這些好處在行動中的一個很好的例子就是。我們都在 COVID-19 大流行中看到了這一點。病毒爆發后,許多零售商希望將來自實體位置的客戶數據與在線活動和有關 COVID-19 病例的本地數據聯系起來。他們想問一些簡單的問題卻很難回答,比如他們仍然可以期待什么樣的客流量,以及有多少業務可能會轉移到線上。
大多數情況下,這些數據集并不存在,因為這種情況非常特殊且非常新。IT 團隊——當時正在努力應對自己的新挑戰——可能需要數周時間來準備數據,即使他們可以優先考慮這項工作。但是通過自助數據準備,營銷團隊可以輕松地獲取內部和外部數據集,連接它們,并根據需要清理和轉換它們。事實證明,這種加速分析對于應對“大流行病”至關重要。
這些特定優勢令人信服,但許多企業發現自助數據準備的最終優勢最為重要,即使它最難量化。用戶效率的提高使他們更有能力、更有可能探索新的場景并測試分析業務運營的創新方法。自助式數據準備的最大的好處是企業與其業務數據的聯系更緊密,信息也更豐富。
04 自助數據準備與ETL數據管道
當然,自助數據準備工具并不是唯一的游戲。仍然有為 IT 設計的成熟應用程序——主要是提取、轉換和加載 (ETL) 工具,其他數據準備技術可供數據科學家使用。
第一個也是最重要的區別是簡單性和可用性。自助服務工具專為非專業人士打造。他們可能需要一些培訓——當然也會獎勵一些學習和實踐——但它們是專門為讓用戶快速入門而設計的。
ETL 是一種重量級數據集成技術,旨在在數據庫之間移動大量數據,同時在數據移動期間對其進行整合和清理。ETL 工具可以配置為利用數據庫的最高級功能,它們包括用于錯誤處理和創建復雜邏輯的高級功能。盡管這些工具更易于使用,但 ETL 工作通常是一項專門的工作,尤其是在大型企業中。
雖然數據科學家在某些應用程序中使用自助數據準備工具,但許多人的大部分工作都是使用腳本語言完成的,例如Python和R。大多數情況下,他們不僅開發一個腳本,還開發一系列相關腳本程序,它們之間存在復雜的依賴關系。協調腳本創建了一個數據科學管道,該管道將一組操作應用于數據集。雖然由于有了新工具,構建這樣的管道也變得更加容易,但它仍然是數據科學工作的專門選擇。
對于更簡單的數據科學場景,以及經常需要分析數據并創建可視化和報告的業務用戶,自助數據準備是一項越來越重要的能力。他們非常清楚,數據對于手頭的任務來說很少是完美的——而且他們是最適合使其適合預期目的的人。
<END>
上一篇:數據治理與數據認責概述...
下一篇:數據倉庫建設 從0到1...