日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

教育大數據之數據開發系統

時間:2022-09-09來源:愛轉角瀏覽數:422

01什么是數據開發?

翻閱了很多資料,大多都在講大數據開發這個崗位,包含這個崗位是做什么的,有哪些技術需要掌握等等。從大數據開發的工作內容來看大數據開發主要負責大數據挖掘、數據清洗、數據建模等。

根據大數據開發的工作崗位大概推算一下,數據開發系統大概提供的個人能力就是數據挖掘、數據計算和數據建模;抱著這個想法我找到公司的研發大佬進行求證和學習,最后總結數據開發系統的定義為:基于大數據基礎平臺的數據資源和計算存儲能力,結合服務資源層的各類后臺服務,可以為后續各類大數據應用的開發提供一站式數據開發系統。

通俗講,數據開發系統就是對有效集成的數據進行預處理、存儲、訓練、計算、挖掘,通過數據分析獲取有效的結論,推送給前端業務系統,從而幫助用戶挖掘數據潛在的業務價值。接上篇文章來說,就是所有的糧食通過管道(數據集成系統)接入到我們系統中了,接下來需要熬粥了,至于熬什么粥、怎么熬,需要有個工具來提供服務,此時數據開發系統就應運而生了,通過數據開發系統可以對所有接入的數據進行各種計算、挖掘,來得到目標數據。

02為什么需要數據開發系統?

(1)提供一站式數據開發

教育大數據覆蓋眾多業務場景,如果每個業務場景都進行集群的搭建和后續的運維,需要消耗大量的人力,通過數據開發系統,數據工程師可以將原始數據轉變為具有洞察的海量業務數據能力的應用服務,而無需關心集群的搭建和運維。數據開發系統支持多種類型的離線ETL任務(例如HiveSQL、MapReduce、Shell等)的開發、運維、監控、以及強大的離線計算任務調度功能,為使用者提供離線數據計算任務的協同開發服務。

(2)教育大數據本身特性

借助分布式平臺解決教育多源松散數據的建模和存儲,滿足教育碰撞的性能要求,同時協同教育理論通過數據科學來幫助學校提供更多的信息,回答更高級的問題:學生學習行為分析、考試結果挖掘、教師教學特征等。

03數據開發系統的特點是什么?

(1)多平臺協作,獲取數據源

支持用戶上傳本地數據,自定義數據源添加和申請系統管理發布的共享數據。

(2)計算任務是開發平臺的核心模塊

整個系統是一個以集中調度管理監控為中心,以任務為基礎的架構。系統通過制定任務開發設計規范,實現計算任務的集中調度和監控,從而使得分散管理的、多種類型的計算任務可以實現集中的統一的角度和監控,大大簡化任務管理工作負擔;支持離線、實時任務運行。

(3)計算任務編輯器

系統基于“系統組件化、功能模塊化、參數配置化和信息服務化”的思想開發;支持通過可視化界面創建模型訓練和計算任務,獲取模型分析預測結果,可自定義拖拽相關控件在工作區創建計算工作流程,操作方便快捷。

(4)豐富的算法庫和預處理組件

提供多種內置算法和數據預處理組件(數據集成系統的預處理就是調用這里的能力);模型算法至少支持決策樹、隨機森林、貝葉斯等,并支持用戶上傳自定義算法。

04數據開發系統怎么做?

4.1

數據開發系統數據流轉

數據開發系采用流程化進行開發,共計包含3個步驟:

(1)添加數據源

數據源包含傳統的MYSQL數據、NoSQL數據以及用戶自己上傳的私有數據,可以通過基礎控件庫中的源節點進行選擇;

(2)數據處理

整個數據處理階段,包含數據收集與存儲、數據分析與處理以及數據提取;通過數據的相關處理過程生成對應的計算結果集;要通過基礎控件庫中的字段節點以及模型控件庫完成;

(3)構建服務

數據服務主要是通過數據服務、頁面服務對外提供模型服務支撐,在整個服務過程中,會將服務創建到公共基礎支撐的服務總線上,為每一個服務創建一個私有數據服務接口,用戶可以直接在使用私有數據服務接口進行信息的調用。

4.2

數據開發系統功能結構

4.3

功能介紹

4.3.1 系統管理

系統管理主要提供基礎信息維護,包含用戶管理、角色管理、隊列管理等,這部分的功能和很多B端后臺管理系統類似,不進行過多介紹;

針對權限啰嗦幾句,通過角色和權限兩個維度對平臺用戶進行身份授權,具有合法權限的用戶才可以進行操作,不具備權限的用戶會被拒絕不能進行操作。為了實現最小化授權和訪問控制,大數據平臺的訪問控制授權系統從以下幾個方面進行細粒度的權限控制:訪問主體、訪問客體、訪問權限、訪問有效期、訪問時間段、訪問來源;

4.3.2 數據源管理

數據源管理主要支持用戶對數據源進行增刪改查,支持多源異構數據源的接入;對于有條件共享的資源,支持進行申請操作;對于無條件共享的資源,支持進行接入操作;

自定義數據源支持用戶添加管理第三方數據源,對開發平臺提供第三方數據源連接,自定義數據資源管理支持添加明確的數據庫表或者主題信息,實現第三方數據通過同步或直連模式進行管理。

4.3.3 資源管理

數據開發過程中,所有對數據的處理都可以提前寫好腳本存儲在系統中,作為資源在創建任務時進行調用,各種預處理、數據分析模型、算法模型等均在此列;

4.3.4 工作流管理

工作流管理主要包含工作流定義、工作流實例、任務實例三個模塊,實現工作流的創建、運行、監控全過程管理。

4.3.4.1 工作流定義

工作流定義模塊主要是用戶對工作流進行編輯、運行、定時管理、上線/下線、刪除;在這個模塊主要定義清楚工作流的來源和目的地,通過可視化組件快速搭建流式計算。

(1)操作說明

運行:支持對已上線的任務執行運行操作,點擊運行之后任務正式進入隊列進行計算;

定時管理:支持給工作流創建定時任務,實現例行調度。

(2) 創建工作流

通過拖拽左側工具欄下任務類型到畫板中,實現任務的創建,例如:拖拽SQL節點到畫板中,彈出如下窗口:

不知道大家看到彈窗里的參數有何感想,當我剛開始要做時,其實我只想到了幾個參數,是研發大佬看著我的原型和我一遍又一遍的確認,最終得到了上圖這些參數(感動啊)。下方是參數詳細說明:

4.3.4.2 工作流實例

工作流實例就是工作流每一次執行的記錄,我們可以在這里查看執行結果和執行日志。

工作流實例頁面支持編輯、重跑、恢復失敗、殺死、暫停、刪除等操作。

(1)列表操作

重跑:重新執行已經終止的流程;

恢復失敗:針對運行失敗的流程,可以執行,從失敗的異常開始執行;

扇死:對正在運行的流程進行停止操作,后臺會先kill工作流程,再執行kill操作;

暫停:對暫停的恢復流程,直接從暫停的節點開始運行。

4.3.4.3 任務實例

工作流是由一個個任務節點組成的,在任務實例頁面支持查看每個任務節點的執行情況和執行日志。

05結語

數據開發系統在整個大數據能力平臺中承載著不可替代的作用,數據集成系統底層任務也是依賴于數據開發系統實現的;通過數據開發系統,建立教育大數據匯聚、清洗、存儲、計算、建模分析、運維監控的各項基礎能力,完成從數據到信息、從信息到知識的過程,讓分散、雜亂的數據變成有序的數據資產。

通過數據挖掘分析,進行教育數據價值挖掘,并形成數據資產進行開放共享;最終實現大數據驅動教學、大數據驅動學習以及大數據驅動管理的整體大數據應用建設。

(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢