為了發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測(cè)未來(lái)的發(fā)展趨勢(shì)以及挖掘數(shù)據(jù)背后隱藏知識(shí),數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。
數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘是一個(gè)通過(guò)統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中信息的過(guò)程。獲取的信息和知識(shí)可以廣泛用于各種應(yīng)用,包括商務(wù)管理、生產(chǎn)控制、市場(chǎng)分析、工程設(shè)計(jì)和科學(xué)探索等。
數(shù)據(jù)挖掘的步驟
一、確定挖掘?qū)ο?br />
數(shù)據(jù)挖掘的對(duì)象可以是任何類型的數(shù)據(jù)源。可以是關(guān)系數(shù)據(jù)庫(kù),此類包含結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)源;也可以是數(shù)據(jù)倉(cāng)庫(kù)、文本、多媒體數(shù)據(jù)、空間數(shù)據(jù)、時(shí)序數(shù)據(jù)、Web數(shù)據(jù),此類包含半結(jié)構(gòu)化數(shù)據(jù)甚至異構(gòu)性數(shù)據(jù)的數(shù)據(jù)源。因此,首先要根據(jù)業(yè)務(wù)需求確定挖掘?qū)ο蟆?br />
二、數(shù)據(jù)準(zhǔn)備
首先,搜索所有與業(yè)務(wù)對(duì)象有關(guān)的內(nèi)部和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù);然后,研究數(shù)據(jù)的質(zhì)量,為進(jìn)一步的分析作準(zhǔn)備.并確定將要進(jìn)行的挖掘操作的類型;再將數(shù)據(jù)轉(zhuǎn)換成一個(gè)分析模型.這個(gè)分析模型是針對(duì)挖掘算法建立的.建立一個(gè)真正適合挖掘算法的分析模型是數(shù)據(jù)挖掘成功的關(guān)鍵.
三、數(shù)據(jù)挖掘
選擇合適的挖掘算法對(duì)所得到的經(jīng)過(guò)轉(zhuǎn)換的數(shù)據(jù)進(jìn)行挖掘。
四、可視化分析
根據(jù)數(shù)據(jù)挖掘方法,使用可視化技術(shù)解釋并評(píng)估結(jié)果。
五、建立知識(shí)圖譜
將分析所得到的知識(shí)集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去.
數(shù)據(jù)挖掘過(guò)程圖
在數(shù)據(jù)挖掘經(jīng)常需要數(shù)據(jù)集成合并來(lái)自多個(gè)數(shù)據(jù)存儲(chǔ)的數(shù)據(jù),存放在一個(gè)一致的數(shù)據(jù)存儲(chǔ)中,這些數(shù)據(jù)源可能包括多個(gè)數(shù)據(jù)庫(kù)。數(shù)據(jù)集成有助于減少結(jié)果數(shù)據(jù)集的冗余和不一致,提高后續(xù)挖掘過(guò)程的準(zhǔn)確性和速度。
數(shù)據(jù)集成的定義
數(shù)據(jù)集成就是將若干個(gè)分散的數(shù)據(jù)源中的數(shù)據(jù),邏輯地或物理地集成到一個(gè)統(tǒng)一的數(shù)據(jù)集合中。數(shù)據(jù)集成的核心任務(wù)是要將互相關(guān)聯(lián)的分布式異構(gòu)數(shù)據(jù)源集成到一起,使用戶能夠以透明的方式訪問(wèn)這些數(shù)據(jù)源。集成是指維護(hù)數(shù)據(jù)源整體上的數(shù)據(jù)一致性、提高信息共享利用的效率;透明的方式是指用戶無(wú)需關(guān)心如何實(shí)現(xiàn)對(duì)異構(gòu)數(shù)據(jù)源數(shù)據(jù)的訪問(wèn),只關(guān)心以何種方式訪問(wèn)何種數(shù)據(jù)。實(shí)現(xiàn)數(shù)據(jù)集成的系統(tǒng)稱作數(shù)據(jù)集成系統(tǒng)(見(jiàn)下圖),它為用戶提供統(tǒng)一的數(shù)據(jù)源訪問(wèn)接口,執(zhí)行用戶對(duì)數(shù)據(jù)源的訪問(wèn)請(qǐng)求。
數(shù)據(jù)集成系統(tǒng)模型
數(shù)據(jù)集成方法
中間件集成方法是目前比較流行的數(shù)據(jù)集成方法,中間件數(shù)據(jù)集成系統(tǒng)主要包括中間件和封裝器,其中每個(gè)數(shù)據(jù)源對(duì)應(yīng)一個(gè)封裝器,中間件通過(guò)封裝器和各個(gè)數(shù)據(jù)源交互。用戶在全局?jǐn)?shù)據(jù)模式的基礎(chǔ)上向中間件發(fā)出查詢請(qǐng)求。中間件處理用戶請(qǐng)求,將其轉(zhuǎn)換成各個(gè)數(shù)據(jù)源能夠處理的子查詢請(qǐng)求,并對(duì)此過(guò)程進(jìn)行優(yōu)化,以提高查詢處理的并發(fā)性,減少響應(yīng)時(shí)間。封裝器對(duì)特定數(shù)據(jù)源進(jìn)行了封裝,將其數(shù)據(jù)模型轉(zhuǎn)換為系統(tǒng)所采用的通用模型,并提供一致的訪問(wèn)機(jī)制。中間件將各個(gè)子查詢請(qǐng)求發(fā)送給封裝器,由封裝器來(lái)和其封裝的數(shù)據(jù)源交互,執(zhí)行子查詢請(qǐng)求,并將結(jié)果返回給中間件。
佛山某區(qū)政務(wù)服務(wù)數(shù)據(jù)管理局為了解決存在的痛點(diǎn),主要建設(shè)以下內(nèi)容:
-
優(yōu)化數(shù)據(jù)架構(gòu),替換交換平臺(tái);
-
建設(shè)數(shù)據(jù)治理平臺(tái),提升數(shù)據(jù)質(zhì)量
-
助力無(wú)紙化改革,優(yōu)化無(wú)紙化入學(xué)方案
-
數(shù)據(jù)可視化管理
運(yùn)用億信華辰數(shù)據(jù)集成管理系統(tǒng)取得了顯著成效:
-
由政務(wù)服務(wù)數(shù)據(jù)管理局大數(shù)據(jù)中心對(duì)接教育局報(bào)名數(shù)據(jù)和各部門(mén)數(shù)據(jù),減少教育局對(duì)接工作;
-
建設(shè)數(shù)據(jù)治理平臺(tái),將所對(duì)接的問(wèn)題數(shù)據(jù)進(jìn)行治理,提升數(shù)據(jù)質(zhì)量;
-
優(yōu)化數(shù)據(jù)比對(duì)算法,將教育局報(bào)名數(shù)據(jù)和各部門(mén)數(shù)據(jù)進(jìn)行智能匹配,提升數(shù)據(jù)比對(duì)率;
-
政務(wù)服務(wù)數(shù)據(jù)管理局將比對(duì)結(jié)果反饋到教育局,完成核實(shí)與錄取過(guò)程,將對(duì)接和比對(duì)的工作量完全交給系統(tǒng),徹底解放人工工作量。