在如今的大數(shù)據(jù)時(shí)代,信息的來源日益繁多,包括網(wǎng)站、企業(yè)應(yīng)用程序、社交媒體、移動設(shè)備以及日益增加的物聯(lián)網(wǎng)產(chǎn)生的信息(loT)。對企業(yè)來說,如何從這些信息中獲得真正的商業(yè)價(jià)值變得越發(fā)重要,而數(shù)據(jù)挖掘就是數(shù)據(jù)分析過程中有針對性的一環(huán),優(yōu)秀的數(shù)據(jù)分析師會用聰明的挖掘動作,讓復(fù)雜的數(shù)據(jù)變得更得心應(yīng)手。

“數(shù)據(jù)挖掘”這個(gè)術(shù)語常常被應(yīng)用于各種大規(guī)模的數(shù)據(jù)處理活動中,如收集、提取、倉儲和分析數(shù)據(jù)。它還可以應(yīng)用于幫助應(yīng)用程序和技術(shù)的改進(jìn)決策,如人工智能、機(jī)器學(xué)習(xí)和
商業(yè)智能。
今天我們就來說說,什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘的過程是怎樣的?以及它的具體算法又有哪些?我們又該如何學(xué)習(xí)數(shù)據(jù)挖掘?
01、在大千世界中發(fā)現(xiàn)有價(jià)值的知識1.數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘(Data Mining)是指通過大量數(shù)據(jù)集進(jìn)行分類的自動化過程,以通過數(shù)據(jù)分析來識別趨勢和模式,建立關(guān)系來解決業(yè)務(wù)問題。換句話說,數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
2.與數(shù)據(jù)分析的區(qū)別
數(shù)據(jù)分析和數(shù)據(jù)挖掘都是從數(shù)據(jù)庫中發(fā)現(xiàn)知識、所以我們稱數(shù)據(jù)分析和數(shù)據(jù)挖掘叫做數(shù)據(jù)庫中的知識發(fā)現(xiàn)。但嚴(yán)格意義上來講,數(shù)據(jù)挖掘才是真正意義上的數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database ,KDD)。
數(shù)據(jù)分析是從數(shù)據(jù)庫中通過統(tǒng)計(jì)、計(jì)算、抽樣等相關(guān)的方法,獲取基于數(shù)據(jù)庫的數(shù)據(jù)表象的知識,也就是指數(shù)據(jù)分析是從數(shù)據(jù)庫里面得到一些表象性的信息。數(shù)據(jù)挖掘是從數(shù)據(jù)庫中,通過機(jī)器學(xué)習(xí)或者是通過數(shù)學(xué)算法等相關(guān)的方法獲取深層次的知識(比如屬性之間的規(guī)律性,或者是預(yù)測)的技術(shù)。
3.數(shù)據(jù)挖掘,有利有弊
原則上講,數(shù)據(jù)挖掘可以應(yīng)用于任何類型的信息存儲庫及瞬態(tài)數(shù)據(jù)(如數(shù)據(jù)流),如數(shù)據(jù)庫、
數(shù)據(jù)倉庫、
數(shù)據(jù)集市、事務(wù)數(shù)據(jù)庫、空間數(shù)據(jù)庫(如地圖等)、工程設(shè)計(jì)數(shù)據(jù)(如建筑設(shè)計(jì)等)、多媒體數(shù)據(jù)(文本、圖像、視頻、音頻)、網(wǎng)絡(luò)、數(shù)據(jù)流、時(shí)間序列數(shù)據(jù)庫等。也正因如此,數(shù)據(jù)挖掘存在以下特點(diǎn):

(1)數(shù)據(jù)集大且不完整
數(shù)據(jù)挖掘所需要的數(shù)據(jù)集是很大的,只有數(shù)據(jù)集越大,得到的規(guī)律才能越貼近于正確的實(shí)際的規(guī)律,結(jié)果也才越準(zhǔn)確。除此以外,數(shù)據(jù)往往都是不完整的。
(2)不準(zhǔn)確性
數(shù)據(jù)挖掘存在不準(zhǔn)確性,主要是由噪聲數(shù)據(jù)造成的。比如在商業(yè)中用戶可能會提供假數(shù)據(jù);在工廠環(huán)境中,正常的數(shù)據(jù)往往會收到電磁或者是輻射干擾,而出現(xiàn)超出正常值的情況。這些不正常的絕對不可能出現(xiàn)的數(shù)據(jù),就叫做噪聲,它們會導(dǎo)致數(shù)據(jù)挖掘存在不準(zhǔn)確性。
(3)模糊的和隨機(jī)的
數(shù)據(jù)挖掘是模糊的和隨機(jī)的。這里的模糊可以和不準(zhǔn)確性相關(guān)聯(lián)。由于數(shù)據(jù)不準(zhǔn)確導(dǎo)致只能在大體上對數(shù)據(jù)進(jìn)行一個(gè)整體的觀察,或者由于涉及到隱私信息無法獲知到具體的一些內(nèi)容,這個(gè)時(shí)候如果想要做相關(guān)的分析操作,就只能在大體上做一些分析,無法精確進(jìn)行判斷。
而數(shù)據(jù)的隨機(jī)性有兩個(gè)解釋,一個(gè)是獲取的數(shù)據(jù)隨機(jī);我們無法得知用戶填寫的到底是什么內(nèi)容。第二個(gè)是分析結(jié)果隨機(jī)。數(shù)據(jù)交給機(jī)器進(jìn)行判斷和學(xué)習(xí),那么一切的操作都屬于是灰箱操作。
由此,我們可以看出,數(shù)據(jù)挖掘這個(gè)強(qiáng)大的工具是利弊共存的,在合適的時(shí)機(jī)使用,方能事倍功半。
02、持續(xù)發(fā)展業(yè)務(wù)數(shù)據(jù)挖掘技術(shù)不可忽視
1.更便捷的開發(fā)模型
在過去很多年, 首要原則模型 (first-principle models)是科學(xué)工程領(lǐng)域最為經(jīng)典的模型。比如你要想知道某輛車從啟動到速度穩(wěn)定行駛的距離,那么你會先統(tǒng)計(jì)從啟動到穩(wěn)定耗費(fèi)的時(shí)間、穩(wěn)定后的速度、加速度等參數(shù);然后運(yùn)用牛頓第二定律(或者其他物理學(xué)公式)建立模型;最后根據(jù)該車多次實(shí)驗(yàn)的結(jié)果列出方程組從而計(jì)算出模型的各個(gè)參數(shù)。
通過該過程,你就相當(dāng)于學(xué)習(xí)到了一個(gè)知識 --- 某輛車從啟動到速度穩(wěn)定行駛的具體模型。此后往該模型輸入車的啟動參數(shù)便可自動計(jì)算出該車達(dá)到穩(wěn)定速度前行駛的距離。
然而,在數(shù)據(jù)挖掘的思想中,知識的學(xué)習(xí)是不需要通過具體問題的專業(yè)知識建模。如果之前已經(jīng)記錄下了100輛型號性能相似的車,從啟動到速度穩(wěn)定行駛的距離,那么我就能夠?qū)@100個(gè)數(shù)據(jù)求均值,從而得到結(jié)果。顯然,這一過程是是直接面向數(shù)據(jù)的,或者說我們是直接從數(shù)據(jù)開發(fā)模型的。
這其實(shí)是模擬了人的原始學(xué)習(xí)過程。比如你要預(yù)測一個(gè)人跑100米要多久時(shí)間,你肯定是根據(jù)之前了解的他(研究對象)這樣體型的人跑100米用的多少時(shí)間做一個(gè)估計(jì),而不會使用牛頓定律來算。
2.計(jì)算機(jī)技術(shù)的成熟
數(shù)據(jù)挖掘理論涉及到的面很廣,它實(shí)際上起源于多個(gè)學(xué)科。如建模部分主要起源于統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)。統(tǒng)計(jì)學(xué)方法以模型為驅(qū)動 ,常常建立一個(gè)能夠產(chǎn)生數(shù)據(jù)的模型;而機(jī)器學(xué)習(xí)則以算法為驅(qū)動 ,讓計(jì)算機(jī)通過執(zhí)行算法來發(fā)現(xiàn)知識。

隨著互聯(lián)網(wǎng)工具的發(fā)展,分享和協(xié)作的成本大大降低。我們每天用手機(jī)聊天、購物、刷短視頻、看新聞等日常的不經(jīng)意動作給互聯(lián)網(wǎng)行業(yè)提供了體量龐大的數(shù)據(jù)。這些數(shù)據(jù)通常被收集、存放在大型
數(shù)據(jù)存儲庫中,沒有強(qiáng)有力的工具,理解它們已經(jīng)遠(yuǎn)遠(yuǎn)超出了我們的能力。而數(shù)據(jù)挖掘技術(shù)的出現(xiàn)解決了這一問題。它可以從海量的數(shù)據(jù)中提取出有價(jià)值的信息,從而作為決策的重要依據(jù)。
3.為企業(yè)生產(chǎn)銷售做預(yù)測
數(shù)據(jù)挖掘的真正價(jià)值在于能夠以數(shù)據(jù)中的模式和關(guān)系的形式挖掘隱藏的寶石,這可以用來做出對企業(yè)有重大影響的預(yù)測。例如,如果一家公司確定特定的營銷活動導(dǎo)致在該國某些地區(qū)的某種產(chǎn)品的特定型號的銷售額非常高,而在其它地區(qū)則不然,那么它可以在將來重新調(diào)整該廣告活動以獲得最大的回報(bào)。
該技術(shù)的好處可能會因業(yè)務(wù)類型和目標(biāo)而異。例如,零售業(yè)的銷售和營銷經(jīng)理可能用不同的方式挖掘客戶信息以提高轉(zhuǎn)化率,這種提高轉(zhuǎn)化率的方式迥異于航空公司或金融服務(wù)業(yè)。
不管是什么行業(yè),過去應(yīng)用于銷售模式和客戶行為的數(shù)據(jù)挖掘都可用于創(chuàng)建預(yù)測未來銷售和行為的模型。數(shù)據(jù)挖掘也有助于取消可能損害企業(yè)的活動。例如,你可以使用數(shù)據(jù)挖掘來提高產(chǎn)品的安全性,或檢測保險(xiǎn)和金融服務(wù)交易中的欺詐活動。
03、數(shù)據(jù)挖掘的目標(biāo)是什么?
數(shù)據(jù)挖掘的兩大基本目標(biāo)是預(yù)測和描述數(shù)據(jù),其中前者的計(jì)算機(jī)建模及實(shí)現(xiàn)過程通常被稱為監(jiān)督學(xué)習(xí)(supervised learning) ,后者的則通常被稱為無監(jiān)督學(xué)習(xí)(supervised learning) 。往更細(xì)分,數(shù)據(jù)挖掘的目標(biāo)可以劃分為以下這些:
1.預(yù)測數(shù)據(jù)
預(yù)測性挖掘任務(wù)對當(dāng)前數(shù)據(jù)進(jìn)行推斷,以做出預(yù)測。預(yù)測主要包括分類——將樣本劃分到幾個(gè)預(yù)定義類之一;回歸——將樣本映射到一個(gè)真實(shí)值預(yù)測變量上。也就是說給了一定的目標(biāo)屬性,讓去預(yù)測目標(biāo)的另外一特定屬性。如果該屬性是離散的,通常稱之為“分類”,而如果目標(biāo)屬性是一個(gè)連續(xù)的值,則稱之為“回歸”。
2.描述數(shù)據(jù)
描述性挖掘任務(wù)是描述數(shù)據(jù)庫中數(shù)據(jù)的一般性質(zhì)。描述主要包括聚類——將樣本劃分為不同類(無預(yù)定義類),關(guān)聯(lián)規(guī)則發(fā)現(xiàn)——發(fā)現(xiàn)數(shù)據(jù)集中不同特征的相關(guān)性。這是指找出數(shù)據(jù)間潛在的聯(lián)系模式。比方說兩個(gè)數(shù)據(jù)存在強(qiáng)關(guān)聯(lián)的關(guān)系,像
大數(shù)據(jù)分析發(fā)現(xiàn)的一個(gè)特點(diǎn):買尿布的男性通常也會買點(diǎn)啤酒,那么商家根據(jù)這個(gè)可以將這兩種商品打包出售來提高業(yè)績。
另外一個(gè)非常重要的就是聚類分析,這也是在日常數(shù)據(jù)挖掘中應(yīng)用非常非常頻繁的一種分析,旨在發(fā)現(xiàn)緊密相關(guān)的觀測值組群,可以在沒有標(biāo)簽的情況下將所有的數(shù)據(jù)分為合適的幾類來進(jìn)行分析或者降維。
其他的描述任務(wù)還有異常檢測,其過程類似于聚類的反過程,聚類將相似的數(shù)據(jù)聚合在一起,而異常檢測將離群太遠(yuǎn)的點(diǎn)給剔除出來。
04、數(shù)據(jù)挖掘的常見分析方法1.神經(jīng)網(wǎng)絡(luò)方法
神經(jīng)網(wǎng)絡(luò)由于本身良好的魯棒性、自組織自適應(yīng)性、并行處理、分布存儲和高度容錯(cuò)等特性非常適合解決數(shù)據(jù)挖掘的問題,因此近年來越來越受到人們的關(guān)注。
2.遺傳算法
遺傳算法是一種基于生物自然選擇與遺傳機(jī)理的隨機(jī)搜索算法,是一種仿生全局優(yōu)化方法。遺傳算法具有的隱含并行性、易于和其它模型結(jié)合等性質(zhì)使得它在數(shù)據(jù)挖掘中被加以應(yīng)用。
3.決策樹方法
決策樹是一種常用于預(yù)測模型的算法,它通過將大量數(shù)據(jù)有目的分類,從中找到一些有價(jià)值的,潛在的信息。它的主要優(yōu)點(diǎn)是描述簡單,分類速度快,特別適合大規(guī)模的數(shù)據(jù)處理。
4.粗集方法
粗集理論是一種研究不精確、不確定知識的數(shù)學(xué)工具。粗集方法有幾個(gè)優(yōu)點(diǎn):不需要給出額外信息;簡化輸入信息的表達(dá)空間;算法簡單,易于操作。粗集處理的對象是類似二維關(guān)系表的信息表。
5.覆蓋正例排斥反例方法
它是利用覆蓋所有正例、排斥所有反例的思想來尋找規(guī)則。首先在正例集合中任選一個(gè)種子,到反例集合中逐個(gè)比較。與字段取值構(gòu)成的選擇子相容則舍去,相反則保留。按此思想循環(huán)所有正例種子,將得到正例的規(guī)則(選擇子的合取式)。
6.統(tǒng)計(jì)分析方法
在數(shù)據(jù)庫字段項(xiàng)之間存在兩種關(guān)系:函數(shù)關(guān)系和相關(guān)關(guān)系,對它們的分析可采用統(tǒng)計(jì)學(xué)方法,即利用統(tǒng)計(jì)學(xué)原理對數(shù)據(jù)庫中的信息進(jìn)行分析。可進(jìn)行常用統(tǒng)計(jì)、回歸分析、相關(guān)分析、差異分析等。
7.模糊集方法
即利用模糊集合理論對實(shí)際問題進(jìn)行模糊評判、模糊決策、模糊模式識別和模糊聚類分析。系統(tǒng)的復(fù)雜性越高,模糊性越強(qiáng),一般模糊集合理論是用隸屬度來刻畫模糊事物的亦此亦彼性的。其他相關(guān)算法參考文末分享的參考文章。
05、數(shù)據(jù)挖掘的基本步驟
從形式上來說,數(shù)據(jù)挖掘的開發(fā)流程是迭代式的。開發(fā)人員通過如下幾個(gè)階段對數(shù)據(jù)進(jìn)行迭代式處理:
1.解讀需求
絕大多數(shù)的數(shù)據(jù)挖掘工程都是針對具體領(lǐng)域的,因此數(shù)據(jù)挖掘工作人員不應(yīng)該沉浸在自己的算法模型世界里,而應(yīng)該多和具體領(lǐng)域的專家交流合作以正確的解讀出項(xiàng)目需求,且這種合作應(yīng)當(dāng)貫穿整個(gè)項(xiàng)目生命周期。
2.搜集數(shù)據(jù)
在大型公司,數(shù)據(jù)搜集大都是從其他業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫提取。很多時(shí)候我們是對數(shù)據(jù)進(jìn)行抽樣,在這種情況下必須理解數(shù)據(jù)的抽樣過程是如何影響取樣分布,以確保評估模型環(huán)節(jié)中用于訓(xùn)練(train)和檢驗(yàn)(test)模型的數(shù)據(jù)來自同一個(gè)分布。
3.預(yù)處理數(shù)據(jù)
預(yù)處理數(shù)據(jù)可主要分為數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)歸約兩部分。其中前者包含了缺失值處理、異常值處理、歸一化、平整化、時(shí)間序列加權(quán)等;而后者主要包含維度歸約、值歸約、以及案例歸約。
4.評估模型
確切來說,這一步就是在不同的模型之間做出選擇,找到最優(yōu)模型。很多人認(rèn)為這一步是數(shù)據(jù)挖掘的全部,但顯然這是以偏概全的,甚至絕大多數(shù)情況下這一步耗費(fèi)的時(shí)間和精力在整個(gè)流程里是最少的。
5.解釋模型
數(shù)據(jù)挖掘模型在大多數(shù)情況下是用來輔助決策的,人們顯然不會根據(jù)“黑箱模型”來制定決策。如何針對具體環(huán)境對模型做出合理解釋也是一項(xiàng)非常重要的任務(wù)
06、數(shù)據(jù)挖掘在各行業(yè)的應(yīng)用
零售商可以部署數(shù)據(jù)挖掘,以更好地識別人們根據(jù)過去的購買習(xí)慣可能購買哪個(gè)產(chǎn)品,或者哪些商品在一年的某些時(shí)間可能熱賣。這可以幫助商家規(guī)劃庫存和存儲布局,同時(shí)也可以利用數(shù)據(jù)挖掘來做線下零售店鋪的智能選址。

銀行和其他它金融服務(wù)提供商可以挖掘與其客戶帳戶、交易和渠道偏好相關(guān)的數(shù)據(jù),以更好地滿足他們的需求。它們還可以從他們的網(wǎng)站和社交媒體互動中分析數(shù)據(jù),以增加現(xiàn)有客戶的忠誠度并吸引新客戶。
制造企業(yè)可以使用數(shù)據(jù)挖掘在生產(chǎn)過程中發(fā)現(xiàn)模式,從而可以精確地識別出瓶頸和有缺陷的方法,并設(shè)法提高效率。它們還可以將知識從數(shù)據(jù)挖掘應(yīng)用于產(chǎn)品設(shè)計(jì),并根據(jù)客戶體驗(yàn)的反饋進(jìn)行調(diào)整。
教育機(jī)構(gòu)可以從數(shù)據(jù)挖掘中受益,例如分析數(shù)據(jù)集,以預(yù)測學(xué)生的未來學(xué)習(xí)行為和表現(xiàn),然后利用這些知識來改進(jìn)教學(xué)方法或課程。
醫(yī)療保健提供者可以挖掘和分析數(shù)據(jù),以確定向患者提供護(hù)理和降低成本的更好的方法。在數(shù)據(jù)挖掘的幫助下,他們可以預(yù)測需要照顧的病人數(shù)量以及患者需要什么類型的服務(wù)。在生命科學(xué)領(lǐng)域,數(shù)據(jù)挖掘可用于從大量生物數(shù)據(jù)中獲取洞察,幫助開發(fā)新藥和其他治療方法。
在包括醫(yī)療保健和零售在內(nèi)的多個(gè)行業(yè),你可以使用數(shù)據(jù)挖掘來檢測詐騙和其它濫用行為——比傳統(tǒng)的識別此類活動的方法要快得多。
07、如何學(xué)習(xí)數(shù)據(jù)挖掘
學(xué)習(xí)數(shù)據(jù)挖掘,必須明確自己的發(fā)展方向和目標(biāo)。很多人對數(shù)據(jù)行業(yè)里發(fā)展方向并不清楚,我們先來說說數(shù)據(jù)行業(yè)的職業(yè)發(fā)展方向。數(shù)據(jù)行業(yè)從廣義上講可以分為以下幾個(gè)職位:
1.數(shù)據(jù)挖掘工程師
數(shù)據(jù)挖掘工程師多是通過對海量數(shù)據(jù)進(jìn)行挖掘,尋找數(shù)據(jù)的存在模式,從而通過數(shù)據(jù)挖掘來解決具體問題。其更多是針對某一個(gè)具體的問題,是以解決具體問題為導(dǎo)向的。
例如:聚類分析,通過對于會員各種人口統(tǒng)計(jì)學(xué)、行為數(shù)據(jù)進(jìn)行分析,對客戶進(jìn)行分類,更好地理解客戶,知道公司會員是到底如何?高、中、低低價(jià)值的客戶構(gòu)成,既可以后期公司的運(yùn)營提供指導(dǎo),提高活動效率,可以指導(dǎo)公司的營銷。
做數(shù)據(jù)挖掘工程, 必須精通數(shù)據(jù)庫。很多時(shí)候,你模型的數(shù)據(jù)預(yù)處理,可能完成在數(shù)據(jù)庫里完成,你用到的數(shù)據(jù)庫技巧更高。必須要會成熟的數(shù)據(jù)挖掘工具、數(shù)據(jù)挖掘算法,等,當(dāng)然如果你會一、二款開源軟件,并會寫一些程序代碼那是最好的,大公司都喜歡用開源的軟件。?
2.數(shù)據(jù)分析師
數(shù)據(jù)分析師更注意是對數(shù)據(jù)、數(shù)據(jù)指標(biāo)的解讀,通過對數(shù)據(jù)的分析,來解決商業(yè)問題。主要有包括:
(1)業(yè)務(wù)監(jiān)控:診斷當(dāng)前業(yè)務(wù)是否正常?是否存在問題?業(yè)務(wù)發(fā)展是否達(dá)到預(yù)期?如果沒有達(dá)到預(yù)期,問主要問題在哪?是什么原因引起的?
(2)建立分析體系:這些數(shù)據(jù)分析師已經(jīng)對業(yè)務(wù)有一定的理解,對業(yè)務(wù)也相對比較熟悉,更多幫業(yè)務(wù)方建立一套分析體系,或者更高級是做成數(shù)據(jù)產(chǎn)品。

例如:營銷活動。分析師會告訴業(yè)務(wù)方,在活動前你應(yīng)該分析哪些數(shù)據(jù),從而制定恰當(dāng)?shù)臓I銷計(jì)劃。在營銷過程中,你應(yīng)該看哪些數(shù)據(jù),從而及時(shí)做出營銷活動調(diào)整。在營銷活動,應(yīng)該如何進(jìn)行活動效果評估以及行業(yè)未來發(fā)展的趨勢分析。?
3.商業(yè)分析師?
商業(yè)分析師在行業(yè)、宏觀的層面進(jìn)行業(yè)務(wù)分析,預(yù)測未來行業(yè)的發(fā)展,競爭對手的業(yè)務(wù)構(gòu)成,幫助公司制定戰(zhàn)略發(fā)展計(jì)劃,并及時(shí)跟蹤、分析市場動態(tài),從而及時(shí)對戰(zhàn)略進(jìn)行不斷優(yōu)化。主要技能要求:要熟悉基本的統(tǒng)計(jì)分析知識、對于與網(wǎng)站相關(guān)的業(yè)務(wù)還可能要求掌握等網(wǎng)站分析工具等。?
4.數(shù)據(jù)建模師
這個(gè)職位與數(shù)據(jù)挖掘工程師還是有本質(zhì)區(qū)別的。數(shù)據(jù)建模師,更多偏向于中、小數(shù)據(jù)量,而且其使用更多更多是統(tǒng)計(jì)學(xué)的方法,數(shù)據(jù)建模師其實(shí)很少會提到算法這個(gè)詞。但是有時(shí)候,這二個(gè)模型越來越?jīng)]有明確的分工,一般來說都會二個(gè)職位的人都會去學(xué)習(xí)對方的知識,所以這二個(gè)職位有合并的趨勢。?
新進(jìn)入數(shù)據(jù)行業(yè)的同學(xué),可以根據(jù)自己的背景背景選擇相應(yīng)的職位,學(xué)數(shù)據(jù)、統(tǒng)計(jì)學(xué)的朋友更多可以偏向于建模師,而計(jì)算機(jī)特別是寫編程好的同學(xué),可以走數(shù)據(jù)挖掘工程師,也許適應(yīng)性更好,但這不是絕對的。那么如何學(xué)習(xí)數(shù)據(jù)挖掘呢?
(1)建議大家按照自己當(dāng)前程度,選擇適合自己的數(shù)據(jù)挖掘的書。現(xiàn)在微信比較流行,很多人在閱讀學(xué)習(xí)方面更依賴微信。但微信的文章雖然也有比較詳細(xì)的,但對于沒有編程基礎(chǔ)的童鞋,學(xué)習(xí)難度還是不小。所以小編更建議大家買書學(xué)習(xí),把基礎(chǔ)知識掌握牢固。
(2)在學(xué)習(xí)數(shù)據(jù)挖掘的過程中必須注意培養(yǎng)你的思維,盡量縝密敏捷。這樣才可以發(fā)現(xiàn)數(shù)據(jù)中的不同!因?yàn)橛械臄?shù)據(jù)挖掘是計(jì)算機(jī)處理的。有的則是紙面上的。所以必須學(xué)會記錄。
掌握數(shù)據(jù)挖掘理論之后,要把它應(yīng)用到實(shí)踐中。具體項(xiàng)目大家自己去找。在實(shí)際的數(shù)據(jù)挖掘項(xiàng)目中:
①明確你希望挖的東西能產(chǎn)生什么業(yè)務(wù)價(jià)值,而非用什么挖掘算法,挖掘算法是手段,后面再關(guān)注它就行。要能夠具體描繪你的挖掘目標(biāo)、價(jià)值,以及挖掘成果的預(yù)期展現(xiàn)形式,說服力如何,等等;
②為了得到你想要的成果,要多和相關(guān)的小伙伴討論,比如需要利用到哪些數(shù)據(jù)?這些數(shù)據(jù)中,哪些是已經(jīng)有的,哪些還需要想辦法去收集?其中是否有些數(shù)據(jù)根本是不可能收集到的?這些收集不到的數(shù)據(jù)對于你想挖的成果會有什么影響?如果是致命影響,直接導(dǎo)致你的挖掘成果缺乏說服力,那就另找其他方向吧。反之,則安排計(jì)劃和資源,把能收集到的數(shù)據(jù)盡快收集起來;
③根據(jù)收集到的數(shù)據(jù)的特點(diǎn)和收集過程的質(zhì)量情況,清洗收集到的數(shù)據(jù)。根據(jù)挖掘目標(biāo)的情況和收集到的數(shù)據(jù)的特點(diǎn),制定挖掘規(guī)劃,選擇合適的挖掘算法。總結(jié)一個(gè)成果,為了你的說法,把數(shù)據(jù)再針對性地洗幾遍,給出一個(gè)更加干凈的分析成果,更有說服力。
08、小結(jié)
在數(shù)據(jù)挖掘中,準(zhǔn)備本身的初始行為(例如聚集然后使數(shù)據(jù)合理化)可以揭示可能危及數(shù)據(jù)機(jī)密性的信息或模式。因此,不經(jīng)意地違反道德問題或法律要求是有可能的。因此數(shù)據(jù)挖掘的每一步還需要數(shù)據(jù)保護(hù),以確保數(shù)據(jù)不被偷竊、改變或秘密訪問。安全工具包括加密、訪問控制和網(wǎng)絡(luò)安全機(jī)制。
盡管存在這些挑戰(zhàn),但數(shù)據(jù)挖掘已成為很多組織IT戰(zhàn)略的重要組成部分,這些組織力圖通過收集或訪問的所有信息獲得價(jià)值。隨著預(yù)測分析、人工智能、機(jī)器學(xué)習(xí)和其它相關(guān)技術(shù)的不斷進(jìn)步,這一驅(qū)動力無疑將加速。
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)