- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2019-07-10來源:今日頭條瀏覽數:2088次
大數據一般指在數據量在10TB以上的數據集, 通常有以下5個特點:
1. 容量(Volume):數據量大,數據量的大小決定所考慮的數據的價值和潛在的信息;
2. 種類(Variety):
數據類型多,包括但不僅限于文本,音頻,視頻以及圖片;
3. 速度(Velocity):指數據產生和獲取的速度快;
4. 低價值密度(Value):數據中的有價值數據量級較小;
5. 真實性(Veracity):數據質量因數據來源以及記錄方式等影響因素的不同,會出現較大的差異,而這種差異性會極大程度地影響數據分析的精確性;
簡單說來,大數據建模就是指利用相關的計算機技術從大數據中挖掘數據特征,并用量化理論數學化數據特征關系以描述業務需求和模式的一種方法體系。
回到題主的問題上,我們要如何學習并掌握這個方法體系呢?

首先是豐富的理論知識儲備。
必須掌握和了解:計算機基礎;數據分析軟件;機器學習算法基礎/進階; 統計分析基本方法;計量模型體系以及數據庫基礎。
建模數據的抽取,清洗和加工以及建模算法的訓練和優化會涉及大量的計算機語言和技術。比如:數據查詢語言SQL;數據環境Hadoop和Spark;數據操作系統Linux; 數據分析軟件R、Python、SAS、Matlab等。
特征工程涉及到統計/數學/信息論/計量等學科的基本概念。比如:變量的均值;分位數;峰度;譜;信息熵;cosi;衰退速率以及馬氏距離等。
建模階段涉及多種量化模型,比如:統計模型;計量模型;機器學習模型;復雜網絡等。比較常見的模型有:回歸分析模型;隨機森林;時間序列;神經網絡;SVM等。
想要在實際的項目中自如的運用這些模型算法,不僅僅需要了解基本的數學原理,還需要深入掌握對應的計算機語言實現。至少要會在主流的分析軟件中調用算法包,更高階的要求是能自己實現算法的編寫和精進。只有這樣才能相對正確地設計并依據實際數據結構優化算法,得到各方面表現都相對優異的模型。
其次是積累實戰技能。
實戰是將理論和現實結合重要一環,對于那些無法在實際工作中積累大數據建模經驗的同學來說,參加各平臺的數據建模競賽也許是個不錯的選擇。
已被谷歌收入旗下的美國著名大數據建模競賽平臺Kaggle、Analytics Vidhya平臺上的Hackatons、國內天池大數據競賽、DataCastle等都是比較不錯的競賽平臺。
最后來說一說那些恐怕書本上較少能夠直接獲取,需要大量實踐以及項目經驗中獲取知識。
比如特征工程中缺失值處理、特征構建、變換等等,取決于模型方法、數據、業務目標等。除了基于之前提到過的量化指標構造的特征,最后對模型表現貢獻最多的特征往往是那些構造邏輯和業務邏輯掛鉤非常緊密的特征。
這里舉兩個例子來說明。
例1:異常的交易風險,通常表明客戶存在違約或者欺詐的風險,那么如何去構造特征來描述異常交易風險呢?
可以是統計指標方差、變異度、數學指標馬氏距離;
也可以是業務邏輯“過去3天的交易金額相較于歷史水平漲幅大于100%”。
后者顯然不專屬于任何一門學科,它來自于對業務的理解和消化。
例2:在構建線性模型時通常會對變量間的非線性關系做線性數學變換(Log),而在實際的操作中,需不需要做變換以及如何變換是與具體的模型形式掛鉤的。
神經網絡,隨機森林等模型,是不需要做線性變換的,反而會傾向于對特征做離散化處理。
模型訓練調整參數,需要在心中有一桿bias variance的秤,揣著一把奧卡姆剃刀,方能建一手好模。
同樣,模型算法的選擇需要考慮的不僅僅是模型表現,還需要考慮成本。
因為建模是一方面,模型能夠實施生產是另一方面。結構復雜和特征量大的模型往往意味著背后需要大量的計算資源,人力資源和時間資源支持。模型的現有表現和未來可能的衰減速度值不值得耗費大量人力物力去生產部署,部署后模型帶來的效益是否能在長期內沖銷成本也是建模人員需要去考慮的事情。
最最重要的是,需要意識到大數據建模只是解決問題的一種方法,與其他任何一種解決問題的途徑手段在本質上并無不同。
建模前對業務目標的了解,對建模必要性的分析,對模型目標變量的刻畫以及對建模樣本的選取等問題反而比建模本身更值得引人關注。
以前端風控業務中的反欺詐識別為例,如何精確地定義欺詐行為是建模前需要解決的第一要事。如果對欺詐的定義有偏差,即使后續的算法表現優良,模型也無法最大程度地服務需求,基于不準確的定義識別出的“欺詐行為”不再符合對業務的定義,整個建模工作在某種程度上也失去了本來的意義。
就像是本來要找臉上有斑的人,由于錯誤的認為“斑”就是“痣”,最后找了臉上有痣的人,雖然臉上都有東西,但卻再也不是對的人。
對于專業的modeler來說,真正花費在建模上時間恐怕不會超過他們日常工作的40%。
畢竟建模技術的實現容易,而讓模型最大程度地的滿足業務需求,發揮商業價值則需要花費非常多的心血。