可免費試用30天
已有30000+人申請
全程“零”編碼,高效實現主數據模型、主數據維護、主數據分發、主數據質量的全過程管理,為企業主數據管理落地提供有效支撐,實現各業務系統間的主數據共享,保障企業主數據的唯一性、準確性、一致性。
覆蓋數據建模、采集、處理、集成、共享、交換、安全脫敏于一體,一站式解決數據開發所有的問題。
統一指標定義,實現“一變多變、一數多現”的數據管理效果,為企業提供強有力的數字化保障和驅動效應。
企業級智能體平臺,低門檻搭建智能體,靈活編排流程,融合 LLM 實現“問數”、“問知識”
面向企業級數據資產交易運營場景,助力企業實現數據資產的價值挖掘、升值和資產變現。
2023-02-17
數據預測技術發展至今,已經有一些比較成熟的方法,或者說模型。大致可以分為以下六種:
1、線性回歸
線性回歸比較經典的模型之一,英國科學家Francis Galton在19世紀就使用了“回歸 ”一詞,并且仍然是使用數據表示線性關系最有效的模型之一。
線性回歸是世界范圍內,許多計量經濟學課程的主要內容。學習該線性模型可以在解決回歸問題有方向,并了解如何用數學知識來預測現象。
學習線性回歸還有其他好處,尤其是還學習了兩種可以獲得最佳性能的方法時:
·閉式解:一個神奇的公式,能通過一個簡單的代數方程給出變量的權重。
·梯度下降法:面向最佳權重值的優化方法,用于優化其他類型的算法。
此外,我們可以用簡單的二維圖在實踐中直觀地看到線性回歸,這也使該模型成為理解算法的良好開始。
2、邏輯回歸
雖然名為回歸,但邏輯回歸是掌握分類問題的最佳模型。
學習邏輯回歸有以下幾點優勢:
·初步了解分類和多分類問題,這是機器學習任務的重要部分
·理解函數轉換,如Sigmoid函數的轉換
·了解梯度下降的其他函數的用法,以及如何對函數進行優化。
·初步了解Log-Loss函數
學習完邏輯回歸后,有什么用?能夠理解分類問題背后的機制,以及如何使用機器學習來分離類別。
就像線性回歸一樣,邏輯回歸也是一種線性算法。在研究了這兩種算法之后,將會了解線性算法背后的主要局限性,同時認識到它們無法代表許多現實世界的復雜性。
3、決策樹
首先要研究的非線性算法應該是決策樹。決策樹是一種基于if-else規則的,相對簡單且可解釋的算法,它將讓你很好地掌握非線性算法及其優缺點。
決策樹是所有基于樹模型的基礎。而且,決策樹同時適用于回歸和分類問題,兩者之間的差異最小,選擇影響結果的最佳變量的基本原理大致相同,只是換了一個標準來做。
雖然了解了回歸中超參數的概念,如正則化參數,但在決策樹中這是極其重要的,能夠幫助明確區分模型的好壞。
同時,超參數在學習機器學習的過程中也至關重要,決策樹能很好地對其進行測試。
4、隨機森林
由于決策樹對超參數和簡單假設的敏感性,決策樹的結果相當有限。當深入了解后,會明白決策樹很容易過度擬合,從而得出的模型對未來缺乏概括性。
隨機森林的概念非常簡單。有助于在不同的決策樹之間實現多樣化,從而提高算法的穩健性。
就像決策樹一樣,可以配置大量的超參數,以增強這種集成模型的性能。集成(bagging)是在機器學習中一個非常重要的概念,能為不同的模型帶來了穩定性,即用平均數或投票機制將不同模型的結果轉化為一個單一的方法。
在實踐中,隨機森林訓練了固定數量的決策樹,并對之前所有這些模型的結果進行平均。就像決策樹一樣,我們有分類和回歸隨機森林。
5、XGBoost/LightGBM
其他基于決策樹的算法,并能帶來穩定性的模型有XGBoost或LightGBM。不僅能提升算法,還能提供更穩健和概括性的模式。
在Michael Kearns發表了關于弱學習者和假設檢驗的論文后,關于機器學習模型的思潮得到了關注。當中表明,增強模型是解決模型受到整體權衡偏差與方差的絕佳方案。此外,這些模型是Kaggle競賽中最受歡迎的選擇。
6、人工神經網絡
最后,是當前預測模型中的王者——人工神經網絡(ANNs)。
人工神經網絡是目前最好的模型之一,可以在數據中找到非線性模式,并在自變量和因變量之間建立真正復雜的關系。通過學習人工神經網絡,你將接觸到激活函數、反向傳播和神經網絡層的概念,這些概念應該為你研究深度學習模型打下良好的基礎。
此外,神經網絡在結構上有很多不同的特點,學習最基本的神經網絡將為轉到其他類型的模型打下基礎,如主要用于自然語言處理和遞歸神經網絡和主要用于計算機視覺的卷積神經網絡。
現在申請試用億信華辰數據軟件,馬上可獲得:
領導駕駛艙、大屏分析等BI模板
多行業數字化轉型解決方案
海量工具及行業應用學習視頻