日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

5000字解析如何建立「數據庫模型」:從業務模型、概念模型到邏輯模型

時間:2023-05-22來源:逆水寒瀏覽數:861

上一集(開篇:從零建立賦能業務的數據中心「邏輯框架」)中,我們從業務場景出發,定義業務問題后,形成了具體的數據庫賦能業務的框架。接下來的這一集,就是把此前的目標,轉為數據需求。那如何把業務問題轉為數據需求?那就是今天要討論的數據建模


數據建模是什么?

數據建模是一個過程,是對業務現實各類數據進行抽象組織后,確定數據庫范圍、數據組織形式及實現數據庫開發的過程;這個過程中,需要對具體業務場景進行分析形成業務模型,基于此抽象出劃分數據域的概念模型,基于此明確實體以及各實體之間關系,形成邏輯模型,最后形成用于建立數據庫實體的物理模型

簡單來說,數據建模是把業務現實映射到數字邏輯的過程,是從具體到抽象,再到具體的過程。



為什么要建模?

數據建模其實是一個邏輯嚴謹的過程。為什么不能直接把做報表的數據源導入數據庫就交差,而是要進行復雜的建模?

幫助梳理業務流程:數據中心是服務業務,其數據邏輯也應該反映業務現實,通過數據建模可以確保這種映射關系的有效性

建立全方位的數據視角,統一業務邏輯:之所以叫數據中心,就是因為服務的不止是一個部門,而是把多個業務單元的數據匯總,而背后是打通業務邏輯,所以需要建立全方位的數據視角來完成這件事,否則容易陷入到無盡的臨時需求里。 減少建設過程中的“不確定”:在做決策過程中,經常會遇到這個數據要不要?要不要新建某個表?的問題 。數據建模的過程就是解決問題的框架,
確保最終落地的數據中心能支撐業務發展

?如何建模?
建立業務模型業務場景既是數據工作的起點,又是數據工作最終賦能的落地點。所以數據建模的第一步就是要梳理業務流程,明確業務目標,進而抽象出公司整體的業務模型。這一步的目的是為后面步驟提供明確的業務邏輯建立概念模型將業務場景抽象成概念模型
建立邏輯模型將概念落地,建立具體的表間邏輯關系 建立物理模型按數據庫語法建立物理模型,即可形成數據庫

業務模型是對業務層面的分解和程序化,為了達到這個目的需要先對業務流程進行梳理。那要如何做?可以借助點線面的思考邏輯。

公司層「面」:劃分業務單元(可按業務部門劃分),及梳理業務部門之間的協作關系。 業務「線」:深入了解部門內的具體業務流程,并將其程序化 節「點」:關注流程每個節點,數據點 業務流程

此次案例中,雖然服務的對象是用戶運營部門,產品部門,但是還是從公司層面的核心業務出發,才能窺探全局。所以借助零售行業的人貨場模型,對業務流程進行梳理,產出下圖。
接下來可以參考:數據分析師如何建立「業務模型」深入理解業務?基于業務流程抽象出業務模型。

明確目標:分析主題與指標定義

開篇:從零建立賦能業務的數據中心「邏輯框架」 從業務流程的梳理到業務模型的建立,是為了深入理解業務。回到建立數據庫模型的場景中,在了解業務階段,還需要進一步明確此次建模的目的:分析主題與指標定義。

目標是通過建立「RFM模型」對人群進行分層,并形成不同人群的營銷策略。

RFM建模邏輯: 數據清洗 RFM閾值定義 用戶RFM指標計算 打上RFM標簽 分組統計 指標定義: 計算周期范圍:近兩年 R:最近消費日期與當前距離(單位:日) F:累計消費頻次 M:累計消費金額

明確需求是要對新品做「存銷分析」,即綜合庫存和銷售情況來判斷新品表現,進而調整生產及庫存計劃。

分析邏輯: 看庫存數量:后續分析占比、比值類型指標時,需要參考絕對值,比如計算周轉時,庫存基數太小,比值就沒有意義 看商品周轉率,即是指商品從入庫到售出所經過的時間和效率。衡量商品周轉水平的最主要指標是:周轉次數和周轉天數 實行簡單策略:對于高周轉產品,及時補貨; 對于低周轉產品,及時清倉。 指標定義: 統計周期:存銷比一般以月為單位考核比較有意義。存銷比可以以數量為單位,也可以以金額為單位。 新品定義:上架日期至今三個月以內 周轉次數=銷售額/平均庫存額,平均庫存=(期初庫存+期末庫存)/2 周轉天數:庫存周轉一次所需的天數,周轉天數=365/周轉次數。 售罄率=期間銷售數量/進貨數量,金額計算亦可。單獨看意義不大,要配合配貨量

在上一階段,我們從業務場景中明確了分析主題,接下來就需要圍繞著分析主題進行概念模型建模。概念數據模型是數據庫概念和實體之間的關系的有組織的視圖。創建概念數據模型的目的是建立實體,實體的屬性和關系。


為什么需要概念模型?

概念模型的一個重要作用的就是劃分數據庫范圍,也就是回答數據庫項目要做到什么程度的問題。概念模型好比是中學學習物理時的極限思維,抓主要矛盾:光滑的平面、真空自由落體等,這些條件在現實是很難實現,但是可以幫助解決物理問題。同樣,在數據庫建模中,概念模型著重表達清楚實體和實體之間的關系,包括描述重要的屬性,而選擇忽略干擾判斷的過多細節。

如何建立概念模型? 抽取關鍵業務概念,并將之抽象化。 將業務概念分組,按照業務主線聚合類似的分組概念。 理清分組概念之間的關聯,形成完整的領域概念模型。 借用ER實體模型工具來表達實體間的關系 主題域/數據域

第三步中,對業務進行領域劃分,形成主題域,或者說數據域。劃分方法主要有:按系統分、按業務部門分、按業務分析需求劃分,這里,我們的目的是建立分析性數據庫賦能業務,所以我們選擇按業務分析需求來劃分。下表是基于業務場景劃分的數據域:

ER實體模型

定義數據域后,則要進一步明確域內不同數據之間的關系(表間關系),為了更好地描述它們,可以借助ER實體模型工具,也就是步驟中的第四步。

數據系統中,將事物抽象為實體(Entity)、關系(Relationship)、屬性來表示數據關聯和事物的描述,這種對數據的抽象建模通常被稱為ER實體關系模型

實體:參與到業務過程中的客觀存在,比如會員、訂單、商品 屬性:對實體的描述,比如名稱、尺寸 關系:實體與實體之間的聯系,比如會員購買商品 實體與實體之間的對應關系一對一:比如人和身份證之間,每個人只有一張身份證,而一個身份證也只對應一個人;比如會員號和手機號碼,(一般來說)每個會員只有一個手機號,而一個手機號只對應一個會員 一對多:比如學生和班級之間,每個學生只屬于一個班級,但是一個班級有多個學生;比如商品號和SKU之間,每個SKU只有一個商品號,但是一個商品號有多個SKU 多對多:比如學生和課程之間,每個學生都可以選擇多個課程,一個課程也有多個學生;比如會員和商品號之間,每個會員可以買多個商品號,一個商品號可以對應多個會員

將領域模型的概念實體及實體之間的關系進行數據庫層次的邏輯化。

前面基于業務流程,完成建立了業務模型。對業務行為產生的數據進行抽象,并基于不同主題進行劃分后,形成概念模型。

至此,還只是停留在對業務的梳理階段,在新建數據庫實體之前,還需要進入到邏輯建模階段:需要包含所有的邏輯表、字段、關系和約束;需要具體定義在概念模型中忽略的細節(比如子類關系、關聯屬性),也就是抽象到具體的過程。

那邏輯模型要如何實現?可以借助工具:維度建模。

維度建模

維度建模是專門用于分析型數據庫數據倉庫數據集市建模的方法。

為了更好地理解,我們先回歸到數據分析的底層邏輯:報表分析 = 分類維度 x 事實指標

比如業務提數據需求說:要按月看不同品類的銷售額。

在這個需求中,業務要看的事實指標是 銷售額,其余描述該指標的“形容詞”就是分類維度:按月(時間日期分類)、不同品類(商品品類分類)。

更直觀地從Excel透視表來看,行、列標簽就是需要透視的維度,表格中的值則是按公式計算的事實指標:

基于該分析邏輯,從應用分析層反推到數據庫層面,就是維度建模:把表分為維度表與事實表。在具體使用時,只需要從維度表中選擇需要透視(分析)的維度,再從事實表計算指標即可完成報表分析。

規范來說,什么是維度表?就是對分析主題所屬類型的描述,比如銷售流程(會員A在2022年1月1日付費200元購買了1件產品B)就是以銷售為主題進行分析,可以從中提取的維度:時間維度(2022年1月1日)、商品維度(產品B),也就是在excel表中需要透視的維度有時間、品類。

什么是事實表?就是對分析主題的度量,上述銷售流程的例子中,200元、1件就是事實信息。在業務活動中,每個流程都會產生一個事實表,涉及多個實體,而上述例子涉及的實體就是會員、產品。

維度模型主要分為星型模型、雪花模型。

很多情況下,我們來學習數據庫理論的過程中,經常看到設計范式的概念,在確定維度模型前,我們先來看看什么是數據庫的設計范式。

數據庫設計范式

專業的定義:數據庫的設計范式是數據庫設計所需要滿足的規范,數據庫的規范化是優化表的結構和優化把數據組織到表中的方式,這樣使數據更明確,更簡潔。

簡單的說,范式是為了消除重復數據減少冗余數據,從而讓數據庫內的數據更好的組織。對數據分析師來說,我們只需要關注范式的前三個層級:

簡單的說,第一范式就是每一個屬性都不可再分,不符合第一范式則不能稱為關系數據庫。比如不符合1NF的表:我們看到商品字段下把多個屬性放在了一起,因此不符合第一范式。

我們把它修改成符合1NF:把商品里的數據拆開成品類、品牌、名稱、型號、規格。這樣每個屬性都不能再拆,因此符合1NF。

更深一層,到2NF就需要考慮主鍵,簡單來說就是考慮分表的問題。1NF案例中的表是大寬表,把所有信息都放在了一起,這種表在實際業務中Excel里非常常見,有利于直接透視分析,但是問題也同樣明顯:就是對于數據量稍大的表格就跑不動了,到數據庫里是同樣的道理,我們需要對它按下圖進行拆表,也就符合2NF了。

到這一層級,專業地說就是要消除數據庫中關鍵字之間的依賴關系。通俗地講,就是對2NF進一步拆表。2NF案例中的商品表中,我們發現品類ID和商品表混在了一起,需要拆成下圖的樣子,就是3NF。當然,如果要更嚴格一些,就需要把品牌單獨出來做一個品牌表(字段:品牌ID,品牌名稱)。

星型模型與雪花模型

簡單了解完設計范式后,就可以來選擇維度模型。

星型模型

??
雪花模型

星型模型與雪花模型是最常見的維度模型,它們之間的區別在于雪花模型是符合3NF,而星型模型不符合3NF,數據是冗余的,但也正是因為星型模型數據的冗余所以很多統計查詢不需要做外部的連接,因此一般情況下效率比雪花型模型要高

從實現來說,星型結構不用考慮很多正規化的因素,設計與實現都比較簡單,所以實際運用中星型模型使用更多,也更有效率。所以我們接下來也會使用星型模型作為邏輯模型的呈現。

物理模型是最終用來建立數據庫實際對象的,主要解決邏輯模型針對不同關系型數據庫的物理化以及性能等一些具體的技術問題。在進入敲代碼階段,將邏輯模型轉為SQL SERVER的數據庫實體之前,可以借助物理模型幫助實現落地。

(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢