有道是:“
數據質量是開發同學的紅線,是一定要恪守的原則”。如果交付的數據是存在問題的,那么得出的結論往往也就是錯誤的。
如果用簡潔的語言來概括,那么就是及時、準確與一致。

及時性,是數據研發的第一道“紅線”。通常情況下,我們會設置相應的基線,由每天值班的研發來觀察和保障運行情況,數據任務一旦報錯,則通知相應負責人處理,或執行降級運行策略。如果上游數據產出存在問題,也能夠收集相應的問題清單,與上游共同解決。這是一條基本的執行策略,通常配置任務和安排值班也不會特別費事,因此也是最容易解決的問題。
準確性,是數據研發的第二道“紅線”,大體上可以總結為兩個特點,即數據的準確性測試、以及數據的準確性監控。
一致性,是數據研發的第三道“紅線”,大致可以理解為,提供給下游使用的數據,要有統一的口徑和解釋。通常情況下,指標是由分析師定義,但實際開發中,業務、產品、甚至是研發自己,也往往會定義一些指標,往往又會因為數據范圍的不同,導致結果不一致。比如剔除某幾個商品,就會對整體GMV產生影響。因此,不論誰來定義指標,都要有完整的說明文檔,否則就是“不承認”的。其次,數據的結果一定要有驗證的過程,不論是分析師還是業務同學,人工的校驗是必須要做的事情,至少能夠讓最熟悉數據的同學來驗證數據。
通過上述三個角度,基本能夠覆蓋90%的問題,剩下的10%通常是需要Case by case來看待和驗證的。
(部分內容來源網絡,如有侵權請聯系刪除)