日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

人人都想做模型而非數據工作,這很危險

時間:2022-02-16來源:花落未央瀏覽數:203

? ? ? ?最近有篇谷歌的文章《谷歌團隊警告:人人都想做模型而非數據工作》,談到了數據質量對下游的巨大影響,尤其是癌癥檢測、野生動物偷獵和貸款分配等預測任務上,并由此引出矛盾:“一貫被視為無足輕重的數據,其影響從未被真正了解過”。谷歌這里提到的從事數據工作的人,應指滿足數據供給并提供數據質量保障的人,包括數據采集、處理、稽核、運維和數據質量管理等崗位,關于這點我是有共鳴的,為了描述方便,以下統稱為數據工作者。可惜這篇文章只是講了數據質量對AI應用的影響,并沒有點出這現象背后的深層次原因,也就是why,考慮到這個問題在整個數據行業普遍存在,今天就嘗試談談這個問題的本質,即為什么數據質量如此重要,卻不被重視?為什么大家都不想從事數據質量相關的工作,個個都想去做模型?

? ? ? ?1、錯識生態位置

? ? ? ?大數據時代到來后,數據往往被類比成石油,但大家都知道,石油在整個供應鏈中處于底端,而基于石油打造的各類產品才處于生態價值鏈的頂端,賺取了最高的利潤。石油加工(含開采、煉油等等)是較為低端的工作,研究石油發動機的工程師則要高端的多,同理,數據加工(含數據采集和數據質量等等)是低端的工作,搞數據建模的工程師則要高端的多。可惜做一個事情的真正價值,不是由生態鏈所處的位置唯一決定的,還包括稀缺性,從這個角度看,數據工作者不像是石油加工者,倒更像是光刻機制造者。

沒有光刻機的設備,高端芯片就無法生產,進而影響到所有電子產品的生態,光刻機是稀缺的,有價無市,同樣,一個企業的數據工作者也是稀缺的,其稀缺性體現在兩個方面:

第一、數據質量帶有深深的企業烙印,只有對這個企業的組織、機制、流程、業務和系統有深刻認知的數據工作者才最有可能做好數據質量,這種人才具有稀缺性,比如你找別家的數據工作者短期內解決不了你家的數據質量問題。

第二、“數據”這一新型要素對其他要素有效率的倍增作用,數據質量提升帶來的增量價值往往遠超模型算法調優帶來的增量價值,數據>算法是行業的共識。

所以造成認知上的錯位,也許在于企業中低垂的數據果實還沒有摘完而已,大家習慣于享用現成的高質量的數據,一旦數字化轉型加快,對于數據的使用覆蓋度和深度加強,數據質量問題就會凸顯,谷歌團隊發出這種警告,也許是因為AI應用正在高速普及,數據質量問題開始集中暴露。

? ? ? ?2、數據過于復雜

? ? ? ?即使我們認識到數據工作的巨大價值,但解決數據問題涉及企業的組織、機制、流程、文化等各個方面,遠不是建模那么純粹(雖然我不認為建模純粹,但相比于數據問題解決的復雜性,那也是小巫見大巫):

第一、很多數據質量問題由源系統造成,但一旦涉及到跨組織的問題協調,往往需要建立公司級的數據治理組織和機制來保障,數據團隊一般推不動,索性躺倒,深層次的數據質量問題解決周期往往以月甚至年來計。

第二、很多數據問題的解決受限于數據團隊的業務敏感性,比如業務方發現了一個數據問題,但數據團隊并未意識到解決這個問題的商機,沒有安排足夠的資源去解決,最終業務失去信心轉去其他的方向,數據團隊則失去了一個提升數據質量的機會。比如我們以前在做某款商業洞察產品時,產品經理發現某標簽的準確性對于客戶特別重要,但當時數據團隊沒太關注,這導致損失了不少潛在客戶。數據中臺相對于數據倉庫最大的不同,就是解決數據問題要以業務為導向,不求全責備,但一定要價值導向。

第三、很多數據質量問題的解決有個過程,少則1年,多則5年,但大多人堅持不了這么久,比如針對位置和上網數據質量提升,我們團隊就堅持做了5年,現在規模變現才發現那些年做的事情太有價值,很多商業產品在市場上的成功,實際就是數據質量的勝利。

老板說,要堅持做正確而難的事,很多基礎性工作就是這個性質,但少有人能堅持吧。科學界一直在提基礎研究的落后,但這種落后在任何一個行業企業都在以某種形式呈現,比如在數據領域,數據質量工作就是最基礎的工作,但現在從事這些基礎數據工作的人可不多。大家都在喊數字化轉型,但在轉型之前,得想清楚自己的企業有幾個數據工作者在做真正的最基礎的數據工作,如果沒有這個金字塔地基的存在,數字化轉型就如同空中樓閣,一捅就破。

3、普及水平有限

現在學校能教的數據技能,除了一點理論知識,就數算法和開發了,數據治理等知識不是不能教,而在于實驗室難以提供較為真實的數據環境,實驗室提供的那點樣本數據,不足以反應現實世界獲取數據的復雜性,溫室里是走不出數據治理專家的。每次有大學實習生到公司來實習,我們也習慣于為其準備一個短頻快的建模課題,而建模所需要的數據是我們處理好后“喂給”他們的,實習生以為的數據處理就是在建模過程中做做缺失值處理啥的,但這在整個企業的數據質量管理體系中不值一提,而學校,機構培訓出來的數據從業者可能以為這就是數據處理的全部了。

數據質量的工程特性明顯,顯然是很難發論文的,學校大概率是不會設置什么數據質量管理專業的,這意味數據相關專業畢業的學生很難對數據會有什么認知,畢業的大學生都趨之若鶩的去應聘算法、開發等崗位,企業招聘的大都也是算法、開發相關崗位,這些都跟數據質量無關。以算法、開發崗位名義招聘進去的學生實際可能干的就是數據質量工作,這造成了新人的落差,覺得干數據質量工作枯燥乏味,影響自己職業發展,這是數據工作者不被重視的一個深層次原因。

4、形成崗位鄙視

相較于產品經理、算法工程師、數據分析師、開發工程師等崗位,數據工作者被看成是數據職場的低端“碼農”,鄙視鏈早就形成,大致有以下原因。

第一、在職場上,離領導越近就越接近“食物鏈”的頂端,數據工作者做的是最基礎的工作,屬于苦活、累活、臟活,其工作的內涵很難為他人所理解。產品經理每天想得是被人關注,因為被人關注就意味著重要,數據工作者則是反過來的,被人關注意味著可能的嚴重的數據質量事故。數據工作者的最大業績卻是讓別人忘記自己,即努力杜絕一切數據質量問題的發生,但具有諷刺意味的是,沒有發生過數據質量事故的數據工作者很難得到重視。

第二、很多人有技術情節,心里有這么一個公式:技術水平高=價值創造高=自身發展快,相對于其他數據崗位,數據質量等崗位的技術含量不高。在數據質量處理過程中,比如解決數據的一致性、準確性、及時性等問題,通過管理手段的優化往往是優先級最高的解決方式,即使要用技術手段來解決,技術的先進與否也大多不是關鍵,很多人不屑于去做技術密度低的數據工作。

第三、數據工作的水平高低很難進行比較,不要說行業間的,即使是同一行業也難有統一的衡量指標,數據工作者的業績評估更多的要依賴于人的主觀評價,而主觀評價受崗位本身的限制影響最甚,這對數據工作者不利,其實越是沉默的崗位,越要發出自己的聲音。

你看開發運維領域就很好啊,搞了云原生,搞了敏捷,搞了SRE,搞了DevOps,大家都拼命發出自己的聲音,唯獨數據工作者還是默默無聞,近幾年數據中臺帶來了一波福利,但數據中臺關注核心不是基礎的數據質量。企業的數據工作者一般技能通用性不足,很難獲得人才市場的較高溢價,這是非常遺憾的。但如果企業內有兩只數據報表團隊,數據質量工程師絕對是被爭奪的對象,數據團隊的老大自己也會發現,一旦突發重大的數據質量問題,唯一可依賴的就是這類數據工作者,但只有經歷過教訓才會有深刻的認知。

5、缺乏第一推動

經過產品時代、資本時代的洗禮,現在企業管理者的出身大帶上了時代的烙印,要么是與市場有關,要么與產品相關,要么與資本相關。雖然我們即將進入數字化的時代,但由于這個時代剛剛拉開序幕,企業的管理者中有數據背景的屈指可數,大多企業是沒有CDO的,能夠真正認識到數據質量工作重要性的企業管理者不會很多,這不以人的主觀意志為轉移。

很多管理者看到了AI的巨大價值,因為有像DeepMind那樣的產品讓人耳目一新,但數據工作并不像AI那么容易show,也許只有這個專業出身的leader才能更好的理解其重要性,你沒干過,就很難切記體察,很多數據的東西無法用一兩句話說清楚,溝通成本巨大,打破部門數據壁壘這么艱難很多時候是人的認知問題。

華為的數據治理直接由CFO來負責,也許是因為財務對數據的要求極高,只有CFO才有力量推動相關數據工作。為了避免Google所說的現象發生,也許必須為數據工作者找到一個企業的代言人,CDO一天不設置,數據工作就很難得到真正的重視。

? ? ? ?以上大概就是人人都想做模型而非數據工作的原因吧。那么這種現象導致的危險到底在哪里呢?

Google提到了危險,是因為數據質量不高影響了其AI醫療上的識別能力,這可是人命關天啊,但顯然不止于此。吳軍在《硅谷來信3》中答讀者問的時候提到過一個職業教育的問題:在發達資本主義國家,能夠提供比較多的所謂高大上的崗位,也就大概一半的比例,每個國家實際都需要大量的專業技能的工人。

中國如果要完成制造業升級,更是需要大量有經驗、接受過職業教育的技術工人,技術工人的收入可能不比白領低,這也許是在初中升高中這一階段會有50%的初中畢業生要進入職業學校的原因。因為即便100%的年輕人都上大學,最終還會有一半找不到所謂的“大學生應該干的工作”,這實際浪費了資源。在數據領域,我們實際也并不需要那么多的產品,開發或算法工程師,我們必需要有足夠的數據工作者去做基礎性工作,這能解釋雖然你以建模工程師的崗位進入企業,但可能干的就是數據基礎工作的原因,因為建模工程師早就溢出了,供需這只市場無形的手始終在發揮作用。接受了這個現實,我們可以做三件事情,

第一,要認識到數據基礎工作的重要性,做好組織機制的保障,

第二,打造數據工匠的文化,用行動來實現對數據崗位的平等尊重,

第三,現在就去做。

(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢