日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

為什么大數據項目總失敗?你沒問對這四個問題!

時間:2022-05-26來源:卷丹瀏覽數:370

數據模型,就像人類一樣,它們總是傾向于根據最可用的信息來做出判斷。但是,有時你所缺失的數據往往會像你所擁有的數據一樣影響你的決策。我們通常將這種類型的可用性偏差與人類決策聯系起來,但人類設計者往往將這種偏差傳遞給自動化系統。

大數據項目的成功或許不可復制,但從失敗中汲取教訓同樣很有意義。作者從本人實踐項目入手,從商業目標、商業案例、項目管控、溝通、技能等角度分析其失敗的原因。過去的幾年里,我發現大數據項目的總量正在以驚人的速度增長著,大多數與我合作過的公司都計劃在接下來一年內,進一步拓展大數據項目的領域。其中,許多項目都被報以很高的期望,但大數據項目,遠沒有想象中那么簡單。我認為,其中半數的大數據項目最終都無法達到他們的預期。失敗的原因是多方面的,許多顯而易見的問題或者影響因素都會對大數據項目造成致命的打擊,項目也會因此走向最終的失敗。與許多不同規模形態的公司合作過后,我了解到這些危險因素其實是非常常見的。失敗的項目往往有一個共同的原因 — 缺乏前期充分的項目規劃。根據我參與過的大數據商業化項目經驗,在這里列舉了幾個我工作中最常見的失敗原因(順序不分先后)。1缺乏明確的商業目標 人們很容易因炒作而盲目跟從,顯然大數據已經被炒作了起來。許多人(包括我)正在叫嚷著大數據如何不可或缺,如何像諾亞方舟一樣拯救世界,就好像其余的船只終將被大浪摧毀,只有大數據這艘諾亞方舟能駛向彼岸。由此看來,許多人跳過“為什么做”直接思考“如何做”也就不稀奇了。登上大數據方舟的人們往往會忘記,商業化分析的核心在于解決現有問題,所以說在展開商業化大數據項目前要明確待解決的問題是什么。我曾經與一家航空公司合作,該公司帶著超級的熱情投入一系列大數據項目中——從乘客的飲食偏好到航班延誤對飲品銷量的影響,不放過任何一個環節的信息采集和分類。我的另一個客戶是一家零售商,獨立運行中的大數據項目多達258個!一些項目比較有趣,例如根據庫存量及銷售量進行數據挖掘,他們發現有一種酒在周二銷量特別好,如果是下雨的話銷量往往會更好。然而,知道這些又能解決什么問題呢?不可能因為周二一天的銷量就打亂已經預先分配好的貨架空間。最多也就是確保每周二進行常規性的補貨,保證貨架容納空間飽和。只從這個案例看,這樣的數據分析,并沒有為客戶提供長足的增長或積極的改變。也許在眾多的項目里,會僥幸有某一個有趣的數據分析維度解決了實際問題,但這樣做其實是非常低效的。這就有點兒像考試的時候,答題的人根本不在乎題目到底問的是什么,只顧埋頭寫下這門課自己知道的所有內容,抱著僥幸心理希望其中能包含考官要的正確答案。 2沒能塑造出成功的商業案例 許多人帶著一種“大家做我也做”的心態去開展大數據業務,因此,這個領域的門檻也在不斷地下降。這是一件好事,一方面,人們越來越容易地隨時隨地獲取開源軟件。另一方面,越來越多的公司開發“服務型軟件”(SaaS),極大地降低了基礎設施的投資成本。再加上很多像我這樣的人總是會說,這個行業如逆水行舟,不進則退,你不作為就會被別人橫甩十八條街。這樣一來,會有更多的人盲目地進入大數據行業。這些都是真實現狀,但要明確你的大數據項目為何而生,需要多少時間和資源。你需要確保收集來的大量數據,尤其是大數據,一定是干凈安全的數據,否則你很可能需要在將來為這些不干凈不安全的數據支付大量成本。簡言之,在項目啟動前,你要明確項目是不是真的需要大數據。如果你說不清道不明,那就請想明白再行動。3項目管控失誤 我承認,幾乎任何失敗項目都會在管控環節上存在問題,這是一個放之四海而皆準的項目失敗原因。但我想強調的是,一位經驗豐富的大數據科學家,年薪一般在10萬美金以上;除了這部分投入,大數據項目還需要投入大量的時間和各種資源。這種情況下,管控失誤會產生災難性的后果。有時候,攥著錢袋子的人并沒有將項目相關的長期或持續性的費用納入考慮。或者,有時候高級項目經理與在實驗室里的數據科學家溝通成效不大。許多高級項目經理做到今天的位置全是憑直覺憑膽量,所以有時候高級管理經理們不會相信那些大數據的算法,他們不會試著讓電腦去指揮他們做什么。管控不善包含很多方面,最典型的案例就是NHS(英國國家醫療服務體系)的國家醫療信息化項目。這個項目計劃將所有病人的電子病歷錄入到中央數據庫中,項目總投入超過100億英鎊(約合972億人民幣,156億美元),但隨著項目的失敗,最終被描述為“IT業內有史以來最大的敗筆”。(詳見后文拓展閱讀) 4溝通不暢 “大數據都讓書呆子似的科學家和唯利是圖的企業承包了”——這樣說未免有失偏頗,對科學家們和各大企業都不公平。但是,這個說法可以用來體現溝通的重要性。商業化大數據是學術與金錢的產物,一方面是實驗室內的分析性、實驗性科學,另一方面是追求利潤和業績的銷售團隊以及董事會成員。這兩者本就不是志同道合的伙伴,再加上信息在傳遞過程中難免會有缺失,這樣的溝通不暢很可能會造成災難性的后果。在我看來,“挑戰者號“航天飛機的災難就是一個實例,雖然那個時候還沒有大數據這個概念,但這個災難依舊是可以避免的。當時NASA(美國國家航空航天局)的分析師在處理來自航天飛機上傳感器的大量監測數據,在他們提供給地面控制中心的高層領導的報告中,充斥著大量的細節數據,這其中就包含很重要的墜毀的風險信息。如果地面控制中心能在繁冗的數據報告中發現這個風險信息,或者如果分析師們能把報告命名為“墜毀風險測評因素—高級別風險報告”這種重點突出的標題,事情可能會有一個不一樣的結局。但有時候吃一塹并沒有長一智。負責撰寫報告的人應該考慮到“這份數據的目標讀者是誰,怎樣包裝才能保證信息的準確傳達”。我曾為一家醫療公司做分析咨詢,這家公司最近為高管層提供了一份長達217頁的報告。我們最終將這份報告縮減到15頁,用圖表來代替大量文字,在不丟失信息的基礎上還將報告以更加簡潔的方式展示。5缺乏工作中的必備技能 或者更準確地說是,在必要時刻,缺乏必備技能。正如我之前對案例的闡釋一樣,在沒有考慮清楚項目對資源未來影響的情況下,企業就直接啟動大數據項目。經驗豐富的數據科學家團隊無疑是非常寶貴的資源。在我看來,沒有明確目標盲目開始的項目,一般很難發現自身的問題,除非他們在恰當的時機得到了寶貴的項目分析意見,并且尋得經驗豐富的員工加入團隊。物以稀為貴,數據科學的從業者亦是如此。企業需要突破思維定式來解決這個問題。例如我的一個銀行客戶,他的團隊中有許多商業分析師,既沒受過大數據的相關培訓,也不是數據科學家。我建議他給現有分析師進行定制化的大數據培訓,因為商業分析與大數據這兩個學科其實有很多技能交叉,這要比雇傭一個全新的專家團隊要便宜得多。因此,實際上,要想公司的大數據項目成功,必須關心這些數據究竟來自哪里,它們究竟是如何被修正的,它是否真正適用于我們的研究目標。而為了從數據中得到有用的答案,我們便不能只看到它表面的數據值。我們需要學會如何提出更加深層的問題。我們尤其需要知道這些數據是如何得出的,我們用了什么樣的模型來分析它們,以及在這一分析過程中究竟遺漏了什么。最重要的是,我們需要超越僅僅使用數據來優化操作程序的做法,并學會利用數據來構思新的生產可能性。我們要問的第一個問題是:

一、數據是如何得出的?

據說,數據一詞是“奇聞軼事”的復數形式。英語中有一句俚語,叫“很多奇聞軼事聚在一起就成了數據”。的確,真實世界的各種事件,如交易記錄、診斷結果和其他諸多相關信息,都被一一記錄下來,并存儲在大型服務器之中,這就是數據。但幾乎沒人會關注這些數據究竟來自哪里,因此,非常不幸的是,我們收集到的數據的質量和處理方式可能會有很大差別。事實的確如此,高德納咨詢公司最近的一項研究揭示出,由于收集到的數據質量太差,每個公司平均損失竟然高達1500萬美元。一般來說,數據的準確性會受到人為錯誤的影響,例如當低工資和動力不足的零售職員檢查庫存時,他們收集到的數據就往往并不準確。然而,即使數據收集過程是自動化的,也仍然會有很多的錯誤來源,比如手機信號塔的間歇性停電就會造成錯誤;在金融交易清算過程中運用自動化的信息收集方式同樣可能產生錯誤。質量過差的數據和用于錯誤語境的數據可能比根本沒有數據更為糟糕。事實上,一項研究發現,65%的零售商庫存數據是不準確的。而自歐盟通過并發行了嚴格的GDPR(通用數據保護條例)數據標準以來,另一個日益重要的問題逐漸浮現:在收集數據時是否得到當事人適當的同意。因此,不要簡單地認為你所擁有的數據是準確的和高質量的。你首先必須關心它是從哪里得來的,以及它是如何維護的。我們越來越需要像做金融交易一樣,小心謹慎地審查我們的數據處理方式。

二、數據是如何分析的?

即使數據得到了準確和良好的維護,數據分析模型的質量也會有很大差異。一般而言,各種數據分析模型是通過開源平臺(如GitHub)組合在一起,并要為特定的分析任務進行重新的組合部署。但是,過不了多久,人們就忘記該模型究竟來自何處,也不再關心它究竟是如何評估特定的數據集合的了。類似于這樣的失誤要比你所能想象到的更為常見,并且有可能造成嚴重的損失。我們可以回顧一下如下案例:曾經有兩位著名的經濟學家發表了一份工作報告,警告說美國債務即將面臨一個關鍵的節點。他們的工作引發了一場政治風暴,但事實證明,他們犯了一個簡單的Excel錯誤,導致他們夸大了債務對GDP的影響。這就是對數據處理方式的失誤造成的。隨著數據處理模型變得越來越復雜,并納入了更多的數據來源,我們也越來越能看到,在數據模型的訓練上不斷出現更為嚴重的問題。最常見的錯誤之一是過度擬合,這大體意味著,用來創建模型的變量越多,模型本身就越難變得普遍有效。而在某些情況下,過量的數據會導致數據泄漏,在數據泄露中,訓練數據和測試數據攪和在一起了。這些類型的錯誤甚至會困擾最為先進的公司。對此我們僅僅舉出兩個最為突出的例子就足夠了:亞馬遜和谷歌,最近與模型偏見有關的丑聞被高度曝光了。當我們處理數據時,我們需要不斷地向我們的模型提出難題:它們適合于我們的使用目的嗎?它們是否考慮到了正確的因素?模型所輸出的數據是否真實地反映現實世界中發生的事情?

三、數據無法告訴我們什么?

數據模型,就像人類一樣,它們總是傾向于根據最可用的信息來做出判斷。但是,有時你所缺失的數據往往會像你所擁有的數據一樣影響你的決策。我們通常將這種類型的可用性偏差與人類決策聯系起來,但人類設計者往往將這種偏差傳遞給自動化系統。例如,在金融業中,那些擁有大量信貸歷史的人往往比那些沒有信貸歷史的人更容易獲得信貸。后者通常被稱為“瘦檔案”客戶,他們發現自己很難買車,很難租賃房屋,也很難申請到信用卡。(我們中的一員,一位名叫格雷格的同事,在海外生活15年后回到美國時,就曾親身經歷了這個問題)。然而,缺少信貸歷史并不必然表明信用風險很高。而信貸公司最終往往僅僅因為缺乏相關數據而放棄潛在的盈利客戶。最近,益百利公司開始通過應用Boost程序來解決這一難題,該程序通過查詢消費者的日常支付活動來使消費者獲得信用評分,比如定期的電信充值和公共事業支付等等。迄今為止,已有數百萬人在該程序上登記注冊了。因此,要問一問你的數據模型可能遺漏哪些方面,這個問題是極其重要的。如果你正在管理你所測量的數據,你就要確保你所測得的數據真實地反映了現實世界,而不只是一些最容易收集的僵死的數據。

四、我們如何利用數據重新設計產品和商業模式?

在過去的十年里,我們已經了解了數據如何幫助我們更有效地管理我們的業務。智能化地使用數據使我們能夠進行自動化處理,預測我們的機器何時需要維護,并且更好地為我們的客戶服務。正是數據使得亞馬遜能夠提供包裹當日達服務。數據也可以成為產品本身的重要組成部分。我們可以舉一個著名的例子,Netflix長期以來一直使用智能數據分析來花更少的成本創建更好的項目。這使得Netflix在與對手——如迪士尼和華納傳媒——競爭時獲得了一個重大的優勢。然而,真正令人振奮的是,你可以用數據來完全重新構想你的業務模式。在Eric工作的益百利公司,他們已經能夠利用云技術,從只以信用報告的形式提供處理過的數據,轉變為為客戶提供實時訪問報告所依據的更細粒度數據的服務。這看似是一個微不足道的轉變,但它已經成為益百利公司業務增長最快的部分之一。有人說數據是新的石油,但實際上,數據要比石油更有價值。現在,我們必須開始轉變觀念,不能僅僅將數據視作一種被動的資產類別。如果使用得當,數據甚至能夠提供一種真實的競爭優勢,并產生一種全新的業務方向。然而,要做到這一點,你不能僅僅從尋找答案開始。你必須學會如何提出新的問題。

【擴展閱讀】:NHS項目失敗簡史

National Programme for IT 簡稱 NPfIT,即全英醫護IT計劃或國家醫療信息化項目。該計劃于2002年開始實施,目標是實現患者醫療信息可在全國范圍內進行共享,全面實現英國國家衛生服務系統(NHS)所有信息系統標準化,用10年時間為每一個英國公民建立“從生到死”的全生命周期電子病歷系統。整個NPfIT項目采用“集中式”技術架構,由5個集群構成,主要集成商為British TeleCom(英國電信)、Atos Origin(源訊公司)、Accenture(埃森哲)、CSC Alliance(CSC)、Fujitsu Alliance(富士通), 主要產品和技術提供商為CSW、IDX(已被GE收購)、Cerner、iSoft等,總合同額約為61.1億英鎊,堪稱歐洲最大的計算機商業項目。然而,該計劃飽受爭議。到2004年之后,該項目的一些問題逐漸暴露,設計者沒有充分考慮醫生的專業需求和醫療服務的多樣性,新的系統并未帶來新的功能,承諾的關鍵系統不能交付使用。到2006年時NPfIT項目已投資達130億英鎊,大大超出了預算。此外,采用集中式IT技術架構,不能適應不同醫療專業的服務要求,存在嚴重的性能和功能拓展問題。系統集成商和產品技術供應商不能兌現其合同承諾,設計的系統實用性差。最終導致失敗,并被描述為“IT業內有史以來最大的敗筆”。

(本文部分文字來源哈佛商業評論)

<END>

(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢