智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一，入選IDC企業數據治理實施部署指南。同時，在IDC發布的《中國數據治理市場份額》報告中，連續四年蟬聯數據治理解決方案市場份額第一。

在線免費試用 DEMO體驗視頻介紹

睿治智能數據治理平臺

IDC蟬聯數據治理解決方案市場第一

大數據建模的自主和外包，邊界到底在哪里？

時間：2022-04-25來源：靠自己瀏覽數：568次

在這個大數據時代，無論是企業還是個人，必須找到那些你自己做，比市場更高效的事情，建筑你的核心競爭力，而把那些你做的其實一般的事情，盡快扔回給市場，要有所為而有所不為。

很多企業的IT工作都存在外包現象，其中一個工種是比較特殊的，BI分析或大數據分析，按照性質又可分為四種，功能型的支撐、事務性的支撐、倉庫模型支撐和數據挖掘的支撐，功能性的支撐就是建設一個BI系統或工具，事務性支撐泛指報表、取數、運維等例行性的工作，倉庫模型支撐是指數據的歸集和整合，數據挖掘則更多體現為數據分析和知識發現，但這四者經常混為一談，統稱數據分析支撐。

有的些企業將這類工作全部外包，自身的人員只做管理，有的企業則全部自己做，比如很多互聯網公司，有的則處于中間狀態，部分外包部分自己建，那么，外包和非外包的邊界在哪里？在大數據時代，是否情況又發生了新的變化？

在表達看法之前，筆者先講一個理論，再講幾個故事：

我們來理解下交易成本這個概念：交易成本就是你從自由市場上尋找、溝通、購買一項服務，為這個購買能夠達成，所付出的時間和貨幣成本。通常來說，交易成本包括搜尋成本、信息成本、議價成本、決策成本、監督交易進行的成本等等，交易成本的概念，由科斯提出，由威廉森系統化，這兩個人獲得過諾貝爾經濟學獎。

科斯的交易成本理論，回答了經濟學家一直爭論的一個問題：企業的邊界在哪里？企業應該做大還是做小？

科斯說，是交易成本與管理成本的對比，確定了企業的邊界，交易成本越低的事情，越應該外部化，管理成本越低的事情，越應該內部化。

比如為什么亞馬遜用FedEx作為物流支撐，而京東要花巨大成本構建自己的物流體系？

因為美國的物流體系已經非常發達，可靠度也非常高，亞馬遜可以很放心地用相對低的價格，購買到高品質的物流服務。因為成熟，交易成本，比如搜尋成本、決策成本等，都很低，自己做呢，第一，不一定做的比FedEx好，第二，自己組織團隊來做的管理成本，可能比從外部購買的交易成本更高，所以，亞馬遜用公共物流體系，而不是自建。

而京東對物流的速度、品質要求非常高，它想在中國市場上搜尋到符合條件的公眾物流公司，非常難。議價成本、決策成本，尤其是監督交易進行的成本，都會非常高，雖然管理很麻煩，但是自己組織團隊來做的管理成本，還是比從外部購買的交易成本更便宜。所以京東選擇自己來做。

又比如共享單車這個事情，到底是自己買輛自行車方便還是租用共享單車方便？

也可以用這個理論解釋下，自己買自行車除了買車的成本，還包括了維護成本，安全成本，攜帶成本，停放成本等等，這個管理成本太高了，而每次租用共享單車其實交易成本不高，因此現在越來越多的人習慣于租自行車而不是自己買了，比如我家買的山地車已經幾年沒騎了，因為被盜的成本很高。

好了，如果你理解了這一點，讓我們言歸正傳說說大數據建模自主和外包的問題。

一項建模工作能外包，最好是交易成本足夠低。

交易成本怎么才能低呢？

比如雙方的人員工作界面比較清楚，交付物沒有歧義，結算也比較簡單，最好不要留有尾巴，能夠計件薪酬的最好，根據以上的原則，交付一個BI系統，完成一個報表取數，買人頭做維護比較容易外包，因為交易成本比較低。

但倉庫模型和數據挖掘則比較難，為什么？

因為這類工作交易成本是很高的。

首先，數據倉庫和數據挖掘的行業垂直特性非常明顯，其建設的好壞跟企業現有的的業務和數據相關性太大，決定了其在特定行業的稀缺性，你在市場上很難找到能理解你企業的業務、數據的人員，當然有部分外包人員對于行業的理解甚至超過了本行業的大多人，但這不具有統計學意義，一般來說，凡是打上了深刻的行業烙印的工作都是不適合外包的，也許保安能外包、食堂能外包、外呼能外包、甚至產品能外包，但絕對不可能外包營銷策劃工作。

有這么一個生動的故事：

一天，一個農民趕著一群羊在草原上走。迎面碰到一個人對他說：“我可以告訴你，你的羊群有幾只羊。”他用衛星定位技術和新的網絡技術將信息發到總部的數據庫……片刻后，他告訴農民共有1460只羊。農民點頭稱對。隨后，他要求農民給他一只羊作為報酬，農民答應了。不過農民說：“如果我能說出你是哪家公司的，您能否把羊還給我？”那人點頭。農民說：“你是麥肯錫公司的。”那人很驚訝地問農民是怎么知道的。農民說：“有三個理由足以讓我知道你是麥肯錫公司的：1、我沒有請你，你就自己找上門來；2、你告訴了我一個早已知道的東西，還要向我收費；3、一看就知道你一點都不懂我們這一行，你剛剛抱走的那只根本不是羊，而是只牧羊犬。”

現在人工智能很火熱，但是很多垂直行業的人工智能工作其實也是不適合外包的，互聯網公司大力推進的人機交互技術，很多程度上是要讓自己在流量入口搶奪上占據先機，但大多數企業其實沒有這類特定的使用場景，他們需要的是針對這個行業的專用的人工智能，解決這個行業專業的問題，我們有時候甚至會陷入為人工智能算法找場景的困境，這是有深層次原因的。

其次，由于數據倉庫模型和數據挖掘對于迭代的要求很高，外包的“你付錢，我工作”的交易模式顯然有點不劃算，即使當初做出了很好的模型，比如通過一個項目，但鐵打的營盤流水的外包，意味著模型的優化很難得到長期高質量的維護，傳統BI時代數據挖掘項目效果很多不理想，倉庫模型幾年推倒一次，這種交易成本的確有點大。

再次，數據挖掘等工作非常強調主動性和創新性，但一般企業不會為外包人員的創新性額外買單，大多會認為創新是支撐工作理所當然的，但創新實際就意味著風險，企業一般無法容忍外包去做可能沒成果的事情，因此外包會傾向于保守，不求有功但求無過，但數據挖掘一旦缺失了創新基因就很難有大的突破，原來的交易成本相對就顯得過大了。

最后，由于外包人員受企業和外包企業雙重管理，一方是以為自己的業務創造更高的價值為導向，一方是以最小的代價獲得最高的利潤為評估標準，這兩者要達到共贏挑戰很大，很多探索性，創新性的免費項目往往由于外包企業的資金壓力不了了之。

由于以上一些原因，在數據倉庫和數據挖掘對外交易成本相對變高的情況下，也許企業可以考慮自己做，企業傳統業務的最好的數據挖掘師一般也在內部，筆者所在企業組織了很多次建模大賽，最適合的模型往往是具有豐富業務和數據經驗的企業內部人員創造的，其實數據倉庫建模一樣，誰最有可能設計出一張好的寬表呢？大多是企業內部的經營分析人員。

雖然企業自己培養人才、自己建模增加了管理成本，但從長遠來看可能是合算的，當前管理的陣痛換來的是一個光明的未來，特別是在大數據這個講究快速，個性化的時代背景下。

但是外包和自建這個平衡點不好找，比如大多傳統企業不大可能培養或擁有這么多的建模師，一定程度上還是需要依靠外力，這里筆者就給出一些原則建議，當然仁者見仁，智者見智。

1、對于擁有一定數據規模的企業，數據倉庫模型不能外包：數據倉庫模型屬于企業的核心數據資產，是數據中臺的核心，企業再沒有人，只要你有數據倉庫，就必須騰挪出資源來構建自己的模型團隊，家當必須掌握在自己手里，曾經看到做數據模型的外包企業以核心機密為由不對其他合作伙伴開放數據字典，這對于企業也是巨大的諷刺，就好比你家的數據資產賬本放在別人家里，但這種現象確實存在。

2、傳統業務的數據挖掘不值得外包：針對企業傳統業務的數據挖掘盡量不要外包，因為外包了大多也做不好，如果的確人手不夠需要外包，就要有這個心理準備，不會比企業自己的人做得更好，性價比最高的就是讓企業內部人員來，比如企業自身的數據人員對于一個數據的異動會想到也許是某個促銷造成，但外部的建模師可能以為找到了一個天大的數據規律。

3、創新型業務則鼓勵多方唱戲合作共贏：針對新型業務的數據挖掘可以外包，因為對于這些業務，沒有存量的包袱，企業內和企業外都處于同一起跑線，為了促進創新業務的快速發展，需要依靠多方外部力量，現在很多互聯網企業在大數據領域開疆擴土，對于大數據建模人員求才若渴，很多是新增業務的驅動所致，而不是去搞老的業務。

4、數據的培訓和運營可以外包：很多企業的人員對于數據和業務熟悉，但往往不理解算法，不會使用工具，不會操作大數據平臺，不懂好的運營手段，而這些能力往往比較通用，因此可以充分利用外部的力量來補足自己的短板，所謂“搭臺唱戲”，這個臺可以讓外部人員來一起搭，讓外包人員成為企業的使能者。

5、外包團隊選擇至關重要：數據挖掘要產生價值是個長流程，外包企業合作需要是戰略性、長期性的，而不是打一槍換一個地方，外包人員必須自己直面客戶并為結果負責，而不是為過程負責，外包團隊需要有更為開放的文化，能夠充分理解客戶的訴求，因此外包團隊的選擇重要性要遠遠大于進來后搞一堆的外包管理制度，在當下低價中標越演越烈、主動性和創新性又難以有效量化的情況下，要引入一家性價比高的數據服務企業很難。

當然，企業也要處理好自身人員與外包人員的關系，人家是來幫助企業開疆擴土的，不是來頂替自己的建模師的工作的，很多時候，企業的外包人員能力成長很快，而自身人員卻停滯不前，這會讓企業在技術上喪失主動權，交易成本實際上很大。

（部分內容來源網絡，如有侵權請聯系刪除）

立即申請數據分析/數據治理產品免費試用我要試用

上一篇：數據可視化大屏項目落地實施步驟方案...

下一篇：谷歌云欲推數據湖存儲引擎BigLake，擬消除所有“數據限制”...