正文開始
出租車司機(jī)識(shí)別模型是去年我們接到的一個(gè)挖掘需求,這個(gè)案例經(jīng)歷了數(shù)據(jù)挖掘工作幾乎所有的挑戰(zhàn)(除了算法),這里筆者結(jié)合這個(gè)案例系統(tǒng)梳理下這些挑戰(zhàn),并嘗試給出這些挑戰(zhàn)的深層次原因和解決建議。
1、目標(biāo)難以達(dá)成事實(shí)上的共識(shí)去年接到出租車司機(jī)識(shí)別挖掘需求的時(shí)候,自己并不知道對(duì)方的預(yù)期是多少,就急著安排人員去推進(jìn),這個(gè)為后續(xù)的模型反復(fù)埋下了禍根,你會(huì)發(fā)現(xiàn),建模師不停的改,業(yè)務(wù)人員不停的提要求,啟啟停停,沒有盡頭。直到最近才摸到了業(yè)務(wù)人員的底線,比如達(dá)到XX%的準(zhǔn)確率可投入生產(chǎn),但為什么開始的目標(biāo)沒有定呢,想來(lái)有三個(gè)原因:第一、業(yè)務(wù)人員提數(shù)據(jù)挖掘需求的時(shí)候應(yīng)該是有個(gè)大致預(yù)期的,理論上需要有成本的考量,比如數(shù)據(jù)達(dá)到多高的精度才能cover住這次營(yíng)銷的投放成本,但業(yè)務(wù)人員總是會(huì)想越高越好。第二、建模方在實(shí)際探索前很難給出準(zhǔn)確的預(yù)估,因?yàn)槿狈ψ銐虻囊罁?jù),互聯(lián)網(wǎng)公司可能會(huì)好一點(diǎn),畢竟它們有大量的歷史經(jīng)驗(yàn)值可以參考,但對(duì)于大多數(shù)公司來(lái)講沒有。第三、數(shù)據(jù)挖掘的結(jié)果是個(gè)概率值,比如要準(zhǔn)確一點(diǎn),覆蓋率就會(huì)降低一點(diǎn),這種數(shù)據(jù)上的“彈性”使得雙方要達(dá)成目標(biāo)上的共識(shí)更困難了。因此筆者經(jīng)歷的大多數(shù)的數(shù)據(jù)挖掘其實(shí)是在未達(dá)成業(yè)務(wù)目標(biāo)共識(shí)的前提下開展探索的,業(yè)務(wù)人員期待著一個(gè)最好的結(jié)果,建模師則抱著試試看得心態(tài)。經(jīng)驗(yàn)告訴我,為了節(jié)省你團(tuán)隊(duì)寶貴的挖掘資源,啟動(dòng)一個(gè)數(shù)據(jù)挖掘工作事先還是要盡量與業(yè)務(wù)方達(dá)成一個(gè)共識(shí),比如業(yè)務(wù)上能容忍的底線是多少,這個(gè)業(yè)務(wù)方應(yīng)是有數(shù)的,或者是有辦法給出的(比如基于歷史的營(yíng)銷經(jīng)驗(yàn)等等),否則就不會(huì)提所謂的精準(zhǔn)需求了,不愿意認(rèn)真對(duì)待目標(biāo)的業(yè)務(wù)方不值得接收他的需求。業(yè)務(wù)目標(biāo)達(dá)成共識(shí)后,一個(gè)很大的好處是對(duì)于建模師的工作有個(gè)基本的指引,比如第一次挖掘的結(jié)果如果大大低于最低目標(biāo),就要考慮是否建模方法上出現(xiàn)了重大偏差,或者是數(shù)據(jù)質(zhì)量不足以支持目標(biāo)的達(dá)成,或者直接升級(jí)問(wèn)題說(shuō)明情況,沒有基本預(yù)期的建模師有點(diǎn)像無(wú)頭的蒼蠅,走到哪算到哪。
2、缺乏生產(chǎn)驗(yàn)證的方案和業(yè)務(wù)承諾出租車司機(jī)模型的第一個(gè)版本出來(lái)后,建模師希望立刻去做驗(yàn)證,但業(yè)務(wù)方告知外呼驗(yàn)證需要排期,大概要等1-2個(gè)禮拜才能拿到確認(rèn)的結(jié)果,這種情況在企業(yè)內(nèi)司空見慣。為什么互聯(lián)網(wǎng)公司的數(shù)據(jù)挖掘效率就比較高呢?筆者覺得一個(gè)主要原因就是其具備的在線AB測(cè)試的能力,大多數(shù)傳統(tǒng)企業(yè)尚不具備這種快速發(fā)布模型并進(jìn)行生產(chǎn)驗(yàn)證的條件。為什么?因?yàn)榇蠖嗥髽I(yè)的營(yíng)銷投放流程有大量的線下、人工環(huán)節(jié),做一次精準(zhǔn)營(yíng)銷的投放代價(jià)很大,流程也很長(zhǎng),而這個(gè)跟數(shù)據(jù)挖掘的快速迭代要求相悖。機(jī)器學(xué)習(xí)、人工智能面臨的最大挑戰(zhàn)就是先進(jìn)的生產(chǎn)力跟企業(yè)的落后的生產(chǎn)關(guān)系的矛盾,你要讓數(shù)據(jù)挖掘快速迭代就意味著要重塑企業(yè)的營(yíng)銷管理流程,這個(gè)談何容易。但即使是這樣,我們因地制宜也有提升的空間。既然企業(yè)投放生產(chǎn)的限制條件這么多,那么就要未雨綢繆,提前給出模型大致的發(fā)布時(shí)間和驗(yàn)證方案,業(yè)務(wù)人員提前做好準(zhǔn)備,比如配備的渠道、產(chǎn)品和政策資源等等,這樣就能改善問(wèn)題。雙方都應(yīng)該為數(shù)據(jù)挖掘的快速推進(jìn)承擔(dān)具體的責(zé)任,很多數(shù)據(jù)挖掘無(wú)法快速推進(jìn)往往是前端的業(yè)務(wù)問(wèn)題(比如協(xié)調(diào)不動(dòng)相關(guān)資源),這個(gè)時(shí)候就要升級(jí)問(wèn)題,而不是到時(shí)再說(shuō)。
3、缺乏有效的信息獲取方式出租車司機(jī)模型迭代了四個(gè)版本,每個(gè)版本最大的變化是什么呢?筆者發(fā)現(xiàn)并不是算法做了什么變更,參數(shù)做了多大的調(diào)優(yōu),而是在于隨著數(shù)據(jù)探索和業(yè)務(wù)理解的深入,特征的選擇增加了,特征變量的表征加強(qiáng)了。在一次分享會(huì)上,筆者特意就出租車司機(jī)識(shí)別的特征變量選擇隨機(jī)問(wèn)了部分團(tuán)隊(duì)成員(1分鐘內(nèi)),如果讓你去做建模,你會(huì)選擇哪些影響變量?一位產(chǎn)品經(jīng)理回答了5個(gè),一位開發(fā)工程師回答了3個(gè)。然后筆者在3500人的9個(gè)微信群提出了同樣的問(wèn)題,共有15位熱心的群友給出了回復(fù),他們提供了多少變量?30個(gè)。頂級(jí)的信息獲取能力,就是讓全網(wǎng)的數(shù)據(jù)從業(yè)者為你貢獻(xiàn)智慧。筆者在《數(shù)據(jù)挖掘軍規(guī)》一文中提出了一系列管理提升的建議,重要的一點(diǎn)就是確保你能站在巨人的肩膀上去做事,你一定要想到自己的業(yè)務(wù)常識(shí)肯定受限于自己的經(jīng)歷,因此一定要善于采用各種手段從外部獲取更多的信息,在參數(shù)調(diào)優(yōu)階段你可以做孤獨(dú)的舞者,但在方案設(shè)計(jì)階段,一定要努力成為一個(gè)連接者。下圖顯示了某個(gè)版本的部分變量選擇示意:

4、缺乏足夠的數(shù)據(jù)分析經(jīng)驗(yàn)我們發(fā)現(xiàn)前三次的模型中存在大量的誤識(shí)別問(wèn)題,比如外賣員、物流配送人員、公交車、班車司機(jī)有很高的概率被識(shí)別成出租車司機(jī),建模人員還是習(xí)慣于用技術(shù)的手段去解決這種問(wèn)題,但調(diào)優(yōu)的結(jié)果往往并不是很好。有的建模師就會(huì)沮喪的說(shuō)已經(jīng)做到極致了,真的提升不了了,但事實(shí)真的是這樣?筆者做過(guò)數(shù)據(jù)分析,發(fā)現(xiàn)很多數(shù)據(jù)建模師其實(shí)缺乏足夠的數(shù)據(jù)分析訓(xùn)練,不善于采用比較鑒別的手段去洞悉數(shù)據(jù)上的一些規(guī)律,自己寫過(guò)一篇文章《經(jīng)驗(yàn),套路還是邏輯?從我的一次數(shù)據(jù)分析經(jīng)歷中能得到什么?》說(shuō)過(guò)分析的方法,建模師會(huì)算法、會(huì)調(diào)參不等于會(huì)數(shù)據(jù)分析,而數(shù)據(jù)分析能鍛煉你的常識(shí)能力,比如數(shù)據(jù)的敏感度。下面的視頻顯示了出租車司機(jī)、外賣員、物流配送人員、公交車、班車司機(jī)在軌跡上的特征,其實(shí)很容易分析出之間的差異,然后設(shè)計(jì)合適的指標(biāo)去表征這個(gè)差異,比如:出租車司機(jī)的活動(dòng)軌跡、不固定、較雜亂,外賣員有較固定的軌跡發(fā)散點(diǎn),公交車、班車司機(jī)則有較固定的活動(dòng)區(qū)域、活動(dòng)軌跡、往返點(diǎn)等等。
出租車司機(jī)典型路徑
外賣員典型路徑
公交車司機(jī)典型路徑下圖示例了用新的位置變量來(lái)表征正負(fù)樣本活動(dòng)區(qū)域的不固定性程度,很好的解決了誤識(shí)別問(wèn)題。

5、缺乏足夠的數(shù)據(jù)質(zhì)量稽核在第四次建模的時(shí)候我們發(fā)現(xiàn)了大量的樣本問(wèn)題,比如在業(yè)務(wù)部門提供的2148個(gè)司機(jī)原始清單中,近20%的司機(jī)位置軌跡行為不顯著,處于低水平,甚至有60余人無(wú)行動(dòng)軌跡,核實(shí)發(fā)現(xiàn)很多人的確曾經(jīng)是滴滴司機(jī),但已經(jīng)不干了,樣本的時(shí)效性問(wèn)題突出。即使是將前三次外呼的結(jié)果作為樣本,也發(fā)現(xiàn)在84個(gè)正樣本中,還有25個(gè)正樣本活動(dòng)軌跡非出租車司機(jī),誰(shuí)都無(wú)法保證外呼的結(jié)果是絕對(duì)準(zhǔn)確的。因此,相對(duì)于互聯(lián)網(wǎng)較好的在線數(shù)據(jù),傳統(tǒng)企業(yè)的數(shù)據(jù)建模師其實(shí)面臨更多的數(shù)據(jù)質(zhì)量的挑戰(zhàn),只要有業(yè)務(wù)驗(yàn)證的可能,就要對(duì)于樣本進(jìn)行常識(shí)的分析和判斷,機(jī)械的進(jìn)行樣本清洗、過(guò)濾和轉(zhuǎn)化是簡(jiǎn)單的,但如果樣本的真實(shí)性出現(xiàn)了問(wèn)題,那是比較致命的。數(shù)據(jù)建模師對(duì)一切數(shù)據(jù)都要持懷疑態(tài)度,然后老老實(shí)實(shí)的去驗(yàn)證,不要想著走捷徑。
6、缺乏合理的機(jī)制流程保障出租車司機(jī)的四次模型迭代,并不是依靠團(tuán)隊(duì)力量的一個(gè)有機(jī)協(xié)調(diào)的逐步推進(jìn)的一個(gè)過(guò)程,而是非常混亂的,無(wú)論是目標(biāo)的設(shè)定,設(shè)計(jì)的評(píng)審,效果的反饋,后續(xù)的優(yōu)化,都存在管理的缺位。雖然數(shù)據(jù)建模師似乎也能稱為碼農(nóng),但其并不是純粹意義上的碼農(nóng),你會(huì)看到大多數(shù)企業(yè)的數(shù)據(jù)建模師實(shí)際要兼顧開發(fā)者、建模者、分析者、運(yùn)營(yíng)者等諸多角色,筆者寫過(guò)一篇文章《數(shù)據(jù)挖掘師,要從一個(gè)人活成一支隊(duì)伍》說(shuō)明過(guò)這個(gè)道理,這些角色要完成工作需要依賴大量的周邊資源,這個(gè)需要機(jī)制和流程的保障。因此筆者近期寫了篇《數(shù)據(jù)挖掘軍規(guī)》的文章,列出了數(shù)據(jù)挖掘中的一些關(guān)鍵節(jié)需要在流程上進(jìn)行強(qiáng)行的控制,確保其能夠高效低成本的進(jìn)行,包括需求可行性匯報(bào)、設(shè)計(jì)方案匯報(bào)、問(wèn)題升級(jí)匯報(bào)、試點(diǎn)結(jié)果匯報(bào)、推廣評(píng)估匯報(bào)等等,下面是一張流程圖示意,請(qǐng)仔細(xì)研讀。

當(dāng)然數(shù)據(jù)挖掘失敗的原因遠(yuǎn)不止于上面提到的這些,從技術(shù)的角度來(lái)講還有更多,但考慮到大多數(shù)企業(yè)基于數(shù)據(jù)挖掘驅(qū)動(dòng)業(yè)務(wù)還處于起步階段,在大多的應(yīng)用場(chǎng)景,算法能力的高低還沒有成為決定性的因素,我們可以考慮先把上面提到的一些低垂的果實(shí)摘了,然后再對(duì)算法去攻堅(jiān)克難,這可能是性價(jià)比更高的方式。
(部分內(nèi)容來(lái)源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)