
截止到今天,中國首部重工業(yè)科幻電影《流浪地球》票房已經(jīng)突破 41 億元,很可能會最終突破 50 億票房。驚人的票房數(shù)據(jù)讓眾多票房預(yù)測機構(gòu)大跌眼鏡。根據(jù)我們的統(tǒng)計,在春節(jié)檔之前,不同預(yù)測機構(gòu)給《流浪地球》的票房預(yù)測普遍在 10 億左右,與本片的實際票房差距在五倍左右。
與此同時,在春節(jié)檔其它電影的票房預(yù)測上,預(yù)測機構(gòu)也普遍呈現(xiàn)了非常大的偏差,甚至在電影第一天的票房數(shù)據(jù)之后,貓眼APP 給出的《喜劇之王》的預(yù)測值仍然達到了 24.96 億,而實際上,《喜劇之王》的票房之后就大幅縮水,最終的票房很可能只停留在 6 億左右。

票房分析可以說是大數(shù)據(jù)分析一個非常典型的應(yīng)用了,具有數(shù)據(jù)來源多(歷史票房數(shù)據(jù)、社交媒體互動、受眾反饋等)、數(shù)據(jù)量大、影響因子多(用戶評價、宣傳流量、預(yù)售量、檔期、題材、流量明星)等等特點,可是真正到實踐之中仍然不盡如人意。那么,為什么數(shù)據(jù)預(yù)測這么難呢?怎么來提升數(shù)據(jù)預(yù)測的準確性呢?
一、大數(shù)據(jù)來進行票房預(yù)測的三種思路
Datahunter 資深數(shù)據(jù)分析師介紹稱,目前針對電影票房的預(yù)測主要有以下三種思路:
第一種思路可以形象的理解為“照貓畫虎”,其原理在于:目前市場上已經(jīng)上映了大量的影片,并積累了海量的票房變動數(shù)據(jù),深度神經(jīng)網(wǎng)絡(luò)模型可以依據(jù)某一部影片的大量用戶行為數(shù)據(jù),在定檔影片上映前一個月就可以給出該片的首日票房預(yù)測;同時,系統(tǒng)自動篩選出與之最相似的電影,描繪出待映電影的未來票房走勢圖,進而預(yù)測出這部影片在上映期間的每日票房以及最終的總票房。谷歌所采用的預(yù)測模型只選取了三種維度:電影預(yù)告片的搜索量、同系列電影前幾部的票房表現(xiàn)、檔期的季節(jié)性特征,最終獲得94%的預(yù)測準確率。

谷歌建立的票房預(yù)測線性回歸模型
這種方式的優(yōu)點在于簡單直接,更接近傳統(tǒng)大數(shù)據(jù)分析“只反映趨勢,不深究因果”的理念,上映時間越長,其預(yù)測的數(shù)據(jù)就越為精準,往往適用于貓眼等掌握了大量票房數(shù)據(jù)的企業(yè)。但缺點在于,其無法將電影上映過程中眾多的復(fù)雜因素考慮進來,所以經(jīng)常會出現(xiàn)預(yù)測波動大、與實際偏離值較高等缺陷。
第二種思路則較為復(fù)雜,而且會將更多的因子納入到考量因素中來。其先根據(jù)歷史票房變化預(yù)測出某一個檔期的總票房,然后根據(jù)社交媒體討論數(shù)量、不同導(dǎo)演與演員的歷史電影質(zhì)量、點映用戶的評價、票房情況、SEO情況等預(yù)測出各電影票房占比,之后綜合預(yù)測出各電影的實際票房。這種方式優(yōu)點在于更多的將“電影評價”這一個重要因子納入到考量范圍內(nèi),通過電影導(dǎo)演表現(xiàn)、上映前反饋等等因素來判斷出電影的流行趨勢,因此預(yù)測精準性方面有更好的效果。
第三種思路則綜合了大數(shù)據(jù)分析與人工決策,即先使用大數(shù)據(jù)分析來對于影片的票房進行一個事先的預(yù)測,并輸出可視化的數(shù)據(jù)圖表。與此同時,專家會對具體的電影進行分析,找出其潛在的爆點或是隱患,并評估其可能帶來的影響,并以加權(quán)的方式納入到模型之中進行修正。這種方式在預(yù)測爆品方面有更好的表現(xiàn),也是 Datahunter 優(yōu)先推薦的方式,這種方式我們在稍后會繼續(xù)講到。
二、票房預(yù)測為什么這么難?
盡管有著大量的數(shù)據(jù)以及先進的工具,但是票房預(yù)測仍然沒有達到讓人滿意的精準率,這就要像金融行業(yè)中經(jīng)常談到的“黑天鵝”概念一樣,非常難以預(yù)測、且不尋常的事件經(jīng)常會發(fā)生,而且還會引起連鎖負面反應(yīng)甚至顛覆。體現(xiàn)在大數(shù)據(jù)分析與預(yù)測場景中,只要某個隱性但關(guān)鍵的因素沒有沒納入到模型中,將可能使預(yù)測與事實產(chǎn)生重大偏差。
這也是大數(shù)據(jù)分析的難點所在:事物變化的影響因素非常多,幾乎不可能窮盡,誰知道哪一個因素將會產(chǎn)生連鎖式的反應(yīng)?而且,由于很多大數(shù)據(jù)分析工具并不考慮因果性,只考慮相關(guān)性,經(jīng)常會帶來“虛假相關(guān)”的問題,也就是無法對于數(shù)據(jù)變化的真正原因進行歸因。在大多數(shù)場景下,這樣的預(yù)測并沒有什么問題,但是在特定的場景下,偏離預(yù)測的情況仍有可能會發(fā)生。
更加不可控制的則是不成熟的市場環(huán)境,以及潛在的風險因素,比如影片檔期選擇、宣發(fā)策略的一招失誤,就可能導(dǎo)致整個影片的票房成幾倍的誤差。而某個關(guān)鍵演員的負面新聞也同樣會帶來不可預(yù)期的影響,例如吳秀波的丑聞導(dǎo)致《情圣2》的撤檔,范冰冰事件則直接導(dǎo)致《大轟炸》放棄國內(nèi)上映,賠的血本無歸。
如果將具體電影代入到預(yù)測模型中,我們將很容易發(fā)現(xiàn)預(yù)測的難度:如果使用谷歌預(yù)測模型來預(yù)測《流浪地球》,只有檔期的季節(jié)性特征是利于其票房發(fā)揮的,其不僅電影預(yù)告片的搜索量不及同檔期競爭電影,而且同系列的科幻電影幾乎沒有市場表現(xiàn),無怪乎得到眾多預(yù)測機構(gòu)的看衰。這樣的例子并不少,其突出的特點就是口碑的大幅引爆,比如《瘋狂動物城》、《白蛇傳》、《紅海行動》乃至票房榜首《戰(zhàn)狼》都屬于這個類型。
三、數(shù)據(jù)預(yù)測準確率如何改善?
盡管電影票房預(yù)測看似困難重重,但是仍舊可以通過不同的方式進行改善。在前面我們提到了大數(shù)據(jù)分析與人工決策相結(jié)合的方式,其核心原理就是利用人工思維的主觀能動性與創(chuàng)造性,發(fā)掘電影票房中潛在、但關(guān)鍵的影響因子,最終來得出結(jié)論。而這一影響因子是不斷發(fā)生變化的,幾年之前,這一關(guān)鍵因子往往體現(xiàn)在 IP、流量明星中,現(xiàn)在,口碑、開創(chuàng)性對于票房會帶來更大的影響。
有些人會問,電影尚未上映,口碑怎么來進行判斷呢?其實,這往往是有跡可循的,其數(shù)據(jù)可能來源于電影的提前點映評價、預(yù)告片、拍攝周期等等因素。例如,在上映之前,《流浪地球》的點映就得到了觀眾的超高評價,而《愛情公寓》大電影還沒上映我們就基本可以判斷是爛片。當然,這些都是大數(shù)據(jù)系統(tǒng)無法完全告訴我們的,需要專家進行評判。
要評價電影對于觀眾的吸引力,還可以采取 LDA 來進行分析,LDA 是一種非監(jiān)督機器學(xué)習(xí)技術(shù),可以用來識別大規(guī)模文檔集(document collection)或語料庫(corpus)中潛藏的主題信息。下面是不同機構(gòu)通過 LDA 對《流浪地球》進行的詞云圖分析,可以看出《流浪地球》的科幻、特效等核心詞匯很好的切中了當前觀眾的“痛點”,完全可以在預(yù)測中給出更高的評判。
四、數(shù)據(jù)分析的其它應(yīng)用場景
除了票房之外,其它應(yīng)用場景可以利用大數(shù)據(jù)分析+人工決策的方式進行分析么,答案是肯定的。目前 Datahunter 正在搭建 Data Analytics 數(shù)據(jù)分析平臺+Data Wisdom數(shù)據(jù)智能決策的人工智能決策輔助平臺,這套系統(tǒng)并沒有激進的將所有決策任務(wù)都交給機器系統(tǒng),而是將數(shù)據(jù)挖掘結(jié)果輸出給專家,并結(jié)合專家判斷進行調(diào)整,能夠更好的預(yù)防“黑天鵝”事件的發(fā)生。
例如,在銷售數(shù)據(jù)預(yù)測時,除了可以根據(jù)歷史銷售數(shù)據(jù)、人口密度、消費水平、消費習(xí)慣、商圈口碑等數(shù)據(jù)進行深度數(shù)據(jù)挖掘之外,管理者或是專家還會根據(jù)帕努單那納入其它的影響因子(例如某項活動的舉行、補貼政策的退出等等),根據(jù)結(jié)果進行相應(yīng)的資源調(diào)配以及銷售額調(diào)控措施,讓銷售更富精準性。
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)