一千個人眼里有一千個哈姆雷特。同樣的,一千個人對數(shù)據(jù)有一千種理解。
引言
在跟客戶交流過程中,遇上好學(xué)的,偶爾被被問起,“數(shù)據(jù)和信息有什么區(qū)別?”
大部分時間,我基本上都用“信息和數(shù)據(jù)并無太大區(qū)別”來搪塞。對方聽罷,盡管不繼續(xù)追問,但也不免露出困惑以及懷疑的神情。
隨著數(shù)字化時代來臨,(大)數(shù)據(jù)、信息等詞匯幾乎走入了老百姓的日常生活。
前幾天跟一個新項目交流數(shù)據(jù)方法。一位初次接觸的同事聽完后,非常直接的評價,“感覺花活多了些。”
如果回到十年前,這樣的評價足以讓我emo好幾天。好在如今經(jīng)歷了歲月的磨礪之后,內(nèi)心已經(jīng)足夠強大。
記得我當(dāng)時直接回復(fù)對方,“好在我在會前了解到您是銷售,而且能夠坐下來耐心聽我講。你這樣的評價不會讓我生氣。不過我依然要非常嚴(yán)肅的告訴您,數(shù)據(jù)工作是一項非常專業(yè)的工作,而且數(shù)據(jù)也是一門非常嚴(yán)謹(jǐn)?shù)目茖W(xué)。千萬不要以為聽聽大眾媒體就自以為掌握了。”我是笑著回應(yīng)對方的。
無論是數(shù)據(jù)還是信息,每個人都似乎“略懂”,但又似乎不懂。于是大家總期望有“大咖”用大白話能把問題講得很清楚,一聽就懂的那種。
顯然我還遠(yuǎn)沒達(dá)到大咖級別的造詣,因此沒指望讓朋友們一聽就懂。不過,還是決定用最啰嗦的方式聊聊數(shù)據(jù),以及數(shù)據(jù)與信息的關(guān)系。
一、數(shù)據(jù)
隨著科技不斷進(jìn)步,人類處理數(shù)據(jù)能力不斷提升,數(shù)據(jù)外延在不斷擴大。這正是造成大家對數(shù)據(jù)“似懂非懂”的根本原因。

階段一、以量化為目的的數(shù)據(jù)
遠(yuǎn)古祖先的結(jié)繩記事,這便是數(shù)據(jù)的最初形態(tài)。除了研究純理論的數(shù)學(xué)外,每一個數(shù)字都代表著現(xiàn)實生活中的特定含義。從我們熟悉個人體重、年齡、收入等,到國家的GDP,企業(yè)的銷售收入、利潤,空氣質(zhì)量PM值,量化的數(shù)據(jù)無處不在。
在企業(yè)里,當(dāng)老板理直氣壯的對你說,“別給我扯這么多,拿數(shù)據(jù)說話!”意味著用冷冰冰的數(shù)據(jù),銷售額、利潤等,來決定你在公司的命運。
看得出來,人類在對量化的數(shù)據(jù)計算本身方面,并不需要太多的技術(shù)含量,并且也都基本上是通過人工為主來完成。東方的算盤、西方的計算尺等計算工具(還稱不上計算器),對人類計算幫助有限。
階段二、以結(jié)構(gòu)化、標(biāo)準(zhǔn)化記錄為特征的數(shù)據(jù)
在計算機出現(xiàn)以前,已經(jīng)有了結(jié)構(gòu)化數(shù)據(jù)的最初形態(tài),那就是財務(wù)賬本。

(圖片來自網(wǎng)絡(luò),侵刪)
可以說,計算機充分發(fā)揮了這一形式的優(yōu)點。這里不打算科普信息系統(tǒng)的數(shù)據(jù)庫知識,從來不接觸的朋友可以想想Excel文件表格的好處。
簡單來說,表格的每一行代表了被記錄的對象(員工、物料、一次出入庫等等)。每一欄代表了被記錄對象的核心內(nèi)容。之所以說是核心內(nèi)容,只要在表頭寫明“工號、姓名、性別、年齡、工資”等即可,具體的每一行不需要重復(fù)說明。
這樣做的目的是,讓計算機可以針對預(yù)定格式的數(shù)據(jù)按照預(yù)定的程序邏輯進(jìn)行復(fù)雜、而簡單的各種運算處理。
有人說,Excel是最反人類的office格式。不信的話,領(lǐng)導(dǎo)上臺作報告時,朋友們可以替領(lǐng)導(dǎo)準(zhǔn)備一份Excel文件形式的報告驗證一下。不過挨K了,不能算在我頭上。
這便是人們常說的“小數(shù)據(jù)”,相對于“大數(shù)據(jù)”而言的。因為過去絕大部分的結(jié)構(gòu)化數(shù)據(jù)都是依賴于人手工一個字一個字從鍵盤錄入的,“能省則省”,自然“小”。
階段三、一切形式的記錄
《數(shù)據(jù)安全法》對數(shù)據(jù)的定義是,“指任何以電子或者其他方式對信息的記錄。”
毫無疑問,這是當(dāng)今對數(shù)據(jù)最新、最權(quán)威的定義,也是最寬泛的定義。
就我自己的體會而言,第一次看到這個定義時,認(rèn)為“其他方式”的限定詞過于嚴(yán)謹(jǐn)。
畢竟,我們當(dāng)前絕大部分計算機直接處理的信息都是以電子形式存在。其他物理世界的實物(含聲、光等)也都是通過技術(shù)轉(zhuǎn)化為電子形式之后,再交給計算機進(jìn)行處理。
但實際上,隨著技術(shù)進(jìn)一步發(fā)展,非電子形式更先進(jìn)的記錄方式勢必被發(fā)明。例如,據(jù)說科學(xué)家們已經(jīng)開始探索使用人造DNA來存儲信息。當(dāng)然,包括人類在內(nèi)的生物體所攜帶的天然的(相對于人造的)DNA本身也是一種“數(shù)據(jù)”。
另外,過去已經(jīng)存在的記錄,包括數(shù)千年前的西班牙巖畫、殷墟的甲骨文,或許未來也可以作為存儲,被計算機直接進(jìn)行處理。
不可否認(rèn),如果將該定義進(jìn)行簡化為“數(shù)據(jù)指對信息的記錄”,結(jié)果又如何呢?
看不懂!
不可回避的,只能聊聊數(shù)據(jù)和信息的關(guān)系。
二、數(shù)據(jù)與信息
第一次將“數(shù)據(jù)”和“信息”兩個概念放在一起對比,應(yīng)該是十五六年前的事情了。當(dāng)時公司開始數(shù)據(jù)治理工作,從外面請來的顧問總喜歡拿體溫的例子來科普數(shù)據(jù)、信息、知識和智慧的關(guān)系。
由于年代久遠(yuǎn),無法找出原始材料,只能手繪如下:

說實話,作為宣講材料的引子,除了能夠炫耀一下自己既專業(yè)又“親民”以外,并無更多的作用。
后來知道了,這個原型來自于DIKW模型(詳細(xì)見文章《DIKW模型,數(shù)據(jù)供應(yīng)鏈中的基礎(chǔ)生產(chǎn)工藝》)。
人類的認(rèn)知過程是一氣呵成的,甚至不需要嚴(yán)格的區(qū)分?jǐn)?shù)據(jù)、信息和知識。舉個例子,我們是不是經(jīng)常把“第一次世界大戰(zhàn)爆發(fā)于1914年6月28日。”之類的歷史事件當(dāng)作歷史知識呢?如果我非得說不是,你可能會說我吃飽撐的。
但歷史上,“吃飽撐的”的人不知我一個。除了把DIKW模型寫成詩歌作者艾略特之外,還有被譽為“信息論之父”的香農(nóng)。
《信息簡史》一書介紹信息論時,引用了香農(nóng)的一句話:“對于信息論的研究而言,訊息的‘意義’基本上無關(guān)。”
進(jìn)而解釋,“這些訊息往往都帶有意義,也就是說,根據(jù)某種體系,他們指向或關(guān)聯(lián)了特定的物理或概念實體(對象)。”
從其他材料中了解到:
香農(nóng)區(qū)別了信息傳播的三個層次:A層:傳播符號如何能夠被準(zhǔn)確地發(fā)射(技術(shù)問題);B層:被發(fā)射的符號如何能夠準(zhǔn)確地傳遞意圖中的意義(語義學(xué)問題);C層:被接受的意義如何有效地以意圖中的方式影響行為(效果或行為問題)。
可以看出,香農(nóng)從技術(shù)的角度把人類認(rèn)知過程拆解成三個“分解動作”,A層對應(yīng)著數(shù)據(jù);B層對應(yīng)著信息;C層對應(yīng)著知識。
香農(nóng)在著名《通信的數(shù)學(xué)理論》論文引言里寫道:“通信的基本問題就是在一個地方復(fù)現(xiàn)在另一個地方選定的消息,這一復(fù)現(xiàn)可能是準(zhǔn)確的,也可能是近似的。”
我沒有數(shù)學(xué)功底,沒有勇氣看論文正文。但至少可以猜測道,香農(nóng)把數(shù)據(jù)和信息區(qū)分開來(近似如此),其目的是解決信息載體的“傳遞”的技術(shù)問題。
因此,不妨將《數(shù)據(jù)安全法》中關(guān)于“數(shù)據(jù)指對信息的記錄”按照類似方式來理解。
后記
盡管花了許多時間來澄清和理解數(shù)據(jù)和信息的定義,但我依然認(rèn)為,對于非專業(yè)的朋友,并不需要可以“從技術(shù)的角度“去理解數(shù)據(jù)和信息的區(qū)別。
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)