資訊爆炸時代,海量資訊給予的好處很明顯,資訊給人愈多愈好的錯覺,但其實也會帶來負面影響,除了引起公眾特別關注個人隱私問題外,在操作層面上也會造成有效資訊難以提煉及品質控制的問題。其中一個元兇來自大數據的本質,這個「大」其實來自多源異構的資訊源,因此帶來「資訊距離」(Information Gap)。
資訊距離的簡單理解是,因為資訊換了情景之後原來的狀態或相關性出現改變,因而產生隔膜及有用知識的丟失。
舉個簡單例子,你在剛出來工作的時候開了一個銀行賬戶,填寫了工作類別。但過了3年後這個資訊會隨着個人狀態而變化,如果銀行繼續使用作為推薦服務的考量,這個資訊距離當然會造成誤差。另一情況是填寫工作類別的時候,並沒有「投資人」這個選項(事實上經常發生在我身上),所以僅選擇資訊科技,讀者可以想像這個資訊差距之大,但時效性和收集資訊時的格式是最容易被掉以輕心的資訊誤差。
商業運作通常是縱向的結構呈現,在網路化之後,商業模型開始探索着橫向合作的可能性,特別是資訊共用方式的改變更有利於新創造及知識挖掘,在這個前提下,資訊的轉移也少不免出現資訊距離容易被放大。例如某客戶欠交電話費,居然影響到向銀行按揭的風險控制模型,因此要多付了利息。
資訊的用途最少可以分為3方面:知識運作(學習/探索)、管理運作(監管/提效)、控制運作(製作/自動化)等。他們都有着共同的要求,就是如何尋找為其達到目標的最佳資源及保持穩定。
為了讓大數據能更廣範圍使用,為資訊距離作定量分析變得愈來愈重要。
當大數據被定義為未來經濟的要素之際,既然有Kg來度量物質的重量、Km來代表距離、焦耳(J)來測度能量、時分秒來形容時間之長短。那麼資訊是否也應該有它的量度的標準及方法呢?如果要我為目前的情況暫時下個評語,答案是:很不科學。
車品覺_紅杉資本中國專家合夥人、阿里巴巴商學院特聘教授暨學術委員會委員