暗數據潛藏風險

雖然如今表面上似乎有更多數據供應,但綜觀現時很多企業內部均無視數據缺失(Missing Data)問題,因而令數據分析能力受限制。這些數據缺失包括有意或無意丟失的情況,例如在最近一次街頭投票中,紙本選票與電子投票的結果迥異,某些人的紙本得票較電子點票高出很多,可能正好說明了「暗數據」(Dark Data)帶來的不公平性,例如部分群體對電子投票欠熟悉導致數據偏差。在企業中這種情況一點都不罕見,而且有時很容易被忽略,造成的影響可大可小,有時甚至涉及訊息倫理的道德問題,並成為一種冷暴力。

隨着數據量激增,廣泛存在着一種技術樂觀主義者的看法,即所謂大數據能治「百病」的傳說。大數據在某程度上是指一個龐大數據集,多樣且動態變化,用上文的例子解釋,遭邊緣化的群體因為對技術應用的流利程度,被隔絕在數據收集行為之外,結果使數據分析的結果僅通過有偏見的數據模式,來再度呈現當中的歧視和排斥。因此儘管近年數據量有所增加,但潛在的已知或未知數據缺失放在一起,依然限制了包容性決策的能力。有學者把這種現象稱為「暗數據」,藉此說明它可能潛在的風險,「暗數據」的缺失或包含非隨機和系統性的遺漏,導致數據把邊緣事件或者人群(無論這一邊緣人群是由於貧困、地理環境還是生活方式造成)排除在外,形成代表性不足。

為了讓大家進一步理解「暗數據」的形成及風險,下面列舉三種情況:

暗數據一:倘淘寶想觸及新的用戶群(如銀髮族),淘寶希望收集他們的購買偏向,但由於少數群體的數據量不足,以及在很多品類覆蓋率低,為彌補缺失,可以使用較接近的相似群組作為替代補充,當然這也意味着噪音的出現。換句話說,在大數據的環境中,缺失值的問題會隨着「替代品」增加而失真,分析的準確性亦愈發難以揣摩。

暗數據二:大數據的價值提升,大部分情況都是因為數據得到共享和整合所致。但面對不同來源的整合(我更喜歡叫作穿針引線Stitch),數據會由於不同格式及收集的場景性質而產生偏差。譬如客戶在購物網站所填寫的性別和其社交網絡資料可能不一樣,又或金融機構收集到的職業類別會較購物網站更準確。這意味着類型及量級不平衡的數據來源愈多,排斥的現象會愈嚴重。為解決此問題,機構需要了解數據中的質量差距,還有數據背後隱含的收集動機。

暗數據三:因基礎數據收集時間不一,可能導致對數據代表性不足的錯誤推斷。如果沒有明確的方法來調整歷史數據,而數據挖掘依賴於數據作為基礎事實,當這些輸入數據的新鮮度存在問題,例如沒有定期更新CRM(客戶關係管理)資料,系統將產生不可靠甚至是完全偏差的結果。

車品覺_紅杉資本中國專家合夥人、阿里巴巴商學院特聘教授暨學術委員會委員