數據驅動的第一步是數據獲取,或者叫數據採集,也是最重要而又最容易被忽略的環節之一。記得當年在阿里的時候,馬總(集團主席馬雲)一再強調大數據的採集方式應該是recording而非capturing,因為recording更追求全量數據的密集收取。這是兩種截然不同的數據採集策略,前者以需求為導向,所以範圍可控,治理成本比較低;後者很容易給人一種數據愈多愈好的錯覺。難怪到了2014年馬總都忍無可忍地提出,繼續無止境的收集,賺錢部門都給你們(數據部門)打工了。可見這世上並沒有數據愈多愈好的道理,商業講求的就是實效,數據多也會成為負擔。事實上,以目標導向去收窄採集範圍,更容易建立規範包括內容格式、時效、標準及收集的最佳方式。
嚴格把關 保障私隱
大數據的特質(海量、多源、異構)注定了外部合作的必要性和不穩定的本質,因此選擇、識別、分析、評估及維護有價值的數據來源很重要,必要時還要為重要的數據來源作雙重備份。但是,無論外部還是內部數據的獲取,大數據在選擇採用的時候,穩定性、完整性、品質、合規都要一併考慮到;所以在獲取外部數據時,必須要釐清責任,避免合規風險。
政府作為最大的公共數據資源方,可以做些什麼?我認為國內提出的公共數據管理辦法,所帶動的政企合作方式(數據專區)必然會成為未來的重要數據來源。國際上也有協力廠商會預先把多方數據收集及整理後再供應給市場使用,例如提供消費者數據分層及標籤的Acxiom、提供個人信用資訊的Experian、提供位置資訊的Factual、利用機器學習把全球日常衞星圖像轉化為資訊源的Planet。在國內更容易見到的是提供企業徵信的數據服務公司。可想而知,企業在數據獲取時必須具備外部視角,而且應該從戰略制定時就考慮到。另外,數據獲取的深度及寬度必須匹配其使用方式的需要,這牽涉到企業的發展階段,我的建議是早期的公司更適合以應用為基礎,切勿過早追求大而全。
鑑於普羅大眾對數據私隱的關注,企業必須優先考慮到個人私隱和合規性的問題,數據獲取包括協力廠商數據服務的合法性必定要嚴格把關。即使有使用者的授權許可,數據脫敏(數據去私隱化)仍然是擁有大量數據的公司必須考慮的重要事項。在這一方面的標準化工作,國內其實比較做得早,2015年我作為全國信標委副組長的時候,已經提出了數據流程通的前提是建基於數據安全標準的落實。