「匿名數據」(Anonymous data)為什麼對未來數據驅動(Data Driven)很重要?典型的匿名數據是把資料中一些敏感個人訊息,例如名字和電郵地址等個別特徵剝離,我叫作De-identify,以便讓個人身份無法被識別出來。經過這個過程後,數據可以合法地自由使用並轉移給第三方。從醫療保健、金融科技到廣告領域,「匿名化」數據使用也隨着個人私隱意識加強而日益吃重。
然而,弔詭的地方是匿名數據可以被還原,當有足夠的數據量通過機器學習,進行逆向技術以重新識別某個體不是難事。
美國有研究指出,可以使用15個較通用的特徵(包括年齡、性別和婚姻狀況等)在任何已經被「匿名」的數據中,正確地重新識別99.98%的個人。
另外,有研究人員開發了工具,允許所有人檢查自己的匿名程度。只要提供部分的郵政編碼、性別和出生日期(不包括年份),軟件會計算出在任何匿名數據中重新被識破的概率。如果你願意再提供婚姻及就業狀況等,很快個人身份就在匿名數據中原形畢露。
事實證明匿名並不是真的安全,早在2012年,英國教育部舉辦了一場活動,旨在展示匿名數據的有效性。然而,參加該活動的一名學生很快就能從這些數據中認出自己,原因是他以高分通過的其中一個考試僅有較少人參與。我們經常獲保證,指匿名化將使我們的個人訊息安全。但事實證明,去身份標識遠遠不足以保護人們的數據私隱。匿名化的標準必須變得更健全,同時足夠應對新科技所產生的新威脅。
近年數據安全技術發展蓬勃,並隨着大數據應用而大受關注。其中有3個技術特別值得留意:
1)差分私隱(Differential Privacy):當從統計數據庫查詢時,最大化數據查詢的準確性, 同時最大限度減少識別其紀錄的機會。
2)同態加密(Homomorphic Encryption):在不解密的條件下,對加密數據內容進行有限度運算及分析,而不會影響保密性。
3)聯邦學習(Federated Learning):在數據不共享的情況下,一種加密的分布式機器學習,參與各方可以在不披露底層數據和相關加密形態的前提下共建模型。
幾年前在阿里的時候,我們一直提倡希望做到「數據可用不可看」,也許這才是數據應用全力推進的前提。