阿里搶佔大數據下一站:數據中台

數據技術「中台」之所以成為攻堅大數據能力的重要途徑,一來因為數據中台確實解決了煙囪式數據各自為政的問題,其次是更有利於推動輕盈的前台業務創新,同時能把應用中的數據回流,形成更豐富的中台資源。

訊息及數據的收集及處理自古有之,幾千年來變化不大,直到個人電腦的普及才開始出現改變:首先是數據化的領軍企業包括谷歌、亞馬遜、臉書及中國的百度、阿里、騰訊等帶動了一波數據量級的增長,然後是移動應用和人工智能所引起的智能熱潮,前述公司的高速發展都跟這些能力相關。再加上物聯網的加入,讓我們在不知不覺間每天都在生產着數據,甚至消費着數據。如今可以說幾乎全民都在參與大數據的生命周期。

連接能力是一個數據智能平台的基礎。連接指的是將不同來源的數據連接、匹配、融合的能力,讓用戶能連接到雲端和本地化的結構化和非結構化的數據,包含支持不同類型的數據存儲平台。這個概念不強調對數據的擁有,而強調能夠觸及和返回的數據的廣度、豐富程度。

共享能力是評估一個數據智能平台是否為合格的首要標準。共享不代表要完全的透明,而是構建一個合理的、區分權限的、能夠保護數據同時讓知識的價值流轉的機制。為了保護數據而不讓算法或者從數據中得到的洞察知識流轉,無疑是不合理的。因此一個數據智能平台存在的意義就是共享,同時保障不應該共享的部分。

大數據的核心價值來自分享流通,數據的分享增加了預測、還原現實及預判未來的可能性。如今企業都意識到數據是重要的資產,也意識到有效數據治理是數據資產化的前提。大數據的結構組成和幾年前很不一樣,因為需求的細分、終端的發達變得愈來愈零散。同時數據安全的規管也改變了大家分享數據的形式及難度,滙聚數據的成本正在不斷提高。所以成本效應成為了企業及政府機構數據化的絆腳石,曾經有一段時間阿里集團也為幾百PB 級別的雲存儲成本而擔心影響企業的收益。近年筆者在國內做市政府和一些互聯網企業的諮詢專家及顧問,亦涉及到如何建立橫向的數據治理系統。筆者發現治理工作越早開展成本越可控。否則就像有些企業高管開玩笑式自嘲:這不是開着飛機換引擎般困難嗎?

各部門重複開發數據集

這個經驗最早來自阿里,當時在企業飛速的發展過程中我們發現數據使用面臨以下挑戰:各部門低水平重複開發數據集,浪費大量的存儲和計算資源;數據資源缺乏沉澱機制,導致計算能力難以提升,進化低效;數據割裂,算法分離,帶來混亂和質量的不確定性;業務變更時,數據及數據產品反應不及時;組織架構制約了數據的共建和共享;缺乏數據的規範及配套激勵機制。2016 年經過阿里內部總結發現,在大數據時代,業務與數據之間有很強的聯繫,但數據的內容及結構更新速度非常快;數據算法上的技術很類似,但各師各法;數據質量人人都說重要,但必須明確由誰負責任。因此,做好數據治理工作成為當時筆者在阿里的主要任務,也隨之誕生了阿里數據中台及數據委員會。

煙囪式數據各自為政

無獨有偶,企業內的一些數據治理問題,在各地的市政府機構內部也在重複發生。在缺乏頂層設計之下,數字化步伐都在追隨各個職能部門的發展,數據體系也是基於業務單元垂直積累,從而形成了煙囪式體系。垂直式數據體系的優點是緊貼場景反應敏捷,缺點是數據分散、欠規範,難以共用關聯成為合力,大數據價值優勢被削弱。此外,煙囪式數據體系還會造成混亂的數據調用和拷貝,以及系統功能建設和維護帶來的重複投資,不僅造成人力、財力、資源的浪費,更重要的是時間以及數據質量的參差不齊。在目前高速發展的互聯網市場大環境下,商機稍縱即逝的,數據中台的建設刻不容緩。

簡單地看,數據中台有點像一條生產流水線,從原始數據收集,到提煉成穩定的生產流程。在這製作過程中,需要有一套生產管理流程體系,用以保證數據品質、時效性、一致性等關鍵點。但數據中台與生產流水線的差別在於:數據中台不僅需要關注數據生產過程中的效率問題,還要一方面具備海量多源異構數據的整合能力,另一方面是促進創新且變化多端的業務前端服務能力。

數據中台之所以成為攻堅大數據能力的重要途徑,一來因為數據中台確實解決了煙囪式數據各自為政的問題,其次是更有利於推動輕盈的前台業務創新,同時能把應用中的數據回流,形成更豐富的中台資源。數據中台作為推動數據化營運的利器,同時也能成為營運數據的中心(兩者結合為閉環)。數據及其服務能力的滙聚與集中管控協同,很大程度會促進企業一體化運維的能力。

數據中台圍繞數據生命周期的各階段(產生、存儲、增強、使用、傳輸、共用共創、更新、銷毀等)而建立,服務的對象可以是IT 研發者、數據科學專家、產品經理、分析師、決策管理者等。使用者會因應需要而加工數據,情況有點像石油提煉。

而數據生產過程中還有一種極其重要的數據,被稱為元數據,又叫數據中的數據。對元數據管理得當,就可以讓數據在生產過程變得更精淮、穩定及可被追溯。元數據管理須記錄生產過程中各項數據因素,包括生命周期、調度情況、品質保障、安全監控、數據字典、數據血緣關係等。元數據是數據中台的精髓,有利於數據在生命周期中的監督、成本管理或分攤、追蹤數據價值。因此,數據中台的所需的一種能力就是如何建立一個協作平台,讓整個數據的生產到服務更規範有序,可追溯又化繁為簡地把前面所提到的連接和共享能力有機滙聚。事實上這並非一件技術性工作、當中大部分的精力是在人的管理。

數據服務賦能快速創新

一切數據都是應業務目標驅動而形成,產生於業務且又服務於業務。通過鬆耦合的數據服務帶來業務的復用,例如淘寶和天貓有着各自的買家評價服務,但在防止刷屏的時候會使用相同的數據模型鑑別虛假評價。所以儘管業務場景不一樣,但很多基礎數據模型及算法可以被重複使用服務。

經過清晰的沉澱,算法可以通過重新編排、組合,成為服務接口響應業務的基本需求。由於具備快速編排、組合數據服務的能力,企業可以以較小的成本投入來構建出一個創新的前端業務。這是傳統模式構建的系統中是所未有的,容許快速試錯更為適合今天的輕量化運營模式。

大數據中台的建設及行業普及到如今還處於摸着石頭過河的階段,任何中台都是在不斷互動回饋的過程中成長。但是可以肯定的是,這是個「一把手」工程,必須秉持打破傳統管理的決心,做好長期鬥爭的準備。

近年很多企業及政府紛紛設立獨立數據治理委員會。前面提到數據中台的核心理念是「以通促用,以用帶存」,這裏的「通」不僅是數據的聯通,也關乎人為組織結構的聯通,而且是橫(功能部門之間)、縱(數據生命周期的各個環節)都要通。