建設數據中台,賦能創新改革

成本效應成為了企業及政府機構數據化的絆腳石,管理層必須理解,從信息化到數據化再到應用,必須有強大的技術支持靈活的政策保障以及開放的生態支撐,方可馬到功成

信息及數據的收集及處理自古有之,幾千年來變化不大,直到個人電腦的普及才開始出現了極其微妙的改變。首先是帶動著數據化的領先企業包括 Google、Amazon、Facebook 及中國的BAT, 然後是移動應用和人工智能所引起的智能熱潮。再加上物聯網的加入,讓我們在不知不覺之間每天都在生產著數據,甚至消費著數據。可以說,幾乎全民都參與在大數據的生命周期之中。大數據的組成和幾年前很不一樣,因為需求的細分及終端的發達變得越來越零散。同時數據安全的規管也改變了大家分享數據的形式及難度,匯聚數據的成本正在不斷提高。但是我們都知道大數據的核心價值來自分享,經過數據的分享增加了預判及還原現實的可能性。所以成本效應成為了企業及政府機構數據化的絆腳石。

如今企業都意識到數據是重要的資產,也意識到有效數據治理是數據資產化的前提,近年本人在國內做市政府和一些互聯網企業的咨詢專家及顧問,都涉及到如何建立橫向的數據治理系統。這個經驗最早來自阿里巴巴,當時在企業飛速的發展過程中,我們發現數據使用面臨著如下挑戰:

– 各部門低水平重複開發數據集,浪費大量的存儲和計算資源;
– 數據資源缺乏沉澱機制,導致計算能力的提升和進化非常低效;
– 數據割據,算法分離,帶來混亂和質量的不確定性;
– 業務變更時,數據及數據產品反應不及時;—組織架構制約了數據的共建和共享,缺乏標準及激勵機制。

經過內部總結髮現,數據的“匯管用”過程中伴隨著三個現象特點:數字業務變化速度非常快、數據處理技術及方法都很似、數據及算法中間層能產生巨大效能。因此,做好數據治理工作成為當時筆者在阿里巴巴的主要任務,也隨之誕生了阿里數據中台。

無獨有偶,企業內的一些數據治理問題,在各地的政府機構內部也在重複發生。在缺乏頂層 設計之下,數字化步伐都在追隨各個職能部門的發展,數據體系也是基於業務單元垂直積累,從而形成了煙囪式體系。垂直式數據體系的優點是緊貼場景反應敏捷,缺點是數據分散、不標淮,難以共用關聯成為合力,大數據價值優勢被削弱。此外,煙囪式數據體系還會造成混亂的數據調用和拷貝,以及系統功能建設和維護帶來的重複投資,不僅造成人力、財力、資源的浪費,更重要的是時間浪費以及數據質量的參差不齊!

在目前高速發展的互聯網市場大環境下,商機是稍縱即逝的。

在認同大數據是未來創新核心的前提下,需要把數據戰略的先進性、前瞻性放到優先考慮位置。否則大數據的能力會隨著粗放式運營而變得停滯不前,淪為有名無實;數據愈亂,建立大數據的能力門檻愈高,從信息化到數據化的時間節點都會影響治理難度。管理層必須理解,從信息化到數據化再到應用,必須有強大的技術支持、靈活的政策保障以及開放的生態支撐,方可馬到功成。

數據共享是數據生態的核心為了促進企業內部對於數據挖掘、更新、使用的效率,本人在阿里內部嘗試建立了數據公共層,首先是對於線上及離線的數據按交叉使用量、緊缺風險等進行盤點,基於現況及未來需要作中長期戰略預估。這裡匯聚了阿里內部共用得最頻繁或者最關鍵的數據,這些資源有如生產中所需要的必備部件,可以加快生產速度及降低重複性。公共層作為數據中台的核心部分,積累了最關鍵的數據資源,同時也是最具備品質保障的
主數據。

簡單地看,數據中台有點像一條生產流水線,從原始數據收集,到提煉成穩定的生產流程。在這個製作過程中,需要有一套生產管理流程體系,用以保證數據品質、時效性、一致性等關鍵點。但與生產流水線的差別在於,數據中台不僅需要關注數據生產過程中的效率問題,中台實際上還具備以下能力:1.如何收集數據被消費之後的反饋閉環;2.解決多源異構的數據組合的效率;3.具備業務發生變化時的快速自適應力;4. 保障數據服務的穩定性。

數據中台圍繞數據生命周期的各個階段(產生、存儲、增強、使用、傳輸、共用共創、更新、銷毀等)而建立,服務的對象可以是IT研發者、數據科學專家、產品經理、分析師、決策管理者等。使用者會因需要而加工數據,情況有點像石油提煉一樣。而數據生產過程中還有一種極其重要的數據,被稱為元數據,又叫數據中的數據。

對元數據管理得當,就可以讓數據在生產過程變得更精淮、穩定及可被追溯。元數據管理須記錄生產過程中各項數據因素,包括生命周期、調度情況、品質保障、安全監控、數據字典、數據血緣關係等。元數據是數據中台的精髓,有利於數據在生命周期中的監督、成本管理或分攤、追蹤數據價值。因此,一般數據中台的價值體現可以根據數據開發能否化繁為簡作為考核,進一步理解就是開發成本的節省(第五種能力)。

數據服務賦能快速創新

一切數據都是因業務目標驅動而形成,產生于業務且又服務于業務。

通過松耦合的數據服務帶來業務億人的複用,例如淘寶和天貓有著各自的買家評價服務,但在防止刷屏的時候會使用相同的數據模型鑑別虛假評價。所以即便業務場景不一樣,但很多的基礎數據模型及算法可以被重複使用服務。

經過清晰的沉澱,算法可以通過重新編排、組合,成為服務接口響應業務的基本需求。由於具備快速編排、組合數據服務的能力,企業可以以較小的成本投入來構建出一個創新的前端業務。這是傳統模式構建的系統中前所未有的,容許快速試錯,更適合今天具有互聯網精神的輕公司模式。

需要相應的組織架構與激勵機制任何完善的體系建設依靠的不僅是技術工具,缺乏完善的組織結構及激勵機制便不可能令中台順暢運行。多年來的經驗證明瞭技術架構和治理組織的建立同樣重要,而近年很多企業及政府也紛紛設立獨立數據治理委員會。前面提到數據中台的核心理念是“以通促用,以用帶存”,這裡的“通”不僅是數據的聯通,也關乎人為組織結構的聯通,而且是橫(功能部門之間)、縱(數據生命周期)都要通。

與此同時,數據中台管理需要制定並形成有效的規範,由治理小組從實例中由下而上地提煉出大綱,並由固定團隊負責推進、制定工作機制(互惠互利及激勵方式)、優先資源配置等。

構建符合互聯網大數據時代的大數據

中台

數據技術“中台”之所以成為攻堅大數據能力的重要途徑,一來因為數據中台確實解決了數據豎井(之前各自為政)問題,其次是更有利於推動輕盈的前台業務創新,同時能把應用中的數據回流,形成更豐富的中台資源。數據中台作為推動數據化營運的利器,同時也能成為營運數據的中心(兩者結合為閉環)。多年的經驗筆者可以大膽地說,數據中台的建立刻不容緩,因為在大數據時代,業務與數據之間是強聯繫,但數據的內容及結構更新速度非常快;數據算法上的技術很類同,但各師各法;數據質量人人都說重要,但應該由誰負責任?

數據及其服務能力的匯聚與集中管控,很大程度會促進企業一體化運維的能力,歸納 起來講,互聯網大數據時代的中台特點是:一方面具備海量多源異構數據的整合能力;另一方面促進創新且變化多端的業務前端服務能力。大數據中台的建設及行業普及到如今還是摸著石頭過河的狀態,任何中台都是在不斷互動回饋的過程中成長出來的,而非統一搭建而成功。但是可以肯定,這是個“一把手”工程,必須秉持打破傳統管理的決心,做好長期鬥爭
的準備。