智能化实时决策，下一场数据革命

本文翻译自英文原文的部分内容：The Next Data Revolution: Intelligent Real-Time Decisions （April 2017 Ion Stoica )

近10年来，大数据分析与应用革命性地影响了商业和科学领域的实践。它们促成了新的商业模式（如Facebook、Netflix），颠覆了已有产业（如Airbnb、Uber），加速了科学发现的脚步（如基因组学、天文学、生物学）。

如今，数据与计算领域的下一场革命即将到来，它主要受到3大趋势的推动。

第一，越来越多的企业（如苹果、Facebook、通用电气）开始收集消费者与产业的海量信息，并利用这些信息提供新服务。随着手机、控温器和汽车等产品中的联网式传感器日益普及，这一趋势也在广泛蔓延。

第二，深度神经网络、强化学习和大数据机器学习等系统不断取得新进展，催生出了诸多不可思议的人工智能功能，从视觉感知，到赋予你超能力的游戏，到为数据中心节省电源，再到学习复杂的运动任务。

第三，在现实世界中，自动或半自动运转的设备正在日益增加，如安保系统、无人机和自动或半自动驾驶汽车等。

随着这些趋势的发展，未来，这些以计算为基础的设施将能感知我们周遭的世界、获取信息、分析信息，并基于实时数据流做出智能化的实时决策。这些功能可以从根本上改善人类与世界的互动、机器与世界的互动，以及人机互动的方式。但同时，它们也在安全与隐私方面提出了新的重要问题。

RISELab应运而生

加州大学伯克利分校之所以设立新的为期5年的实验室RISELab，就是为了应对这些挑战。该实验室追随AMPLab的脚步，后者催生出了很多成功的开源项目，如Apache Spark、Apache Mesos和Alluxio。

在基于实时信息做出实时决策的系统中，成熟而又能普及的例子并不多见。但有两个用例颇为突出：高频交易和实时定向广告。它们参与创建的产业都取得了极大的成功。

高频交易已是当今金融市场的关键组成部分，每天都处理着数十亿美元的交易。对于这些系统的表现，我们鲜有公开信息可查，但实时广告的定向，与快速投放（延迟时间不到一秒）的吸引力明显与日俱增。这两个都是为特定虚拟环境量身定制的例子，从中可以预见出，实时决策的影响力还将进一步深入现实世界。

与基于实时信息的实时智能决策相关的，还有“感应”和“行动”，三者结合，就能催生全新的应用，如实时网络防御、飞行器的协调、家庭机器人助理等。这些应用都需要获得大量数据，而且需要实时、智能、安全的决策系统，兼具稳妥的数据共享技术。这一系统既要能保护机密与隐私，在面临攻击与安全漏洞时，又要能够做到安全与可靠。

智能实时决策的3大特征

接下来，我们来具体谈谈，若想实现上述应用，决策系统应具有哪些理想特征：

智能：一个决策若是在不确定的环境下做出的，并能根据环境和反馈进行调整，那么这个决策在本质上就会非同寻常。这样的例子有：探测互联网攻击，协调机群，或是保护住宅。在实施智能决策的各种方法中，强化学习有着光明的前景，它在各个应用领域都取得了巨大的成功，比如击败了围棋世界冠军以及用于机器人技术。

实时：实时不仅指的是决策速度之快，还包括在决策过程中，能够迅速而及时地匹配环境中的变化。例如，在探测数据入侵时，我们最好能在几秒钟之内，建立起应对攻击的精准模型，确定哪些是攻击流，并丢弃相应的数据包。这很难，因为通常情况下，你都要要在快速地利用新数据进行模型训练和快速地做出决策之间进行平衡。

一般来说，我们提前实现的决策过程越多，决策速度就越快。一个极端是，我们可以预先计算出所有可能的决定，这虽然失去了模型迭代的机会，但却将决策的延迟时间控制在了最低水平。另一个极端是：在（原始）输入数据到来时，直接记录下数据，然后在决策时，运行所有必不可少的计算。

研究的一大难点，就是更加详细地探讨这种取舍，即确定两种延迟的动态取舍机制。当延迟时间短于人类反应时间时，决策过程必须实现自动化。在没有人类参与的决策过程中，我们需要确保这些决策可靠、可解释并且安全无虞。

可靠性：在存在复杂噪声、非预见性输入和系统偏误的情况下，可靠的决策依然能很好地发挥作用。举例来说，机群的传感器会提供嘈杂的信息（比如下大雨时模糊的视频画面），而机群协调系统不得不处理好这些干扰信息。另一个例子是旨在探测互联网攻击（如病毒、蠕虫）的应用程序。由于这些攻击也在不断演化，因此这类应用要能应对前所未有的攻击。

可解释性：若一个自动化决策的逻辑并非一目了然，那么人们自然想知道：这个决策是怎么得出的？例如，为何房贷申请会被拒？同样地，为什么算法会根据X射线诊断出病人的颈椎有问题？可解释性是如此重要，以至于如今的很多企业都选择牺牲准确性，以换取可解释性。它们通过利用相对简单的算法，以获得易于解释的输出结果（比如决策树），而不是选择更为精确、但不太好解释的算法。由于深度学习在自动驾驶汽车和欺诈行为侦测等领域广泛普及，并大获成功，所以这个问题正在加剧。深度学习系统本来就很难阐释，其决策机制就更难解释了。可解释性与可阐释性有关，但不尽相同：前者说的是“为什么”做出某个决定，而后者关系到决定是“怎么”得出的。

安全性：谷歌和Facebook等公司已经证明，利用用户信息，做出有针对性的决策，蕴含着巨大的价值。此外，有一种做法正日益受到欢迎：结合多家机构的数据，在金融、保险和健康保障市场提供新型服务。

然而，个人信息或机构数据的利用正变得越来越棘手，哪怕这样做对双方都有利。人们对个人信息披露的风险日益警觉，政府也颁布了更为严格的监管限制（例如，一国境内收集的数据不能传递至境外）。而且，私人或机密数据大量泄漏的事件层出不穷，使人们的担忧更进一步加剧了。

为了应对这些安全上的挑战，我们需要开发新型算法，它们要能在提供情景决策的同时，保证用户的隐私安全和数据的机密性。通过提供强有力的安全保障，它们将降低用户和机构方面的阻力，使其的数据能被利用起来，催生出更好的决策。此外，许多应用程序和服务都被上载于公共云系统中，例如亚马逊网络服务、微软Azure以及谷歌云端平台。因此，要保护这些服务免受云提供商的恶意员工、共用云基础设施的其他用户或外部黑客的入侵，保证数据和运算的安全性是至关重要的。

虽然确保这些安全特性已经十分困难，但真正的挑战是在这样做的同时，保留这些应用的功效与性能。

目标和初步成果

为了解决这些难题并促成相关应用的推出，我们需要新一代的系统、工具和算法，其能力要远远超过现有的同类产品。此外，我们还需将这些工具开源，让广大具有创造性的开发人员易于使用，就像当前的Apache Hadoop、Apache Spark等数据分析工具一样。

RISELab的目标就是构建这样的开源工具和平台，让任何开发人员都能构建复杂的决策和预测分析应用，从根本上改变我们与世界的互动方式，并将个人和机构所收集的日益细致的实时感应数据利用起来。虽然RISElab成立了只有几个月的时间，但我们已经开展了多个项目：

Drizzle：面向Apache Spark的低延迟执行引擎，专门针对流处理和迭代性工作负载。Drizzle将Spark Streaming的延迟时间降至了原先的1/10，目前已与专业流媒体框架（如Apache Flink）的水平相当。Drizzle已经开始整合入Apache Spark。
Clipper：一种低延迟预测服务系统。Clipper采用模块化架构来简化各种机器学习框架的模型部署，例如Spark的MLlib、TensorFlow和SciKit-Learn。与此同时，Clipper还可以在无须调整机器学习基础框架的前提下，缩短预测延迟时间，提高预测吞吐量、准确性及鲁棒性。
Opaque：能安全处理SparkSQL负载的新系统。在攻击者入侵操作系统或者管理程序的情况下，它也能起到强有力的保护作用。此外，Opaque还提供了一种“隐蔽”模式，可防止“访问模式泄漏”，即攻击者仅通过分析访问模式，便可从中获得信息，即便那些流量是加密的。
Ray：一种新的分布式框架，专门针对强化学习及其他大规模的机器学习应用。Ray旨在为那些具有高精度依赖性的行动路线图提供支持，并能有效地调度毫秒级的延迟任务。

標籤: 数据科学

Data Innovation Lab