企业人工智能和准确度悖论

本文翻译自英文原文的部分内容:Enterprise AI and the Paradox of Accuracy (Oct 2018 Tom Wilde )

随着越来越多的机构、组织开始在其内部运营中试验人工智能技术,一个有趣的悖论正在形成:考虑人工智能状态的最佳方式是,它能够成为非常强大的“模仿者”。如果你向人工智能展示示例数据或是对现有流程进行建模,那么它将能大规模地执行任务,从而显著地提高数据输入和输出能力以及缩短流程处理时间。然而,应用人工智能技术最常见的担忧集中在“准确度”这个概念上,即它能否足够准确地执行任务以具有实用性。

这里的悖论在于,作为智能模仿者,人工智能经常能够发现示例数据或所应用的现有流程中存在着重大不一致。因此当人们得出结论说“人工智能还不够聪明,无法执行此任务”时,事实却是人工智能发现了正在进行自动化的人工流程中存在着不一致性。

让我们把这一悖论放在实践中进行考察。

虽然面向消费者的人工智能应用获得了大量的媒体曝光,但很多企业正在寻求把人工智能应用在不那么光彩夺目的后台运营中,例如:

  • 实现业务流程自动化,目标是提升这些流程的效率,并解放员工,让他们专注于更高价值的活动。
  • 对大量现有企业内容进行分析,以获得关于市场趋势、销售机会和客户情绪与意见等的新见解。

就这两种情况来说,现有的方法往往都是高度人工化的,也就是人们基于自己的主题专业知识(SME)和能够掌握的信息做出决策。不管是审查市场研究数据、分析合同、回复征求建议书,还是匹配简历和工作描述,这些决策的准确度和一致性从未被客观衡量过。相反,在这个过程中存在着对直觉和主观判断的严重依赖。

当我们引入人工智能时,对这些人工决策的准确度和一致性进行严格衡量就是理所当然的了。随着用户创建模型并对其进行训练,他们可以立即看到模型相对于目标结果的表现——这些目标结果就是相关专家所定义的正确答案或决策。在模型进行训练的过程中,用户可以明晰地看到它取得了多大的改进。

然而,正是这些详细的测量结果让很多用户踟蹰不前。如果让他们在跟着自己直觉走以及一个准确度达到65%、75%或85%的机器学习模型之间进行选择的话,那么他们往往会选择人工流程,因为在他们看来,机器学习模型“还不够准确”。

准确度是衡量机器学习算法能力的糟糕标准

很多用户对人工智能抱有不切实际或严重夸大的期望,他们认为人工智能对自己的数据问题来说是一个神奇的解决方案,因此当人工智能不是100%准确时他们就会感到失望。当他们的失望超过热情时,项目往往很快就会失去推进下去的动力。

当用户没有立足于业务结果时,这个问题会变得更加严重。因为他们是在孤立地看待自己人工智能项目的准确度,而不是相对于目前的人工流程提高了多少准确度以及节省了多少时间。

有趣的地方在于,人工智能会解构人们对一个问题现有的理解。很多时候,他们会认为自己正在解决的问题以及他们最终解决的问题并不是一回事。这是因为,人工智能项目要取得成功,我们需要对输入和输出进行仔细的定义。如果其中任何一个的定义不够明确,结果就会令人失望。

另一个关键挑战是关于如何理解准确度。在机器学习领域,数据科学家在听到人们询问模型的“准确度”时通常会感到恼怒,因为要衡量一种机器学习算法的功效,并不存在单一的度量标准。实际上,准确度是衡量机器学习算法功效的一个特别糟糕的标准。

相反,衡量功效应该在所要解决的问题背景下进行。具体而言,参与评估人工智能对特定用例影响的企业主和相关专家需要首先了解:一个人工智能模型可能产生的不同类型错误会有何影响。

这通常被称为“查准率-查全率权衡”(precision-recall tradeoff)。业务流程负责人面对的问题是这样的:你的人工智能模型是更擅长标记所有“可能”有问题的实例(查全),还是只标记肯定有问题的实例(查准)?从一开始就了解这些权衡将有助于确定在出现错误时需要实施的训练策略和补救流程。

解决过度期望问题的5个方案

有几个办法可以帮助用户和解决方案提供商克服这些过度的期望。

  • 将人工智能项目当作寻常的技术项目一样对待,而不是把它当成什么天赐之物。IT项目没有完美之说,它们需要在业务环境下解决业务问题,并产生业务结果。
  • 预先定义业务结果。这将有助于用户把焦点从不完美之处移开,并专注于人工智能将如何真正帮助推动实现预期的业务结果。
  • 更多地跟中小企业的实际业务打交道,而不是掺和什么创新实验室。人工智能最好和最有用的地方就在于,它们是在增强中小企业已经在做的事情,提升后者的工作效率,使其直觉更明智、更准确。
  • 衡量现有流程的功效以了解机器学习算法准确度的合理目标是什么。如果你现有流程的准确度达到了90%,那么给机器学习算法制定85%的准确度目标是合理的;但如果你现有流程的准确度只有20%,那么期望达到85%的准确度就不合理了。
  • 提供并期待模型的“解释能力”。太多的人工智能解决方案以黑箱模式运行。用户要能够非常详尽地了解模型的功效,这一点至关重要。决策需要伴有审计线索,即要清楚:模型为什么要做出这样的决策——做出这样的决策用到了哪些训练数据?数据又是谁在何时添加的?要明确模型可能会遇到哪种错误模式,并在做出决策时提供解释模型“思维过程”的工具。

通过考虑一些关于人工智能及其准确度的前置误解,并采取措施预先加以解决,那么我们将可以让机构组织的注意力转向人工智能可以提供的真正价值以及所能实现的工作效率提升,并开始让人工智能为其所用。