生成对抗网络之父:那个赋予机器想象力的“好家伙”

本文翻译自英文原文的部分内容:The Man who’s given machines the gift of imagination (Feb 2018 Martin Giles )

2014年的一个晚上,伊恩·古德费洛跟一个刚毕业的博士生出去喝酒。他们去了蒙特利尔颇受欢迎的“三个酿酒师”(Les 3 Brasseurs)酒吧,在那里,一些朋友为了手头的一个棘手项目向古德费洛求助,他们正在想方设法让计算机自己生成图像。

那个时候,研究人员已经在利用神经网络(即模拟人类大脑神经元网络的计算机算法),将其作为“生成”模型,让它们自主生成貌似可信的新数据。但结果往往不尽人意:计算机生成的面部图像常常模糊不清,或者存在诸如如耳朵不见了等各种错误。古德费洛那些朋友提出的方案是对那些组成图像的元素进行复杂的统计分析,从而帮助机器自主生成图像。那将需要大量的数字运算,而古德费洛告诉他们,这一招根本行不通。

当古德费洛边喝着啤酒边思考这个问题时,他突然有了一个想法:如果让两个神经网络相互对抗,会怎么样呢?朋友们表示怀疑,于是古德费洛回家后决定试一下,那会儿他的女友已经睡得很熟了。他写代码一直写到清晨,然后对软件进行了测试,第一次就奏效了!

古德费洛在那天晚上发明的东西现在被称为“生成对抗网络”(generative adversarial network,GAN)。这项技术在机器学习领域引发了热潮,也让古德费洛成为人工智能界的明星人物。

在过去的几年中,人工智能研究人员利用深度学习技术取得了令人瞩目的进展。只要向一个深度学习系统输入足够多的图像数据,它就能进行学习,比如识别即将过马路的行人。这种方法已经让一系列新事物成为可能,比如自动驾驶汽车,以及在背后驱动Alexa、Siri和其他虚拟助理的互动技术。

但是,尽管基于深度学习的人工智能系统能够学习识别事物,但它们一直不擅长创造事物。GAN的目标就是赋予机器某种类似于想象力的东西。

在未来,计算机将会更好地消化原始数据,在没有人类指导的情况下自行搞清楚需要从中学习什么。

这样做不仅可以让人工智能画出漂亮的图画或创作音乐,还可以减少人工智能在认识世界以及工作中对人类指导的依赖。如今,人工智能方面的程序员常常需要告诉一台机器它被输入的训练数据中有什么东西,比如上百万张图片中哪些是行人过马路、哪些不是。这不仅成本高昂,而且耗费人力,同时也限制了系统在处理稍微偏离训练数据情况时的表现。在未来,计算机将会更好地消化原始数据,在没有人类指导的情况下自行搞清楚需要从中学习什么。

那将标志着人工智能领域所谓的“无监督学习”取得重大飞跃。也就是说,一辆自动驾驶汽车不用离开车库就能自行学习多种路况,一台机器人无须被带领着在繁忙的仓库中四处走动便可以预测它可能遇到的障碍。

那将标志着人工智能领域所谓的“无监督学习”取得重大飞跃。

我们能够想象和反馈出许多不同的场景,这种能力是人之为人的一部分。当未来的科技史学家回顾过往时,他们很可能会把GAN视为迈向创造具有人类意识的机器的一大步。Facebook的首席人工智能科学家扬·勒丘恩(Yann LeCun)把GAN称为,“过去20年深度学习领域最酷的想法”。另一位人工智能大神、前百度首席科学家吴恩达则说,GAN代表着“一项重大和根本性的进步”,它启发了规模日益庞大的全球研究人员社区。

人工智能搏击俱乐部

古德费洛现在是Google Brain的研究科学家,该团队在位于加州山景城的谷歌公司总部办公。我最近在那里见到他时,他似乎仍对自己的超级明星身份感到惊讶,并表示这“有点超现实”。也许同样令人惊讶的是,在发明GAN之后,他现在正花费大量时间来对抗那些希望把GAN用于邪恶目的的人。

GAN的神奇之处就在于两个神经网络的相互对抗,它模拟了一个“图像伪造者”和一个“艺术鉴别师”之间的你来我往,两者都在不断试图胜过对方。两个神经网络都使用相同的数据集进行训练,第一个网络名为生成器,它负责生成尽可能逼真的结果,比如照片或笔迹。第二个网络名为鉴别器,它负责把那些结果跟原始数据集中的真实图像进行比较,然后试图判断哪些是真的、哪些是假的。基于这些判断,生成器会对自己的参数进行调整,从而生成新的图像。如此往复,直至鉴别器再也分辨不出孰真孰假。

一个使用真实名人照片进行训练的GAN生成了自己想象中的明星人物,在大多数情况下,这些假照片看起来都很逼真。

前一年有一个广为人知的研究实例,芯片制造商英伟达的研究人员让一个GAN研究真实名人照片,以此训练它生成想象中的名人图像。这个GAN生成的假名人图像并非全都完美,但其中有一些极其逼真,令人印象深刻。与其他需要成千上万张训练图像的机器学习方法不同,GAN只用几百张图像便能达到很好的效果。

GAN的想象力仍然有限。在用大量狗的照片进行训练后,GAN可以生成一张令人信服的假狗图像,它与真狗的区别可能只是斑点图案不同;然而,GAN无法想象出全新的动物。此外,原始训练数据的质量也对生成的结果有着很大的影响。有一个例子很能说明问题,一个GAN开始生成一些身上带有随机字母的猫咪照片。这是因为训练数据中包含了来自互联网的猫咪表情包,机器认为表情包中的字母也是猫咪的一部分。

让GAN正常运行可能会很麻烦,如果训练数据有问题,生成的结果可能会非常奇怪。

华盛顿大学(University of Washington)的机器学习研究员佩德罗·多明戈斯(Pedro Domingos)表示,GAN也可能“喜怒无常”。如果鉴别器太容易糊弄,那么生成器的输出结果看起来就不会逼真。而且,校准两个相互对抗的神经网络可能也有难度,这就解释了为什么GAN有时候会生成一些奇怪的东西,比如长着两个头的动物的原因。

尽管如此,这些挑战并未阻挡研究人员的步伐。古德费洛和其他一些人在2014年发表了关于GAN的首批研究论文,之后又有数百篇相关论文陆续完成。这项技术的一位粉丝甚至创建了一个名为“GAN动物园”的网页,专门用于追踪已经开发出来的各种版本的GAN。

GAN最直接的应用是在那些涉及大量图像的领域,如电子游戏和时尚行业。比如说,一个游戏角色在雨中奔跑会是什么样子。但展望未来,古德费洛认为GAN将会推动更多重要的进步。“科学和工程学的很多领域都有一些东西需要我们进行优化。”他说道,并以需要改进药效的药物以及必须提升效率的电池为例,“那将成为下一波大浪潮。”

在高能物理学领域,科学家使用算力强大的计算机进行模拟,比如模拟数百个亚原子粒子在大型强子对撞机(LHC,位于瑞士的欧洲核子研究中心)中可能发生的反应。这些模拟的速度很慢,需要用到庞大的算力。来自耶鲁大学和劳伦斯伯克利国家实验室(Lawrence Berkeley National Laboratory)的研究人员开发出了一个GAN,在使用现有的模拟数据进行训练后,它能够生成非常准确的预测(一个特定粒子将会出现什么行为),而且速度也快了很多。

古德费洛发明的GAN可以用来构想各种各样的东西,其中包括室内设计。

医学研究是另一个潜力巨大的领域。比如说,在分析某种药物为什么不起作用时,隐私问题意味着研究人员有时候无法获取足够多的真实患者数据。GAN可以生成能够媲美真实病历的虚假医疗记录,帮助解决这个问题。这些数据可以在更大范围内共享,帮助推动研究取得进展,同时严格保护真实记录。

坏家伙

然而,GAN也存在着黑暗面。一些人制造假新闻,希望以此影响从股价到选举的方方面面,对这些人来说,一台旨在生成逼真赝品的机器堪称完美的武器。已经有人利用人工智能工具把其他人的面孔放到色情明星的身体上,以及让政治人物说出他们不曾说过的话。GAN并非这个问题的始作俑者,但它们会让情况变得更加糟糕。

哈尼·法里德(Hany Farid)是达特茅斯学院(Dartmouth College)的数字取证研究员,他正在研发识别假视频的更好方法,比如检测因呼吸而造成的面部颜色细微变化,GAN很难被准确模仿。但他也警告说,GAN会反过来学习适应。“基本上,我们处于弱势地位。”法里德如是说。

GAN的这种猫鼠游戏也将对网络安全产生影响。研究人员已经在强调“黑盒”攻击的危险性,在这类攻击中,GAN被用于找出很多安全程序赖以发现恶意软件的机器学习模型。在搞清楚防御者算法的工作原理之后,攻击者便可以绕过上述算法并注入恶意代码。同样的方法也可以用来绕开垃圾邮件过滤器和其他防御措施。

科学和工程的很多领域都有一些东西需要我们进行优化,那将成为下一波大浪潮。

古德费洛很清楚这些危险,他目前是谷歌一支团队的负责人,致力于让机器学习变得更加安全。他警告说,人工智能研究共同体必须从以往的创新浪潮中汲取教训,也就是技术人员总是在事后才想起安全和隐私问题。当他们认识到危险时,坏家伙已经大幅领先了。“显然,我们已经迈过了起点,”他说,“不过在我们走得太远之前,但愿能够在安全方面取得重大进展。”

尽管如此,古德费洛认为造假问题不会有一个纯粹的技术解决方案。相反地,他认为,我们必须依靠社会解决方案,比如通过让孩子上演讲课和辩论课,教导他们学会批判性思维。“在演讲和辩论中,你要跟另一位学生相互对抗,”他说,“你会考虑如何编造误导性的说法,或是讲出非常具有说服力的正确主张。”古德费洛可能说的没错,但他关于技术无法解决假新闻问题的结论并不是很多人愿意听到的。