可及时发现并修复有害行为!谷歌DeepMind团队为语言模型带来新工具

2022-02-18 09:48:51

语言赋予人类表达思想、交流概念、创造记忆和相互理解的能力,开发和研究强大的语言模型有助于构建安全高效的高级人工智能系统。

此前,研究人员通过使用人工注释器手写测试用例来识别语言模型部署前的有害行为。这种方法是有效的,但由于人工注释成本高昂,测试用例的数量和多样性被大大限制。

近日,谷歌 DeepMind 团队发表了一项新研究,他们提供了一种名为“红队”(Red Teaming)的工具,可以在运行的语言模型影响用户之前发现并修复其有害行为。

在这项研究中,DeepMind 使用经过训练的分类器来评估目标语言模型对生成测试用例的回复情况,并检测其中的冒犯性内容。最终,该团队在参数达 280B 的语言模型聊天机器人中发现上万条冒犯性回复。

据悉,DeepMind 通过即时工程来检测语言模型生成的测试用例,以发现各种其他危害,包括自动查找聊天机器人的攻击性回复、被聊天机器人滥用的私人电话号码、以及在生成文本中泄露的私人训练数据等。

生成式语言模型有时会以意料不到的方式危害到用户,其可能会输出不良的文本内容。而在实际应用程序中,哪怕只有极小的可能性会对用户造成伤害,也是不被允许的。

2016 年,微软推出了能够自动发布推文给用户的 Tay 机器人。但在上线的 16 小时内,有几名用户利用 Tay 机器人的漏洞,让其将带有种族主义和性意味的推文发送给了超过 5 万名用户,之后微软将该机器人关闭。

然而,这并不是因为微软的疏忽。微软副总裁彼得·李(Peter Lee)表示,“我们已经做好了应对许多类系统滥用行为的准备,而且我们对这一特定攻击进行了关键监督。”

症结在于,会致使语言模型输出有害文本的场景数不胜数,研究人员无法在语言模型被部署到现实中之前找出一切可能发生的情况。

正如大家所熟知的强大语言模型 GPT-3,尽管其能够输出高质量的文本内容,但却不容易在真实世界中完成部署。

图 | GPT-3 模型用于法语语法更正(来源:OpenAI)

据了解,DeepMind 的目标是通过自动查找故障案例来对手写测试用例进行补充,从而减少关键疏忽的数量。

为此,DeepMind 使用语言模型本身生成测试用例,从零触发生成到监督微调和强化学习,DeepMind 探索了多种方法来生成具有不同多样性和难度的测试用例,这将有助于获得高测试覆盖率及模拟对抗性案例。

此外,DeepMind 使用分类器检测测试用例上的以下各种有害行为:

首先是冒犯性语言,模型有时会发表具有歧视、仇恨、色情等意味的内容;其次是数据外泄行为,模型滥用训练时给到的数据库,包括私人的身份信息;再次是联系信息的滥用,模型会发送无意义的电子邮件或通过电话打扰到其他真实用户;然后是群体认知偏差,即在输出的文本内容中包含对某些人群不公正的偏见类言论;最后,模型还会在与用户对话时,作出有攻击性等不良意味的回复。

在明确哪些行为会给用户造成伤害后,如何去修复这些行为就不是难事了,DeepMind 主要采取了以下几种方式:

例如,通过禁止语言模型使用在不良内容中高频率出现的词组,来尽量避免模型输出有害文本;在迭代阶段,筛选并删除语言模型在训练时使用过的攻击性对话数据;强化语言模型的意识,训练时嵌入特定类型输入所需的行为案例;在标准测试中对模型进行最初输出文本的训练,最大化避免输出有害文本的情况。

总的来说,基于语言模型的“红队”是一种具有发展前景的工具,可以发现语言模型何时在以各种不良方式运行,应该与其他许多用于发现并缓解语言模型中危害的技术工具一起使用。

值得一提的是,DeepMind 的这项研究还可用于先发制人地发现来自高级机器学习系统的其他假设危害,如由内部失调或客观稳健性失效而引发的故障。

图 | Gopher 模型进行对话交互(来源:DeepMind)

前不久,DeepMind 对外公布了具有 2800 亿参数的全新语言模型 Gopher,其在参数量上超越了 OpenAI 的 GPT-3。

在性能方面,研究人员测试了 152 个任务后得出,Gopher 在绝大多数的任务中远胜 SOTA 模型,特别是在需使用大量知识来应对的方面。

这些成就为 DeepMind 未来的语言研究奠定了基础,进一步推动了其解决智能问题以推进科学并造福人类的使命实现。

标签: 语言模型 带来新工具 修复有害行为