别看人工智能作诗写文章是把好手,新测试显 - 经济学原理

TUhjnbcbe - 2022/12/10 20:55:00

自然语言处理(NLP)最近取得了很大的进步，但是人工智能对它所读内容的理解有多少呢？据南加州大学计算机科学系的研究人员称，比我们想象的要少！在最近的一篇论文中，助理教授XiangRen和博士生YuchenLin发现，尽管人工智能取得了进步，但它仍然不具有生成合理句子所需的常识。

“目前的机器文本生成模型可以写出让很多人自叹不如的文章，但它们基本上是在模仿训练阶段看到的东西。”YuchenLin说，“我们在这篇论文中的目标是研究当前最先进的文本生成模型是否能够写出一些句子，来描述我们日常生活中的自然场景。”

理解日常生活中的场景

具体来说，XiangRen和YuchenLin测试了文本生成模型的推理能力，表明当前文本生成模型与人的表现存在很大差距。给定一组常见的名词和动词，最先进的NLP计算机模型的任务是创建描述日常场景的正确句子。虽然这些模式生成的句子语法正确，但它们常常在逻辑上不连贯。

例如，一个个由最先进模型生成的句子，采用了单词“狗，飞盘，扔，抓”：

“两只狗互相扔飞盘。”

这个测试是基于这样一个假设，即如果对常识概念没有更深层次的认识，就不能产生连贯的想法(在这个例子中应该是:“一个人扔了一个飞盘，一只狗抓住了它”)。换句话说，常识不仅仅是对语言的正确理解，它意味着你不必在对话中解释一切。这也是开发可推广的人工智能的一个基本挑战——但在学术界之外，它也与消费者相关。

如果不了解语言，建立在这些最先进的自然语言模型上的聊天机器人和语音助手很容易露馅。机器人是否能更多地出现在人类环境中也是至关重要的。毕竟，如果你让机器人热牛奶，你希望它知道你想要的是一杯牛奶，而不是整盒牛奶。

“我们的研究还表明，如果一代模型在我们的测试中表现更好，它也可以有益于其他需要常识推理的应用，比如机器人学习。”YuchenLin说，“机器人需要了解我们日常生活中的自然场景，然后才能做出合理的动作与人互动。”

常识测验

常识推理，也就是利用世界的基本知识进行推断的能力——就像狗不能互相扔飞盘一样——几十年来一直人工智能研究人员前进路上的障碍。最先进的深度学习模型现在可以达到90%的准确率，所以NLP似乎已经接近了它的目标。

但是，作为自然语言处理方面的专家，XiangRen和他的学生YuchenLin需要更多的证据来证明这一统计数据的准确性。他们的论文发表在11月16日的自然语言处理(EMNLP)实证方法发现会议上，他们对基准的有效性提出了挑战，因此，也对该领域实际取得的进步水平提出了挑战。

“人类通过学习理解和利用他们在周围环境中认识到的常见概念来获得造句的能力。”YuchenLin说。

“获得这种能力被认为是人类发展的一个重要里程碑。但我们想测试一下，机器是否真的能够获得这种生成常识的推理能力。”

为了评估不同的机器模型，他们开发了一个受限的文本生成任务，称为CommonGen，它可以作为测试机器生成常识的基准。研究人员展示了一个包含个概念和个句子的数据集。他们发现，即使是表现最好的模型，准确率也只有31.6%，而对人类而言，准确率为63.5%。

“让我们惊讶的是，这些模型想不起一个简单的常识，那就是‘人扔飞盘’应该比‘狗扔飞盘’更合理。”YuchenLin说，“我们发现，即使是最强的T5模型，在使用大数据集进行训练后，仍然会犯愚蠢的错误。”

研究人员说，似乎之前的测试并没有充分挑战这些模型在常识方面的能力，而是模仿了它们在训练阶段所看到的。

“之前的研究主要集中在区分常识上。”XiangRen说，“他们用多项选择题来测试机器，而机器的搜索空间很小——通常是四五个候选。”

例如，区分常识测试的典型设置是多项选择题的回答任务，例如:“成年人在哪里使用固体胶水?”A:教室B:办公室C:书桌抽屉。

当然，答案是“B:办公室。”即使是计算机也能毫不费力地解决这个问题。相比之下，生成式环境则更加开放，比如CommonGen任务，模型被要求从给定的概念中生成一个自然的句子。

XiangRen解释说:“广泛的模型训练,很容易在这些任务有很好的性能。与那些有区别的常识推理任务不同，我们提出的测试侧重于机器常识的生成方面。”

Ren和Lin希望这些数据集能成为一个新的基准，对未来将常识引入自然语言生成的研究有益。事实上，它们甚至有一个排行榜，描述了各种流行模型的得分，以帮助其他研究人员确定它们在未来项目中的可行性。

“机器人需要了解我们日常生活中的自然场景，然后才能做出合理的动作与人互动。”Lin说。

“通过向机器介绍常识和其他特定领域的知识，我相信有一天我们会看到像电影《她》(Her)中的萨曼莎(Samantha，‘寡姐’斯嘉丽声音出演)那样的人工智能代理产生自然反应，并与我们的生活互动。”

编译/前瞻经济学人APP资讯组

原文来源：