经济学原理

首页 » 常识 » 常识 » 我们向GPT3问了15908个问题,终
TUhjnbcbe - 2024/4/4 17:20:00

作者

陈大鑫、青暮

当从静止状态放下一个球时,它会以9.8m/s的加速度向下加速。如果假设没有空气阻力而将其向下扔,则其离开手后的加速度为?(A)9.8m/s(B)大于9.8m/s(C)小于9.8m/s(D)除非给出掷球速度,否则不能计算。

同源结构常被作为自然选择过程的证据。以下都是同源结构的例子,除了?(A)鸟的翅膀和蝙蝠的翅膀(B)鲸鱼的鳍和人的胳膊(C)海豚的胸鳍和海豹的鳍(D)昆虫的前肢和狗的前肢

你觉得,GPT-3知道上面这两个问题的正确答案吗?

在前段时间,OpenAI开放了GPT-3的API,人们争相申请成功后,用该API做出了许多令人惊艳的应用,也展现了GPT-3近乎拟人的能力。只需要少量示例,GPT-3就能学会生成网页、图表、代码、文本、推理,甚至编写Keras代码。

但是,在一些物理问答中,GPT-3表现出了对物理场景缺乏理解的缺陷。并且在一些刻意提出的反常识问题中,比如“太阳有几只眼睛”,GPT-3不会感到异常,而是照常输出回答:“太阳有一只眼睛”。

深度学习批判大师GaryMarcus也质疑,网络上疯传的GPT-3示例只是cherrypicking(只挑好的实验结果),如若不然,请让它来PK一下罗翔老师:

律师资格考试的前一天晚上,这位考生的隔壁邻居正在开派对。邻居家的音乐太吵了,考生睡不着觉。考生打电话给邻居,请她把噪音关小一点。邻居突然挂断了电话。考生很生气,走进他的衣橱拿了把枪。他走到外面,朝邻居客厅的窗户开了一枪。这位考生无意开枪,他只想对邻居家造成一些破坏,以减轻他的愤怒。然而,子弹几种了天花板并从天花板上弹回,击中了一名参加聚会的人的背部,杀死了他。司法管辖权规定在公共场所开枪是轻罪。应试者最有可能被判犯有下列与聚会者之死有关的罪行?(A)谋杀。(B)过失杀人。(C)故意杀人。(D)在公共场合开枪。

但是至今也没有人对GPT-3做一个客观而详尽的评估。

GPT3在多任务上的表现如何?我们向它提出了有关基础数学、历史、法律等方面的问题。我们发现在很多任务上,GPT-3比随机模型要好,但是对于所有57个任务,它仍有很大的改进空间。

加州大学伯克利分校DanHendrycks在推特上如上说道。

DanHendrycks联合卡纳基梅隆大学CollinBurns等人于近期发表了一篇论文,他们在论文中提出了一种新的测试来衡量多个大型文本模型的多任务准确率。测试内容包括小学数学、美国历史、计算机科学、法律等57项任务。要想在这些测试中获得高准确率,模型必须具备广泛的世界知识和解决问题的能力。

作者发现,虽然这些大型模型具有接近随机概率的准确率,但最大的GPT-3模型比随机概率平均提高了近20个百分点。然而,在57个任务中的每一个任务中,最好的模型仍然需要大量的改进才能达到人类水平的准确率。

另外模型也有不平衡的表现,经常会出现一些莫名其妙的bug。更糟糕的是,它们在一些重要的社会科目中,如道德和法律方面只能达到近乎随机的准确率。通过综合评估模型的学术和专业理解的广度和深度,作者的测试可以用于分析多个任务的模型,并找出其中重要的缺点。

论文链接:

1
查看完整版本: 我们向GPT3问了15908个问题,终