图灵测试已死!ChatGPT通过人类考试也不算,超强AI评估新秀「逻辑谜题」
【新智元导读】如何给大模型一个真正公平评价标准呢?
世界最强AI——ChatGPT可以通过各种考试,甚至输出回答让人难以辨别真假。
然而,它也有力所不及之处,那便是解决简单的视觉逻辑难题。
在一项由屏幕上排列的一系列色彩鲜艳的块组成的测试中,大多数人都能找出连接的图案。
人工智能研究人员表示,为了找出LLM的优势和劣势,需要更广泛和严格的审查。丰富多彩的逻辑谜题可能是其中的一个候选者。
逻辑谜题登场
2019年,在LLM爆发之前,Chollet在网上发布了,自己创建的一种新的人工智能系统逻辑测试,称为抽象和推理语料库(ARC) 。
解题者要看几个方格变为另一种图案的可视化演示,并通过指出下一个方格将如何变换来表明他们已经掌握了变化的基本规则。
Chollet表示,ARC 捕捉到了「人类智慧的标志」。从日常知识中进行抽象,并将其应用于以前从未见过的问题的能力。
当前,几个研究团队现在已经使用ARC来测试LLM的能力,没有一个能实现接近人类的表现。
Mitchell和她的同事制作了一系列新的谜题——被称为ConceptARC——它们的灵感来自ARC,但在两个关键方面有所不同。
ConceptARC测试更容易。Mitchell的团队希望确保基准测试,不会错过机器能力的进步,哪怕是很小的进步。另一个区别是,团队选择特定的概念进行测试,然后为每个主题的变体概念创建一系列谜题。
性能差意味着什么
研究人员将ConceptARC任务分配给GPT-4和400名在线应征者。
人类在所有概念组中的平均得分率为91%(其中一组为97%);GPT-在一组中的得分率为33%,在所有其他组中得分不到30%。
研究人员证明,AI仍然无法接近人类的水平。然而令人惊讶的是,它能解决一些从未被训练过的问题。
研究小组还测试了Chollet竞赛中的领先聊天机器人。
总的来说,他们比GPT-4做得更好,但表现比人类差,在一个类别中得分最高,为77%,但在大多数类别中得分不到60%。
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。