图灵测试已死！ChatGPT通过人类考试也不算，超强AI评估新秀「逻辑谜题」 - 新火种

热门关键词

文心一言 AI copy btc 斑马腾迅 aa 1 iPollo sd

首页 > AI资讯 > 最新资讯 > 图灵测试已死！ChatGPT通过人类考试也不算，超强AI评估新秀「逻辑谜题」

图灵测试已死！ChatGPT通过人类考试也不算，超强AI评估新秀「逻辑谜题」

新火种 2023-09-01

【新智元导读】如何给大模型一个真正公平评价标准呢?

世界最强AI——ChatGPT可以通过各种考试，甚至输出回答让人难以辨别真假。

然而，它也有力所不及之处，那便是解决简单的视觉逻辑难题。

在一项由屏幕上排列的一系列色彩鲜艳的块组成的测试中，大多数人都能找出连接的图案。

人工智能研究人员表示，为了找出LLM的优势和劣势，需要更广泛和严格的审查。丰富多彩的逻辑谜题可能是其中的一个候选者。

逻辑谜题登场

2019年，在LLM爆发之前，Chollet在网上发布了，自己创建的一种新的人工智能系统逻辑测试，称为抽象和推理语料库（ARC）。

解题者要看几个方格变为另一种图案的可视化演示，并通过指出下一个方格将如何变换来表明他们已经掌握了变化的基本规则。

Chollet表示，ARC 捕捉到了「人类智慧的标志」。从日常知识中进行抽象，并将其应用于以前从未见过的问题的能力。

当前，几个研究团队现在已经使用ARC来测试LLM的能力，没有一个能实现接近人类的表现。

Mitchell和她的同事制作了一系列新的谜题——被称为ConceptARC——它们的灵感来自ARC，但在两个关键方面有所不同。

ConceptARC测试更容易。Mitchell的团队希望确保基准测试，不会错过机器能力的进步，哪怕是很小的进步。另一个区别是，团队选择特定的概念进行测试，然后为每个主题的变体概念创建一系列谜题。

性能差意味着什么

研究人员将ConceptARC任务分配给GPT-4和400名在线应征者。

人类在所有概念组中的平均得分率为91%（其中一组为97%）;GPT-在一组中的得分率为33%，在所有其他组中得分不到30%。

研究人员证明，AI仍然无法接近人类的水平。然而令人惊讶的是，它能解决一些从未被训练过的问题。

研究小组还测试了Chollet竞赛中的领先聊天机器人。

总的来说，他们比GPT-4做得更好，但表现比人类差，在一个类别中得分最高，为77%，但在大多数类别中得分不到60%。

Tags:

新秀逻辑

相关推荐

1亿数字人即将上线，现有商业逻辑将会有哪些改变？

2024-04-30

浪潮软件申请探测代码逻辑死循环专利，提升人工智能对于程序内死循环逻辑的探测、定位和预警效率

2023-12-28

迄今最多逻辑量子比特计算机问世

2023-12-18

中泰证券：AIGC新秀视频生成产业或迎来GPT时刻

2023-12-17

Pika：AIGC新秀，视频生成产业或迎来GPT时刻

2023-12-07

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

热门文章

全国人大代表刘庆峰：建议完善AI失业保障

全球首次！人形机器人将与人类一起跑“半马”

2025-04-16 11:27

政协委员甄子丹：人工智能对电影行业既是冲击也是鼓励

2025-04-17 11:27

全国人大代表刘庆峰：发展AI新岗位，试点“AI失业保障专项保险”

2025-04-16 11:29

我国首个林草行业大模型研发成功

2025-04-18 20:23

工学博士娄勤俭：我对人工智能有偏爱

2025-04-15 11:20

平稳开局！今年一季度我国货物贸易进出口10.3万亿元，增长1.3%

2025-04-16 13:26

前高通高管任小米芯片平台部负责人；2024年我国再生资源回收总量超4亿吨

2025-04-19 11:21

小K播早报|2025中国互联网企业家座谈会召开“天工”夺得全球首个人形机器人半马冠军

2025-04-21 13:22

人工智能概念股午后拉升，科创人工智能相关ETF涨近4%

2025-04-15 11:19