我用GPT-4参加阿里数学竞赛！官方：今年欢迎，7万奖金凭本事拿走 - 新火种

热门关键词

文心一言 AI copy btc 斑马腾迅 aa 1 iPollo sd

首页 > AI资讯 > 最新资讯 > 我用GPT-4参加阿里数学竞赛！官方：今年欢迎，7万奖金凭本事拿走

我用GPT-4参加阿里数学竞赛！官方：今年欢迎，7万奖金凭本事拿走

新火种 2024-03-15

大模型要在数学竞赛上跟人类同场竞技啦！

最新消息，阿里巴巴全球数学竞赛，今日官宣开启报名。依然不限年龄、国籍、职业，有意思的是，这次甚至突破了碳基硅基的限制——

首次向AI开放，诚邀全球大模型参赛。

不仅如此，获胜AI最高还可获得10000美元（约合7.2万元人民币）奖金。

如此因崔斯汀的消息，当即引起了网友们的关注。

我们还打听到，国内外有不少高校研究团队和大模型创业公司已经表达出浓厚兴趣，准备参赛。

新设「AI挑战赛」

具体来看规则。

2024阿里全球数赛，在预选赛阶段增设了一场AI挑战赛。

和参加常规赛的人类选手一样，大模型们也要对同一套预赛试题作出解答，考核内容的难度相当于数学本科一年级水平，重点考察AI的数学逻辑推理与问题解决的能力。

赛制方面，数赛官网已在今天（3月14日）开放统一报名通道，大模型参赛团队须在报名页勾选AI参赛选项。

完成报名后，官方会提供历届数赛初赛的真题和答案，让大模型选手们可以在正式比赛前先刷刷题练练手。

4月13日-15日，官网将开启初赛考试通道，参赛选手需要在此期间完成答题，并在系统中提交人类评委看得懂的答卷。

组委会将根据大模型在此过程中展现出的创新性、解题效率、解题过程的逻辑性等因素综合评分，并给出具体评语。

最终得分排名前三的AI将依次获得10000美元、5000美元和2000美元的奖金。如果所有AI均不能有效作答，则奖金会累积滚动到下届赛事的奖金池。

值得一提的是，AI挑战赛允许人类使用提示词工程来调教大模型。

但为了确保公平竞赛，避免人类替考，参赛者需要在开赛前就提交模型代码或Prompt，以供校验复现。

（这波是反向防作弊了）

大模型挑战数学竞赛·实测版

正式比赛尚未开始，但显然，面对数学竞赛题，AI具体会有怎样的表现，已经成为这届阿里数学竞赛的关注焦点之一。

为了满足大家伙儿（包括我们自己）的好奇心，新火种已经率先要到了历届初赛的真题和参考答案，咱们就请出当前最强的两位通用大模型选手——GPT-4和Claude 3，来个真题演练，先睹为快。

Round 1：选择题

开胃小菜。先来这道2023年阿里数学竞赛初赛的一道图论题：

还是先来看GPT-4的表现。

在代码解释器的加持之下，GPT-4成功选对了C选项，即90≤S≤100。并且，GPT-4也给出了具体的解释：

它通过简化模型估算出等待总时间最小可能值是81，考虑到实际线路中可能出现更多必须直行和左转的情况，结合选项，S值会更接近90而小于100。

△GPT-4真的很话痨

同样的题目抛给Claude 3：

Claude 3成功判断了题型，但很遗憾回答错误。

不过如果我们稍稍给点提示，比如：是否能将小明行驶的路线看成一个100边形，来尝试解题。

Claude 3瞬间就get到了思路，这次计算正确：S=96，选C。

这么看来，大模型的表现还是可圈可点的。它们在工具加持又或者在人类点拨的情况下，能够给出正确答案的同时，还能给出具体的解题思路。

Round 2：证明题

选择题之外，证明题也是阿里数学竞赛必出的题型。我们也挑选了一道题来进行测试。

先说正确结论：对于第一问，答案是存在；对于第二问，答案是不存在。

来看GPT-4的答题情况：

Claude 3的答案：

这一次，打分权交给你，你觉得GPT-4和Claude 3各能得几分？

总结一下，从测试结果来看，大模型们挑战阿里数学竞赛题，还是难度不小。

尽管基础知识丰富，能够初步判断出所考题型；计算速度也飞快，但也常会出现胡言乱语的状况，仍需要人类的指正和点拨。

“AI改变数学的时代正在到来”

在我们的初步测试中，大模型的解题表现虽然不如那些能闯入决赛的人类选手，但已经可以想见，在这种新的碰撞中，我们可以期待看到更多AI在抽象思维、逻辑思辨和巧妙解题方面能力的展示。

对此，阿里全球数学竞赛组委会也做出了阐释：

早在ChatGPT刚开始流行之时，以陶哲轩等人为代表的数学家们，就对大模型保持高度关注。

陶哲轩本人不仅将多种AI工具都纳入了自己的工作流，还大胆预言：

当与形式证明验证器、互联网搜索和数学符号包等工具整合时，2026年的AI，如果使用得当，将成为数学研究中值得信赖的共同作者，并且在许多其他领域也是如此。

而《纽约时报》更是在对多位知名数学家进行采访后，给出了这样的评论：

现在，阿里全球数学竞赛这样备受关注的赛事主动拥抱AI，再次印证了这一新趋势。

背后透露出的，还有数学界面对新一轮技术变革所产生的期待。

对于人类选手而言，AI与数学更深入的结合趋势已经显现，这样的比赛，可以作为新一类接触的桥梁。

对于数学家和AI研究者们而言，这样的平台为AI for Math提供了一个测试研究成果的基准，有助于推动更多数学与AI的前沿研究。

而对于大众，这也是进一步理解AI能力，和数学魅力的一扇窗口。

据说，此次大赛主办方还将联合魔搭社区，准备招募更多的开发者来参与；到时候一些国内主流的开源数学模型也出来打配合，同开发者一道与一众数学爱好者们同场竞技！

哦莫，已经可预见的是，数学界的人机混战一触即发~

所以广大开发者们也不要光看了，赶紧来试试，没准儿还能赚点生活费……

你说是吧~

— 完 —

Tags:

阿里奖金

相关推荐

阿里云发布首个“Data+AI”驱动的一站式多模数据平台

2024-09-20

阿里云AI基础设施升级亮相，模型算力利用率提升超20%

2024-09-20

阿里云宣布飞天企业版已实现“智算升级”

2024-09-20

阿里云正式发布百炼专属版2.0

2024-09-20

阿里国际发布最新开源多模态模型Ovis，多模态能力再升级

2024-09-20

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

热门文章

我国首个林草行业大模型研发成功

小K播早报|2025中国互联网企业家座谈会召开“天工”夺得全球首个人形机器人半马冠军

2025-04-21 13:22

前高通高管任小米芯片平台部负责人；2024年我国再生资源回收总量超4亿吨

2025-04-19 11:21

杭州：争夺机器人第一城

2025-04-24 11:27

美国对华芯片管制将适得其反？专家：华为等中国厂商将受益！

2025-04-23 11:21

信银理财董文赜：拥抱变革向新求质——共赴银行理财高质量发展新征程

2025-04-24 13:24

蒙曼谈人工智能冲击：守住人类对于生活的感受

2025-04-21 11:28

成立香港仔机器人，国华（00370）按下人工智能转型加速键

2025-04-24 11:27

分析师：美国禁售AI芯片适得其反给中国送上巨大胜利

2025-04-22 18:27

浩物股份：公司暂未本地部署接入DeepSeek大模型

2025-04-21 11:27