考试中击败90%的人类！GPT升级了：更可靠、更有创造力

首页 > AI资讯 > 最新资讯 > 考试中击败90%的人类！GPT升级了：更可靠、更有创造力

考试中击败90%的人类！GPT升级了：更可靠、更有创造力

新火种 2023-09-11

每经

凭借ChatGPT掀起人工智能（AI）应用热潮的OpenAI发布了最新作品——GPT-4。得到这种新模型支持的ChatGPT将迎来升级。

当地时间周二（3月14日），人工智能研究公司OpenAI公布了其大型语言模型的最新版本——GPT-4。该公司表示，GPT-4在许多专业测试中表现出超过绝大多数人类的水平。OpenAI还称，GPT-4参加了多种基准考试测试，包括美国律师资格考试Uniform Bar Exam、法学院入学考试LSAT、“美国高考”SAT数学部分和证据性阅读与写作部分的考试，在这些测试中，它的得分高于88%的应试者。

OpenAI推出GPT-4

OpenAI周二表示，在内部评估中，GPT-4产生正确回应的可能性要比GPT-3.5高出40%。而且GPT-4是多模态的，同时支持文本和图像输入功能。OpenAI称，GPT-4比以前的版本“更大”，这意味着其已经在更多的数据上进行了训练，并且在模型文件中有更多的权重，这使得它的运行成本更高。

据OpenAI介绍，在某些情况下，GPT-4比之前的GPT-3.5版本有了巨大改进，新模型将产生更少的错误答案，更少地偏离谈话轨道，更少地谈论禁忌话题，甚至在许多标准化测试中比人类表现得更好。

例如，GPT-4在模拟律师资格考试的成绩在考生中排名前10%左右，在SAT阅读考试中排名前7%左右，在SAT数学考试中排名前11%左右。

OpenAI表示，已经与多家公司合作，要将GPT-4结合到他们的产品中，包括Duolingo、Stripe和Khan Academy。GPT-4模型也将以API的形式，提供给付费版ChatGPT Plus的订阅用户。开发者可以注册，用它打造应用。微软此后表示，新款的必应（Bing）搜索引擎将运行于GPT-4系统之上。

OpenAI表示，虽然两个版本在日常对话中看起来很相似，但当任务复杂到一定程度时，差异就表现出来了，GPT-4更可靠、更有创造力，能够处理更微妙的指令。“在我们的内部评估中，它产生正确回应的可能性比GPT-3.5高40%。”

在上述示例中，可以看到GPT-4系统如何应答图像输入内容，比如像上述截图那样解释图片的不同寻常之处、图片的幽默之处、一个搞怪图片的用意

不过，OpenAI也警告称，GPT-4还不完美，在许多情况下，它的能力不如人类。该公司表示：“GPT-4仍有许多已知的局限性，我们正在努力解决，比如社会偏见、幻觉和对抗性提示。”

OpenAI透露，摩根士丹利正在使用GPT-4来组织数据，而电子支付公司Stripe正在测试GPT-4是否有助于打击欺诈。其他客户还包括语言学习公司Duolingo、Khan Academy和冰岛政府。

OpenAI合作伙伴微软周二表示，新版必应搜索引擎将使用GPT-4。

OpenAI联合创始人：未来AI将首先替代基于认知的工作

据每日经济新闻3月14日报道，当地时间3月10日至19日，西南偏南多元创新大会和艺术节（SXSW）在美国得克萨斯州奥斯汀举行。如果说去年SXSW的主题是关于Web3、NFT和元宇宙，那么今年的SXSW显然展现出完全不同的景象，ChatGPT几乎成为贯穿每场活动的话题。

图片来源：视觉中国

3月10日，OpenAI联合创始人兼总裁Greg Brockman在当天举行的活动现场接受了外媒的专访，在长达一小时的谈话中，Brockman谈到了许多与ChatGPT和人工智能（AI）的话题。当天，现场座无虚席，观众时不时因为Greg的发言而发出阵阵呼声。

与许多人一样，在Brockman的畅想中，未来的通用AI将给人类带来颠覆性的影响。他认为，未来AI更像是一个全天候的助手，它能够“放大”人们的能力，并帮助人类获得新的想法。

“想想今天，每个人都在看同一个电视节目，也许人们都在看《权力的游戏》的最后一季，”他说，“但想象一下，如果你可以让你的AI以不同的方式进行，甚至可能将自己作为主角置身其中，并进行互动体验。”

在此之前，许多人——包括Brockman本人在内——都认为AI将从一些体力劳动开始替代人类的工作，但如今的事实恰好相反。Brockman在谈话中表示，未来人类基于认知的工作将首先被机器取代，例如内容审核。因此，在AI浪潮中，人类需要更高级别的技能、判断和认知。

每日经济新闻综合每经网（记者：文巧）、OpenAI官网

每日经济新闻

Tags:

PyTorch 创造力可靠

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。