实际上手文心一言4.0，真的媲美GPT-4了？ - 新火种

热门关键词

文心一言 AI copy btc 斑马腾迅 aa 1 iPollo sd

首页 > AI资讯 > 最新资讯 > 实际上手文心一言4.0，真的媲美GPT-4了？

实际上手文心一言4.0，真的媲美GPT-4了？

新火种 2023-11-01

尺有所短，寸有所长。

最近这段时间，大模型世界可以说是再度风起云涌，不断有大模型升级和涌现，作为国内最早推出通用大模型的公司，百度也推出了文心大模型 4.0。

百度创始人、董事长兼 CEO 李彦宏当场表示，文心 4.0 实现基础模型的全面升级，在理解、生成、逻辑和记忆等能力上均有提升，「综合水平与 GPT-4 相比已经毫不逊色。」

文心大模型 4.0 不是唯一一个对标 GPT-4 的大模型，中国有无数个大模型正在追赶 GPT-4，上周就有科大讯飞宣布星火大模型的下一次升级，就将全面对标 GPT-4。但话又说回来，文心大模型 4.0 真的能打了吗？

终究还是得见真功夫。

众所周知，百度在今年 3 月发布了国内第一个大模型——文心大模型 3.5，并以此为基础对话机器人文心一言，当时雷科技就做了上手体验，评价是还有很大的优化空间，但也有不少惊喜。

所以我们干脆先看看过去半年时间，文心 4.0 到底能有多少进步。

文心 3.5 的时候我们就问过如何评价《流浪地球 2》的问题，评价内容水分较大，还提到了「星际战斗场面」等错误信息，上映时间和演员信息上也出现了常见的错误。

微信截图_20230317174846.png

公允地说，那个时候 ChatGPT 上也经常遇到类似的问题，表现最好的可能还是联网的 Bing Chat（GPT-4）。

到了文心 4.0 上，评价会相对更贴近实际内容一些，尽管还是会出现探讨「我们应该如何保护地球」这种「胡话」，但追问上映时间和演员阵容都能给出准确的信息。

此外，我们还问了一个常被用来「拷问」大模型的脑筋急转弯，文心 3.5 的时候显然还没有理解人类：

微信截图_20230317180424.png

但文心 4.0 不仅能从题目本身分析题意，还能将这个问题放到真实环境下进行推理：

此外，文心 4.0 还能准确明白近期的网络热梗和「中文十级难题」：

如果说前一个问题意味着文心 4.0 可以降维打击所有「梗百科」产品，后一个问题则代表了文心 4.0 对中文的理解能力又上了一个新台阶，要知道，不少网友也是花了一段时间才真正看懂这个「几等座」的问题。

更多的比较就不展示了，但显然，文心 4.0 比起半年多前已经聪明了不少，对中文的理解能力，联网后对新信息的掌握以及逻辑推理能力都有明显的提升。

但文心 4.0 还远不止于此。

既然大家都认为 GPT-4 是目前最「聪明」的大模型，那我们自然也不能免俗拿 Bing Chat（GPT-4）和文心 4.0 进行对比，比如先来一个比较简单的「请假理由」。

文心一言给出的回答比较泛用，一般而言确实比较好用。

Bing Chat 则给出了更多的理由，比如腹泻、家里断水和身体不适也比较实用。

当然，都到了「4.0」的阶段，我们也尝试提出一些比较高阶且更具实际价值的挑战。

第一个挑战就是直接写一份短视频脚本，分别让文心 4.0 和 Bing Chat 写份关于广州早餐的短视频脚本。

Bing Chat 给出一份完成度相当不错，同时兼具创意和广州特色的脚本，稍微补充修改是真的可以采用。

文心 4.0 创作的脚本就比较空泛，甚至把广州替换成任意一座城市都不会影响内容，更遑论「广州特色」了。但如果多给一些提示，比如指出广州的早茶、肠粉这些元素，文心 4.0 会进一步完善脚本内容，增加「广州特色」的相关内容。

但较真起来，显然还是 Bing Chat 给出的脚本更具备实际价值，包括在画面的细节描述上也更加丰富，更胜文心 4.0 一筹。

第二个挑战则是创建网站教程，我们以比较简单的树洞网站为例，请教文心 4.0 和 Bing Chat。

但 Bing Chat 第一步就歇菜了，只是给出了一个树洞网站及其功能的介绍，进一步追问也只能「理解万岁」，表示「我不能提供全部的代码，因为这超出了我的能力范围。」

相比之下，当我们要求文心 4.0 给出创建一个树洞网站需要的全部代码，可以看到它列出创建一个基本的树洞网站需要的 HTML、CSS 和 JavaScript 代码：

接下来进一步请教如何在百度云上部署这些代码，它也会先提供一些大概的步骤，比如注册百度云账号、创建实例、连接云服务器、上传代码等操作：

同时每一步还要继续展开，比如连接云服务器的步骤：

诚然，现在大模型距离「用嘴」搭建网站、开发 APP 还有很远的距离，但文心 4.0 确实展示了一些改变开发生态的能力，未来如果能够与百度云打通，用文心一言贯穿整个流程，未必不能实现人人都可开发的未来。

不过大模型改变的不仅是内容创作和代码开发，还有翻译。先简单来一段英译中：

稿定设计导出-20231030-192728.jpg

左：Bing Chat，右：文心 4.0

两者的差别不是很大，只有在细节处理上有些微区别，但如果换成文言文风格呢？

稿定设计导出-20231030-193124.jpg

下：Bing Chat，上：文心 4.0

相比 Bing Chat，文心 4.0 的翻译更加准确，没有为了更精简的文辞而略去了一些关键信息，就比如开头第一句的「1985 年」。

如果我们在进一步，要求它们将李白的《侠客行》翻译成英文：

只能说，现如今的大模型还做不太到位。

另外，借助插件系统文心 4.0 还能做到 GPT-4 无法实现的一些功能，比如一镜流影，即通过文字直接生成视频内容。需要解释的是，这并非直接地文字生成视频，而是通过 AI 生成文案、配音，再搭配实际拍摄画面，最后再自动剪辑导出。

目前来看，这个功能还是有很多欠缺之处，生成视频的质量比较一般，又不能导入实际的制作流程，更多可能还是充当创意发散和尝鲜的价值。

尽管如此，文心 4.0 的表现已经足够让我眼前一亮了，不仅在中文语义理解又有了一定的提升，在逻辑推理、知识问答方面也更多避免了大模型「幻觉」的出现。可以说，文心 4.0 在综合能力上确实与 GPT-4 不分上下。

题图来自百度

来源：雷科技

原文标题:实际上手文心一言4.0，真的媲美GPT-4了？

Tags:

上手

相关推荐

Anthropic推出Claude快速入门项目库，新手也能快速上手

2024-09-04

联想给出了AIPC答案！联想小新Pro14AI超能本2024上手

2024-05-20

GPT-4o各种刷屏上手试了试：感觉目前也就那样

2024-05-16

OPPOFindX7安第斯大模型上手：智能语音助手脱胎换骨

2024-01-11

图好看吗？电脑自己画的！AIPC上手初体验｜钛极客

2023-12-20

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

热门文章

香港生成式人工智能研发中心获2亿港元捐赠

杭州：争夺机器人第一城

2025-04-24 11:27

美国对华芯片管制将适得其反？专家：华为等中国厂商将受益！

2025-04-23 11:21

信银理财董文赜：拥抱变革向新求质——共赴银行理财高质量发展新征程

2025-04-24 13:24

重庆首例！机器人辅助通过3里米小孔切除巨大肿瘤

2025-04-26 11:18

成立香港仔机器人，国华（00370）按下人工智能转型加速键

2025-04-24 11:27

分析师：美国禁售AI芯片适得其反给中国送上巨大胜利

2025-04-22 18:27

国行版iPhone即将变身AI手机：iOS18.5正式版已在路上

2025-04-26 18:21

AI遇见FWA，赋予家庭连接新价值

2025-04-28 11:21

【VIP机会日报】政策面催化下跨境支付概念震荡走高栏目多维度梳理焦点公司收获涨停

2025-04-24 13:24