“偏科”的国产大模型：长于文本、弱于数理、作画凑合

首页 > AI资讯 > 最新资讯 > “偏科”的国产大模型：长于文本、弱于数理、作画凑合

“偏科”的国产大模型：长于文本、弱于数理、作画凑合

新火种 2023-09-24

声明:本文来自于

国产大模型集体交答卷了。

8月31日，首批11家国产大模型获批上线，包括百度的“文心一言”、商汤科技的“商量SenseChat”、智谱AI的“智谱清言”、MiniMax的“ABAB”、上海人工智能实验室的书生通用大模型、抖音的“云雀”、百川智能的“百川”以及中科院旗下的“紫东太初”、科大讯飞的“讯飞星火认知大模型”、阿里“通义千问”、360智脑。

其中，文心一言、商量SenseChat、抖音基于“云雀”研发的AI智能助手“豆包”、智谱清言、MiniMax的“ABAB”、“讯飞星火认知大模型”已经面向公众开放测试。

另据第一财经报道，阿里“通义千问”、360智脑也预计在未来一周左右陆续开放。

自今年2月ChatGPT掀起“生成式AI”热后，国产大模型齐齐备战，7个月后的今天，到了验收成果的时候。

就速度而言，不可谓不惊喜，但真正让人关心的还是效果如何。

《财经故事荟》体验了上述6家已经开放测试的大模型，从文本创作、数理计算、作画、信息检索等角度与其做了对话，发现这些大模型已经能解决相当一部分问题，尤其在文本创作方面颇有些亮点。当然，有瑕疵也在所难免，但就短短半年的沉淀而言，总体值得给一个肯定。

需要说明的是，大模型输出的结果存在随机性，即便是同一指令，每次生成的内容也有差异，因而不能就有限的体验去定论模型的高下。

不过，国内大模型榜单SuperCLUE发布的大模型8月排行榜，倒是能体现出这些大模型的总体水平。排行榜显示，在国产大模型中，百川智能的Baichuan-13B-Chat（V2）拿下榜首，MiniMax的MiniMax-abab5及百度的文心一言(V2.2.3)紧随其后。

文心一言结果

再比如，关于“是谁提出了新三民主义?”、“淞沪会战是什么时候?”、“是谁首次培育出了杂交水稻?”等具体问题上，这些大模型也都能正确回答。

但在一些数据统计层面，它们表现很不理想。

一方面，有些大模型缺失最新数据，或者缺少某些特定领域的数据储备。

比如，在统计中国年度新增人口时，文心一言、讯飞星火最新可统计到2022年，但智谱清言只能查到2020年，百川大模型、抖音“豆包”则只能查到2021年，商量大模型完全统计不到此类数据。

百川大模型结果

同样的，在统计中国年度GDP时，百川大模型最新也只能查到2021年，商量大模型也完全统计不到。

商量大模型结果

再比如，在部分有关线下店面信息的问题上，MiniMax大模型、智谱清言、百川大模型、抖音“豆包”会表示无法查询。

MiniMax结果

其实，准确度欠佳的问题不止出现在数据统计上。

比如，在“鲁智深为什么三打白骨精”的问题陷阱中，只有文心一言、商量大模型、抖音“豆包”回答不存在，其他大模型都开始“编故事”了。

再比如，在询问“父母之爱子，则为之计深远”的典故时，也只有文心一言、商量大模型、抖音“豆包”回答正确，百川大模型认为没有特定典故，讯飞星火、智谱清言则说错了典故出处。

抖音“豆包”结果

还有，查询电影信息时也有类似现象，在“为陈思诚监制的电影《消失的她》写影评”问题上，只有文心一言、商量大模型、抖音“豆包”描述的事实与电影相符，百川大模型、讯飞星火、智谱清言则有点“串场”，都提到了没有参演的黄渤。

百川大模型结果

类似的现象在评价最新电影《封神》时也有出现，只有文心一言对剧情的描述正确，其余大模型均将其误认为是之前的电影《封神传奇》;而当输入指令更明确为“2023年上映的《封神第一部:朝歌风云》”时，百川大模型、商量大模型、讯飞星火仍然错误，智谱清言、抖音“豆包”则做了更正。

可以看到，现阶段如果把大模型当搜索用，还是让人不放心。

其实，除了上述四大类能力外，这几家大模型还都具备跨语言处理能力。《财经故事荟》以最简单的“我爱你”为例，进行中文与法语、德语等语言的互翻，都能得到准确回答。当然，更复杂的跨语言处理能力还有待继续挖掘。

综上，仅以上述体验结果看，现阶段的大模型在文本创作方面基本迈过了及格线，在某些场景下还能“制造”一些惊喜感，这颇为难得。但其也像一个偏科的学生，在数理方面普遍一般，BUG较多;作画水平更是有待优化，“雷人”概率比较大;信息检索方面还不稳定，用起来不太放心。

那么问题来了，对照当下的现实，再回看当初大模型被“吹捧”上神坛的那些观点:“AI的iPhone时刻”“大模型将改变世界”……这些观点所构建的未来还值得期待吗?

答案毋庸置疑:值得，“莫欺少年穷”!大模型今天交付的答卷只是其漫漫长路上的起点，在此后的每一天，甚至每一小时里，大模型可能都处在无止境的进化中。

Tags:

偏科数理

一个偏科怪才进化为机器人价格屠夫

2024-08-25