首页 > AI资讯 > 最新资讯 > 大模型传媒能力如何?新京报AI研究院报告:存幻觉,写作待提高

大模型传媒能力如何?新京报AI研究院报告:存幻觉,写作待提高

新京报    2025-01-14

  打分标准为:准确性(4分):概括是否准确反映了文档内容,是否准确回答了测试人员的问题。覆盖面(3分):概括是否涵盖了文档中的所有不能遗漏的重要内容。语言表达(3分):生成内容是否流畅,概括语言是否清晰易懂。可上传文档长度和可识别文档类型(扣分项):大模型无法上传或无法识别全部内容可酌情扣分。

  分析:海螺AI在这项测试中得分稳居第一,豆包、腾讯元宝分列第二三位。会议纪要总结对于记者来说属于“刚需”能力,因此测试中要求对新京报贝壳财经关于自动驾驶的闭门讨论会录音速记作为素材,进行内容总结。其中,文心一言、讯飞星火、百小应对嘉宾观点进行了提炼,讯飞星火、智谱、海螺AI特别把整个会议中提炼出来的综合观点与嘉宾观点结合,海螺AI还有最后总结,表现良好,因此也得到了高分。

  在首次测试中,表现堪称灾难的“长文本搜索”能力,本次出现显著改善,除了讯飞星火外,所有大模型均在一段长文本中搜索到了记者插入的问题答案。相比之下,上一次测试中一半以上的大模型无法搜索到。

  不过,在财报对比方面,大模型仍表现出能力不足。在“请根据上传的这两份文档,总结对比工商银行与交通银行2024年中期财报中总收入、净利润、毛利率等重点财务数据,并作总结。”题目中,百小应、智谱、Kimi、夸克AI无法上传完整的两份财报。海螺AI则在上传的文件超过处理上限的情况下“强行”生成了答案。

  此次测试中,对比财务分析软件Wind数据,正确回答出总收入数据的只有文心一言、豆包、天工AI,但即便它们的总收入数据准确,其余数据仍然不准确。这说明让面向大众的C端大模型分析财报,准确率仍然堪忧。

  测试中,文心一言在对比财报题目中生成的答案,其在总收入的数据上对比准确。

  四、核心要点发现与总结

  1. 点赞信息搜集能力,新闻写作能力尚不足

  横向对比大模型五个维度的平均得分水平,排名由高到低分别是信息搜集能力(6.166分)、翻译能力(6.136分)、长文本能力(5.845分)、事实核查与价值观判断能力(5.767分)、新闻写作能力(5.678分)。

  媒体从业者对于使用大模型代替搜索引擎进行信息检索的能力较为满意,但要让大模型取代新闻工作者进行新闻写作,尚需时日,大模型生成的新闻文章相比其他能力难言令人满意。

  2. 翻译能力排名下滑,专业领域稍显吃力

  本次测评,翻译能力得分排在第二位,而在上一次测评中,翻译能力排名第一。这一变化除了大模型联网后信息搜集能力得到大幅提升导致搜索能力增强因此排名上升外,也因为本次要求翻译的题目难度增加,因此看到了大模型翻译能力的上限,特别是对于特殊文体文章,AI尚不能精准且灵活翻译。

  不过,信息搜集能力和翻译能力的评分均在6分以上,超过了及格线。

  3. 事实核查能力跌破及格线,小众谣言上“翻车”

  在上一次测评中,事实核查与价值观判断能力评分也在及格线之上,但上一次的测试题目较为简单。此次对于相对小众的谣言,仍然有大模型“翻车”,这导致事实核查能力评分跌破了及格线,说明大模型无法辨别所有谣言。

  4.长文本能力明显提高,无法胜任财报分析工作

  在上一次测试中,长文本能力得分垫底,而本次测评长文本能力得分则跃居第三,特别是文内检索能力得到了大幅提升,绝大多数大模型能够通过文内检索能力找到用户想要的答案,可见技术得到了加强。

  长文本上传方面,本轮测试支持上传两份完整长文本的大模型占到半数以上,相比上一次也有了长足进步。不过,对于内容严谨程度要求较高的财报分析等工作,大模型仍然无法胜任。

  5.限定特定范围,暴露“幻觉”问题短板

  在本次测试中,不少问题都限定了时间或者事件范围,结果不少大模型出现“幻觉”现象,比如“梳理上个月的爆款新闻”一题中,生成内容错误地囊括包括中国载人航天成功登月,以及“鼠头鸭脖”事件发生在上个月等。如果不限制范围则“幻觉”明显减少,例如“搜索老年人诈骗案例”这一问题时,基本上所有大模型生成内容表现不错。

  6.个别问题无法生成回答,内容生成审核需更灵活

  在本次测试中,不少大模型得分较低并非因为能力问题,而是无法生成答案。在关于中央文件的解读、人民日报文章的翻译中,不少大模型无法生成。一些大模型甚至在2024年12月中旬的测试中无法回答“吴柳芳事件”(截至2025年1月10日该问题已修复)。当前对内容的审核,一些大模型可能需要更加灵活。

  测试时,科大讯飞对搜索总结“吴柳芳事件”这一问题的回答(现已修复)。

  结语

  经过本次测评,我们可以发现,总体得分上,文心一言、腾讯元宝、通义千问等模型表现突出,它们在五大维度上均展现出了较强的实力,没有明显的短板。同时,我们也注意到,尽管不同模型在各项能力上存在一定的差异,但整体上都在向着更加成熟、高效的方向迈进。

  在信息搜集能力方面,大模型们普遍能够紧跟时事新闻动态,给出较完整的检索结果,但在具体的时间跨度或特定事件范围的限制下,部分模型出现了“幻觉”问题,生成了与实际情况不符的内容。这提醒我们在使用大模型时需要谨慎核实其生成内容的真实性。同时,针对部分大模型在特定任务中无法生成答案的情况,我们也呼吁大模型的内容审核机制需要更加灵活以适应不断变化的应用场景。

  新闻写作能力方面,尽管各模型在语法、逻辑、内容准确性和新闻风格等方面都取得了一定的成绩,但整体上仍存在一定的同质化现象,缺乏独特的视角和创造性。这要求我们在利用大模型进行新闻写作时,需要更加注重内容的多样性和创新性,以提升新闻报道的质量和吸引力。

  在事实核查与价值观判断能力上,部分模型在面对含有误导信息和错误价值观的内容时,表现出了较高的警惕性和修正能力。然而,对于相对小众的谣言或敏感议题,仍有模型“翻车”,这提醒我们在使用大模型进行事实核查时,需要保持审慎态度,并结合人工审核等手段进行双重验证。

  翻译能力方面,尽管各模型在普通文章的翻译上表现尚可,但在面对特殊文体文章或专业领域术语时,仍存在一定的挑战。这要求我们在利用大模型进行翻译时,需要充分考虑文章的类型和领域特点,选择适合的模型进行翻译,并必要时进行人工修正。

  相比第一期测评,本期测评揭示了大模型产品在长文本能力方面的进步,特别是文内检索能力得到了大幅提升,绝大多数大模型已经能够通过文内检索找到用户所需的答案,这无疑为记者和编辑等传媒从业者提供了更为便捷和高效的工具。尽管如此,对于内容严谨程度要求较高的财报分析等工作,大模型仍显得力不从心,需要传媒从业者审慎对待。

  综上所述,生成式大模型在传媒行业的应用已经取得了显著的进展,但仍存在一定的局限性和改进空间。未来,随着技术的不断进步和应用场景的不断拓展,我们有理由相信大模型将在传媒行业中发挥更加重要的作用。同时,我们也需要持续关注大模型的发展动态和技术挑战,加强技术研发和应用创新,以推动传媒行业的持续健康发展。

(文章来源:新京报)

相关推荐
免责声明
本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。