首页 > AI资讯 > 最新资讯 > 提升大模型自动修Bug能力豆包正式开源首个多语言类SWE数据集

提升大模型自动修Bug能力豆包正式开源首个多语言类SWE数据集

新火种    2025-04-10

4月10日消息,今日,字节跳动豆包大模型团队宣布,正式开源首个多语言类SWE数据集——Multi-SWE-bench,可用于评估和提升大模型“自动修 Bug”能力。

在SWE-bench基础上,Multi-SWE-bench首次覆盖Python之外的7种主流编程语言(Java、Go、Rust、C、C++、TypeScript、JavaScript),是真正面向“全栈工程”的评测基准。

Multi-SWE-bench包含1632个实例,均来自GitHub issue,并经过统一的测试标准和专业开发者的审核筛选,确保每个样本具备清晰的问题描述、正确的修复补丁以及可复现的运行测试环境。

豆包大模型团队希望,Multi-SWE-bench能作为大模型在多种主流编程语言与真实代码环境中的系统性评测基准,推动自动编程能力向更实用、更工程化的方向发展。

团队表示,相比于以往聚焦Python的单语言任务,Multi-SWE-bench更贴近现实中的多语言开发场景,也更能反映当前模型在“自动化软件工程”方向上的实际能力边界。

提升大模型自动修Bug能力 豆包正式开源首个多语言类SWE数据集


Tags:
相关推荐
免责声明
本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。