上海交大发布大模型双语编程评估基准,机器开始挑战人类写代码了?
上海交通大学 APEX 实验室“Write the code. Change the world.”If computers can write code, then it is a new world.打造能自己写代码的机器,这是计算机科学和人工智能先锋者一直在追寻的目标。
上海交通大学 APEX 实验室“Write the code. Change the world.”If computers can write code, then it is a new world.打造能自己写代码的机器,这是计算机科学和人工智能先锋者一直在追寻的目标。
1、SuperCLUE发布2023中文大模型基准测评报告2、谷歌推出AI Core应用,管控手机本地AI模型3、微软Copilot将升级至GPT-4 Turbo4、HF CEO分享2024年AI行业六大预测5、Salesforce将在AWS上销售AI软件等6、中英加强AI等领域合作交流7、百度资本等
编辑 | ScienceAI近日,认知智能全国重点实验室、中国科学技术大学陈恩红教授团队,科大讯飞研究院 AI for Science 团队发布了论文《ChemEval: A Comprehensive Multi-Level Chemical Evaluation for Large Langua
12月30日,清华大学教授孙茂松带领的团队在北京发布了机器中文语言能力评测基准“智源指数”CUGE,在北京智源人工智能研究院自然语言处理(简称NLP)重大研究方向前沿技术开放日活动上,由清华大学教授孙茂松带领的团队发布了机器中文语言能力评测基准“智源指数”(CUGE)。
GPT-4o再次掀起多模态大模型的浪潮。如果他们能以近似人类的熟练程度,在不同领域执行广泛的任务,这对许多领域带来革命性进展。因而,构建一个全面的评估基准测试就显得格外重要。然而评估大型视觉语言模型能力的进程显著落后于它们自身的发展。
概要复旦DISC实验室推出了ReForm-Eval,一个用于综合评估大视觉语言模型的基准数据集。ReForm-Eval通过对已有的、不同任务形式的多模态基准数据集进行重构,构建了一个具有统一且适用于大模型评测形式的基准数据集。所构建的ReForm-Eval具有如下特点:构建了横跨8个评估维度,并为每
中国科大等机构联合团队发布了SciGuard和SciMT-Safety,用于保护AI for Science模型,防止在生物、化学、药物等领域滥用,并建立了首个专注于化学科学领域安全的基准测试。研究团队发现开源AI模型存在潜在风险,可被用于制造有害物质并规避法规。
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfen
声明:本文来自于【新智元导读】代码能否跑起来的不是判断可靠性的标准,用语言模型写代码还需要考虑生产环境下的预期外输入。大型语言模型(LLM)在理解自然语言和生成程序代码方面展现出了非凡的性能,程序员们也开始在编码过程中使用Copilot工具辅助编程,或是要求LLM生成解决方案。经过几版迭代后,目前L
小型创业团队打造的“最强开源模型”,发布才一周就被质疑造假——不仅官方宣称的成绩在第三方测试中大打折扣,模型还被质疑套壳Claude。面对浩大的声浪,厂商CEO终于发文道歉,但并未承认造假,表示在调查有关原因。被指控造假的,就是宣称“干翻GPT-4o”的70B开源大模型Reflection。一开始的