谷歌发布视频生成模型VideoPoet；AI机器人在迷宫游戏中超越人类；智源FlagEval大模型12月榜发布

首页 > AI资讯 > 行业动态 > 谷歌发布视频生成模型VideoPoet；AI机器人在迷宫游戏中超越人类；智源FlagEval大模型12月榜发布

谷歌发布视频生成模型VideoPoet；AI机器人在迷宫游戏中超越人类；智源FlagEval大模型12月榜发布

新火种 2023-12-28

1、谷歌发布零样本视频生成模型VideoPoet

今日，谷歌于官网宣布推出用于零样本视频生成的大型语言模型VideoPoet。该模型能够完成多种视频生成任务，包括文本到视频、图像到视频、视频风格化、视频修复、视频扩张以及视频到音频。该模型采用的方法在单个大模型中无缝集成了多种视频生成功能，而不是依赖于专门针对每项任务的单独训练组件。

2、谷歌将AI代码辅助功能扩展到所有Colab用户

今日，谷歌于官网宣布将AI代码辅助功能扩展到所有Colab用户，包括免费用户，现已在175个地区推出。Colab是谷歌提供的一个在线工作平台，可以免费使用GPU进行深度学习，支持Jupyter Notebook和代码执行程序。

3、谷歌将在美国总统大选前限制选举相关AI检索

据路透社报道，谷歌于当地时间周二宣布，在2024年美国总统大选之前，它将限制其聊天机器人Bard和搜索生成体验所能返回的与选举有关的查询类型，这些限制将于2024年初开始实施。

4、微软Copilot引入音乐生成功能

今日，微软于官网宣布与AI音乐创作公司Suno合作，以插件形式将其功能引入微软Copilot，使用户可以通过简单的提示轻松创作有趣、巧妙和个性化的歌曲。

5、亚马逊云科技自研芯Graviton3实例落地中国

12月15日，亚马逊云科技宣布，通过与光环新网和西云数据的紧密合作，其在亚马逊云科技北京区域和宁夏区域推出基于自研芯片Amazon Graviton3处理器的Amazon Elastic Compute Cloud（Amazon EC2）M7g通用型、C7g计算优化型和R7g内存优化型三款实例。这些实例均基于Amazon Nitro System构建，与采用Amazon Graviton2的实例相比，整体性能提升高达25%，内存带宽提升50%，同时能耗更低，能效提升高达60%。其中，M7g实例适用于如应用程序服务器、微服务、游戏服务器等，C7g 实例适用于如高性能计算、视频编码、游戏和基于CPU的机器学习推理加速等计算密集型应用程序，R7g实例适用于如开源数据库、内存缓存和实时大数据分析等内存密集型工作负载。

6、亚马逊的AI评论摘要被认为夸大负面反馈

据彭博社昨日报道，亚马逊的AI商品评论摘要功能有时会提供不准确的产品描述，或是夸大负面反馈。一些商家称，这些摘要是在他们即将进入关键的假日购物季时部署的。彭博社审查了数十篇评论摘要发现，AI在分析顾客评论和生成评论摘要时并不一致，有的突出了批评性反馈，有的则没有。

7、AI机器人在迷宫游戏中超越人类

据彭博社报道，苏黎世联邦理工学院的研究人员创造了一个名为CyberRunner的AI机器人，其在迷宫游戏Labyrinth中的表现超过了人类。据称，该机器人通过倾斜表面使一个小金属球穿过迷宫，避开棋盘上的洞，仅用了六个小时就掌握了这个玩具。相关论文于当地时间周二发布，介绍了其建立在基于模型的强化学习领域的最新进展之上的模型，让AI通过试错来学习如何在动态环境中行动。该项目现已开源发布，用户可支付200美元以使用CyberRunner平台协调大规模实验。

8、百度智能云千帆AppBuilder开放服务

今日，百度智能云宣布，AI原生应用开发工作台——千帆AppBuilder全面开放服务。据了解，AppBuilder提供两种产品形态，代码态与低代码态。对于有深度AI原生应用开发需求的用户，AppBuilder代码态提供包括SDK、开发环境、调试工具、示例代码等各种开发套件和应用组件；而AppBuilder低码态则提供可视化工具，用户只需简单点选，即可快速定制、上线AI原生应用。

9、智源FlagEval 12月榜发布，新增鲁棒性评测

据智源研究院微信公众号发文，今日，FlagEval大语言模型测评榜单12月榜发布，本期榜单新增大语言模型鲁棒性评测结果，考察模型对于输入文本的抗干扰能力；FlagEval平台更新了C-SEM v2.0数据集评测结果，新增了最新开源的Qwen-72B/1.8B、DeepSeek-67B（Base）模型评测。其中，Qwen-72B-Chat模型主观评测结果大幅领先，准确率达83.6%。

据悉，北京航空航天大学与智源FlagEval团队共同构建了大语言模型鲁棒性评测方案，并针对当前主流模型进行了初步评测，本期鲁棒性评测数据集和评测结果分为两个部分：内容扰动鲁棒性评测（北京航空航天大学构建），针对选择问答、文本分类、代码生成任务下的MMLU、OCNLI、CSL、HumanEval测试集进行字符（Char）、单词（Word）、句子（Sentence）三个级别进行内容扰动以及对抗性扰动（即采用代理模型和相关算法进行对抗性攻击），生成了不同的扰动数据集；格式扰动鲁棒性评测（智源FlagEval团队构建），基于MMLU_Chinese、MMLU、Gaokao2023_v2.0数据集，进行选项格式扰动，考察模型是否真正理解了问题和选项并遵从指令的格式要求作答。例如，四个选项的内容调换顺序，或者将A、B、C、D改为B、D、C、E。

10、摩尔线程首个千卡智算中心落地

据摩尔线程微信公众号发文，昨日，摩尔线程首个全国产千卡千亿模型训练平台——摩尔线程KUAE智算中心揭幕仪式在北京成功举办，宣告国内首个以国产全功能GPU为底座的大规模算力集群正式落地。同时，摩尔线程CEO张建中发布了大模型智算加速卡MTT S4000、专为千亿参数大模型训练和推理提供强大支持的摩尔线程KUAE平台。据悉，摩尔线程KUAE支持包括DeepSpeed、Megatron-DeepSpeed、Colossal-AI、FlagScale在内的业界主流分布式框架，并融合了多种并行算法策略，包括数据并行、张量并行、流水线并行和ZeRO，且针对高效通信计算并行和Flash Attention做了额外优化。

11、港中大团队开源AI音频工具包Amphion

12月18日，香港中文大学（深圳）武执政副教授带领的团队联合上海AI实验室等开源了音频、音乐和语音生成工具包Amphion v0.1版本。除了文字转语音功能，Amphion还可以将一首歌的声音换成另一个歌手的声音，支持声音转换、歌声合成、文本到音频、文本到音乐等功能，歌声转换目前支持迈克尔·杰克逊、泰勒·斯威夫特、王菲、那英、李健等歌手的声音。该工具包支持多种模型和架构，如FastSpeech2、VITS、Vall-E、NaturalSpeech2等，用于不同的音频生成任务。

12、CMU研究称Gemini Pro不如GPT-3.5 Turbo

据VentureBeat报道，昨日，卡内基梅隆大学（CMU）和BerriAI的研究人员共同发表了一篇论文，将谷歌的Gemini Pro模型与OpenAI的GPT-3.5 Turbo、GPT-4 Turbo以及Mistral AI的Mixtral 8x7B进行了测试对比，通过一组不同的提示运行所有模型，包括向他们询问57个不同的多项选择题，涉及STEM、人文科学、社会科学等方面的内容。测试结果显示，Gemini Pro得分在十几个数据集的测试上表现都不如GPT-3.5 Turbo。研究人员还发现，当提示不同的模型在标记为A、B、C或D的答案之间进行选择时，Gemini选择“D”的次数比其他模型不成比例地多，无论它是否是正确的答案。

13、盖茨：距美国大众广泛使用AI还有18到24个月

比尔盖茨昨日发布年度展望博客，其中谈道：“如果让我做个预测，在美国这样的高收入国家，我猜离普通民众大量使用AI还有18-24个月的时间。而在非洲国家，我预计在3年左右的时间里，AI的使用就会达到相当的水平。这仍然是一个差距，但比我们在其他创新中看到的滞后时间要短得多。”他还提到，希望AI在抗生素药物、个性化教育、高危妊娠治疗、艾滋病风险评估、医疗信息获取等方面能够得到更广泛的应用。

14、NewsGuard：全球AI虚假新闻网站已达614个

新闻数据集网站NewsGuard昨日发布报告称，迄今为止，NewsGuard的团队已识别出614个不可靠的AI生成的新闻和信息网站，涵盖15种语言。相比今年4月的49个，虚假新闻网站的数量增加了1153%。这些网站大多使用一些诸如“商业日报”（iBusiness Day）、“爱尔兰头条新闻”（Ireland Top News）、“每日时事更新”（Daily Time Update）等看似权威的名称，对于消费者来说难以辨认。这些网站发布的文章涉及政治、技术、娱乐和旅游等主题，包含名人死亡骗局、捏造事件以及将旧事件描述为刚刚发生等虚假内容。

15、《出版业生成式人工智能技术应用指南》发布

今日，中国音像与数字出版协会发布关于发布团体标准《出版业生成式人工智能技术应用指南》的公告，该指南经立项审核、标准起草、征求意见、专家组审查等程序，并通过团标委审查，现予以批准发布。标准编号为T/CADPA 47-2023，自2024年1月20日起开始实施。

16、轻松集团自研大模型升级发布七大AI+健康应用

据医疗健康企业轻松集团微信公众号发文，12月19日，轻松集团旗下医疗健康服务平台轻松健康，宣布其自研的垂直领域大模型“轻松问医Dr.GPT”全面升级。同时，轻松健康还发布了基于该大模型研发七大应用，以满足不同应用场景及用户群体的特定需求，包括“智能问诊系统”“个性化健康管理顾问”“慢性病管理计划”“心理健康指导师”“医学知识库和技能培训平台”“辅助诊疗助手”“患教内容智创平台”，覆盖健康管理服务全场景应用。

17、AI创企安安创新完成1500万天使轮融资

据36氪昨日报道，AI创企安安创新近期完成一轮近1500万元天使轮融资，投资方为个人股东。据悉，安安创新是一家企业服务赛道的创业公司，创立于2021年，公司主要面向民营企业服务，针对企业的“治理、管理、金融、财税、法律”5个维度难题，通过大模型等AI工具进行智能诊断，结合自主知识图谱+专家知识库，输出专业解决方案。

18、荷兰地图平台TomTom与微软合作打造车载AI助手

据路透社报道，荷兰数字地图平台TomTom于当地时间周二宣布，将与微软合作打造一款基于AI的车辆对话助手。该助手将允许用户通过自然语言与车辆交谈，并实现与信息娱乐、位置搜索和车辆命令系统的语音交互。TomTom称，该语音助手可以集成到其他汽车信息娱乐系统中，也可以内置到TomTom的数字驾驶舱中，是一个开放的模块化车载信息娱乐平台。

19、荷兰数字金融公司Bunq推出AI聊天机器人

据彭博社今日报道，荷兰数字金融公司Bunq推出一款AI聊天机器人Finn，支持用户查询自己的支出信息。Finn建立在现有大型语言模型之上，并利用客户在Bunq平台上的消费信息进行训练，由十几名数据专家历时一年构建。

20、药品连锁店因滥用AI人脸识别被FTC起诉

据彭博社报道，美国联邦贸易委员会（FTC）在当地时间周二提交给联邦法院的一份诉状中称，药品连锁巨头Rite Aid在纽约、洛杉矶、巴尔的摩等城市的门店使用了AI面部识别系统，但没有通知顾客。据该机构称，Rite Aid的面部识别系统产生了数千个不正确的识别，通常涉及黑人、拉丁裔或女性。由于匹配不当，Rite Aid员工会在商店周围跟踪顾客、报警，有时甚至谎称顾客入店行窃。作为与联邦贸易委员会和解的一部分，该连锁店同意在未来五年内不使用面部识别技术进行监控，删除迄今为止收集的图像，并向联邦贸易委员会提供有关其合规情况的年度报告。

Tags:

机器学习模型迷宫

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

谷歌发布视频生成模型VideoPoet；AI机器人在迷宫游戏中超越人类；智源FlagEval大模型12月榜发布

华知大模型5.0发布

三个大模型组队挑战o1，实测360多模型协作干掉提示词工程

浩鲸科技鲸智BI大模型发布，从算法炫技到价值落地

腾讯元器推出智能体新应用，支持公众号主打造专属大模型数字分身

大模型赋能智能座舱！NVIDIA深度适配通义千问大模型

热门文章

豪掷30亿美元！OpenAI考虑收购人工智能编程工具Windsurf

OpenAI发布GPT-4.1全新系列模型！全面超越GPT-4o更聪明、更便宜

重磅！OpenAI确定GPT-4退役日期：4月30日

腾讯云智能数智人接入deepseek大模型-品玩

巴托、萨顿因强化学习获2024年图灵奖；英国放弃对“微软-OpenAI”组合反垄断调查丨全球科技早参

全国首例保护AI模型结构判决！抖音诉B612侵害著作权获赔160万

清华学霸、OpenAI姚顺雨：AI下半场开战，评估将比训练重要

美国下手全面封锁！NVIDIA、AMD、Intel的AI芯片非许可禁止卖到中国

和英伟达脱钩何小鹏：小鹏自研图灵AI芯片提前上车