3B模型不输7BLLaVA!北大多模态MoE模型登GitHub热榜
混合专家(MoE)架构已支持多模态大模型,开发者终于不用卷参数量了!北大联合中山大学、腾讯等机构推出的新模型MoE-LLaVA,登上了GitHub热榜。它仅有3B激活参数,表现却已和7B稠密模型持平,甚至部分指标比13B的模型还要好。
混合专家(MoE)架构已支持多模态大模型,开发者终于不用卷参数量了!北大联合中山大学、腾讯等机构推出的新模型MoE-LLaVA,登上了GitHub热榜。它仅有3B激活参数,表现却已和7B稠密模型持平,甚至部分指标比13B的模型还要好。
AI 科技评论报道编辑 | 陈大鑫近日,由北京大学崔斌教授数据与智能实验室( Data and Intelligence Research LAB, DAIR)开发的通用黑盒优化系统 OpenBox 开源发布!相比于SMAC3,Hyperopt等现有开源系统,OpenBox支持更通用的黑盒优化场景,
北大等出品,首个多模态版o1开源模型来了——代号LLaVA-o1,基于Llama-3.2-Vision模型打造,超越传统思维链提示,实现自主“慢思考”推理。在多模态推理基准测试中,LLaVA-o1超越其基础模型8.9%,并在性能上超越了一众开闭源模型。新模型具体如何推理,直接上实例,比如问题是:传统
北京大学和中山大学等机构研究者提出了统一的视觉语言大模型 ——Chat-UniVi。通过构建图片和视频统一表征,该框架使得一个 LLM 能够在图片和视频的混合数据下训练,并同时完成图片和视频理解任务。更重要的是,该框架极大降低了视觉语言模型训练和推理的开销,
想象一下当你躺在沙发上,只需要不假思索地说出指令,机器人就能帮你干活,是不是听起来就十分惬意?如今这种科幻电影中的场景正在变为现实,来自北京大学的助理教授、博士生导师董豪团队近日提出首个通用指令导航大模型系统InstructNav。不论是寻找物体,走到指定位置,还是满足抽象的人类需求,只要你说出指令
DoNews11月7日消息,据品玩引述 HuggingFace 页面报道,微软研究院联手北京大学,共同发布了一款名为 PPTC 的大模型测试基准,可以用于测试大模型在PPT 生成方面的能力。研究团队表示,PPTC包含 279 个涵盖不同主题的多回合会话和数百条涉及多模式操作的说明。研究团队还提出了P
只靠一张物体图片,大语言模型就能控制机械臂完成各种日常物体操作吗?北大最新具身大模型研究成果ManipLLM将这一愿景变成了现实:在提示词的引导下,大语言模型在物体图像上直接预测机械臂的操作点和方向。
编译 |琰琰大规模深度神经网络训练仍是一项艰巨的挑战,因为动辄百亿、千亿参数量的语言模型,需要更多的 GPU 内存和时间周期。这篇文章从如何多GPU训练大模型的角度,回顾了现有的并行训练范式,以及主流的模型架构和内存优化设计方法。本文作者Lilian Weng现为OpenAI应用人工智能研究负责人,
12日,北京大学联合字节跳动成立豆包大模型系统软件联合实验室,校企携手面向人工智能系统软件开展科学研究和技术转化,培养高素质创新型软件人才。
要点:北大和中山大学研究者提出的Chat-UniVi是一种统一的视觉语言大模型,能够在统一的视觉表征下同时处理图片和视频任务,且仅需三天训练即可获得130亿参数的通用视觉语言大模型。Chat-UniVi采用动态视觉token来统一表示图片和视频,通过最近邻的密度峰聚类算法获取动态视觉token,多尺