融合ChatGPT+DALLE3,贾佳亚团队新作开源:识图推理生图一站解决
在开源社区中把GPT-4+Dall·E 3能⼒整合起来的模型该有多强?香港中文大学终身教授贾佳亚团队提出多模态模型Mini-Gemini:Mini-Gemini还提供了2B小杯到34B的超大杯,最强模型在多个指标上相比谷歌的Gemini Pro甚至GPT-4V都不遑多让。
在开源社区中把GPT-4+Dall·E 3能⼒整合起来的模型该有多强?香港中文大学终身教授贾佳亚团队提出多模态模型Mini-Gemini:Mini-Gemini还提供了2B小杯到34B的超大杯,最强模型在多个指标上相比谷歌的Gemini Pro甚至GPT-4V都不遑多让。
啥?AI都能自己看电影大片了?贾佳亚团队最新研究成果,让大模型直接学会了处理超长视频。丢给它一部科幻大片《星际穿越》(片长2小时49分钟):它“看”完之后,不仅能结合电影情节和人物轻松对电影进行点评:还能很精准地回答出剧中所涉的细节:例如:虫洞的作用和创造者是谁?男
谷歌「Alpha」家族又壮大了,这次瞄准了量子计算领域。今天凌晨,新晋诺贝尔化学奖得主、DeepMind 创始人哈萨比斯参与撰写的新论文登上了 Nature,主题是如何更准确地识别并纠正量子计算机内部的错误。我们知道,量子计算机有潜力彻底改变药物发现、材料设计和基础物理学。不过前提是:我们得让它们可
ControlNet作者新作,玩儿得人直呼过瘾,刚开源就揽星1.2k。用于操纵图像照明效果的IC-Light,全称lmposing Consistent Light。
CV大神何恺明,也来搞扩散模型(Diffusion Model)了!大神最新论文刚刚挂上arXiv,还是热乎的:解构扩散模型,提出一个高度简化的新架构l-DAE(小写的L)。
四个 10 分!罕见的一幕出现了。您正在收看的,不是中国梦之队的跳水比赛,而是 ICLR 2025 的评审现场。虽说满分论文不是前无古人,后无来者,但放在平均分才 4.76 的 ICLR,怎么不算是相当炸裂的存在呢。
比斯坦福DPO(直接偏好优化)更简单的RLHF平替来了,来自陈丹琦团队。该方式在多项测试中性能都远超DPO,还能让8B模型战胜Claude 3的超大杯Opus。而且与DPO相比,训练时间和GPU消耗也都大幅减少。这种方法叫做SimPO,Sim是Simple的简写,意在突出其简便性。
造大模型的成本,又被打下来了!这次是数据量狂砍95%的那种。陈丹琦团队最新提出大模型降本大法——数据选择算法LESS, 只筛选出与任务最相关5%数据来进行指令微调,效果比用整个数据集还要好。指令微调正是让基础模型成为类ChatGPT助手模型的关键一步。
现实世界版的 Genie-2?最近,世界模型(World Models)似乎成为了 AI 领域最热门的研究方向。继World Labs(李飞飞)、谷歌 DeepMind 接连发布自己的世界模型研究之后,
斯坦福吴佳俊团队与MIT携手打造的最新研究成果,让我们离实时生成开放世界游戏又近了一大步。从单一图像出发,在用户的实时交互下生成无限延展的3D场景:只需上传一张图片,就能踏入一个由AI创造的虚拟世界。