微软亚研院新作:让大模型一口气调用数百万个API!
近年来,人工智能发展迅速,尤其是像ChatGPT这样的基础大模型,在对话、上下文理解和代码生成等方面表现出色,能够为多种任务提供解决方案。
近年来,人工智能发展迅速,尤其是像ChatGPT这样的基础大模型,在对话、上下文理解和代码生成等方面表现出色,能够为多种任务提供解决方案。
大佬何恺明还未正式入职MIT,但和MIT的第一篇合作研究已经出来了:他和MIT师生一起开发了一个自条件图像生成框架,名叫RCG(代码已开源)。这个框架结构非常简单但效果拔群,直接在ImageNet-1K数据集上实现了无条件图像生成的新SOTA。
在开源社区中把GPT-4+Dall·E 3能⼒整合起来的模型该有多强?香港中文大学终身教授贾佳亚团队提出多模态模型Mini-Gemini:Mini-Gemini还提供了2B小杯到34B的超大杯,最强模型在多个指标上相比谷歌的Gemini Pro甚至GPT-4V都不遑多让。
啥?AI都能自己看电影大片了?贾佳亚团队最新研究成果,让大模型直接学会了处理超长视频。丢给它一部科幻大片《星际穿越》(片长2小时49分钟):它“看”完之后,不仅能结合电影情节和人物轻松对电影进行点评:还能很精准地回答出剧中所涉的细节:例如:虫洞的作用和创造者是谁?男
ControlNet作者新作,玩儿得人直呼过瘾,刚开源就揽星1.2k。用于操纵图像照明效果的IC-Light,全称lmposing Consistent Light。
CV大神何恺明,也来搞扩散模型(Diffusion Model)了!大神最新论文刚刚挂上arXiv,还是热乎的:解构扩散模型,提出一个高度简化的新架构l-DAE(小写的L)。
比斯坦福DPO(直接偏好优化)更简单的RLHF平替来了,来自陈丹琦团队。该方式在多项测试中性能都远超DPO,还能让8B模型战胜Claude 3的超大杯Opus。而且与DPO相比,训练时间和GPU消耗也都大幅减少。这种方法叫做SimPO,Sim是Simple的简写,意在突出其简便性。
造大模型的成本,又被打下来了!这次是数据量狂砍95%的那种。陈丹琦团队最新提出大模型降本大法——数据选择算法LESS, 只筛选出与任务最相关5%数据来进行指令微调,效果比用整个数据集还要好。指令微调正是让基础模型成为类ChatGPT助手模型的关键一步。
斯坦福吴佳俊团队与MIT携手打造的最新研究成果,让我们离实时生成开放世界游戏又近了一大步。从单一图像出发,在用户的实时交互下生成无限延展的3D场景:只需上传一张图片,就能踏入一个由AI创造的虚拟世界。
“绝不是简单的抠图。”ControlNet作者最新推出的一项研究受到了一波高度关注——给一句prompt,用Stable Diffusion可以直接生成单个或多个透明图层(PNG)!