袁进辉获近亿元天使+轮融资;接棒汤晓鸥,上海AILab主任周伯文探索AI-45°Law;8人6个月从0开发GPT4o丨AI情报局
融资快报
硅基流动完成近亿元天使+轮融资:硅基流动是一家专注于AI Infra(AI基础设施)领域的创业公司,成立于2023年8月。创始人袁进辉是前OneFlow创始人及CEO,曾任微软亚洲研究院主管研究员,获得微软亚洲研究院院长特别奖。本轮融资由某知名产业方领投,跟投方包括智谱AI、360和水木清华校友基金等知名企业及机构,老股东耀途资本继续超额跟进,华兴资本担任独家财务顾问。
AI法律独角兽Harvey收购失败,估值缩水:此前Harvey正寻求以至少 20 亿美元的估值融资 6 亿美元,计划利用部分资金收购成立25年的法律研究公司 vLex。但以收购告终,本轮融资也缩水。据两位参与投资的人士透露,Harvey目前预计将在由谷歌母公司 Alphabet 旗下投资机构 GV 领投的一轮融资中筹集约 1 亿美元。
傲鲨智能完成数千万元A+轮投资:傲鲨智能是一家基于外骨骼技术平台的机器人科技公司。公司主要服务B端工业市场提供外骨骼机器人产品和配套解决方案。A+轮融资由敦鸿资产领投。 融资资金将用于加速傲鲨智能“千元级外骨骼”及“具身智能”通用人形机器人与外骨骼结合形态的初步产品发布。
国帆科技完成2600万人民币A轮融资:国帆科技是一家互联网软件开发服务商,该公司旗下拥有抖付通等品牌。本轮融资由字节资本领投。资金将用于加强技术研发推动云计算、大数据、人工智能等技术的创新和应用等方面。
Prodia获1500万美元融资:Prodia 是一个由 GPU 分布式网络驱动的人工智能推理平台,利用Web3基础设施,以极低的成本提供可扩展的高性能计算资源。本轮融资由Dragonfly领投。
Bitmagic获400万美元融资:Bitmagic是芬兰一家人工智能游戏平台,可将提示转化为完全互动的多人 3D 游戏,简化了游戏开发,无需编码技能,可通过 Steam Playtest 免费下载。本轮融资由Supercell、Sisu Game Ventures、Zak Phelps、Maarten De Koning、Korea Investment Partners 投资。
Vide获300万美元种子轮融资:Vida是美国企业级AI语音解决方案提供商,本轮融资由Stillmark领投。
Hypertype 获 60万欧元融资:Hypertype是一家瑞典营销科技初创公司,专注于通过人工智能自动化和简化客户支持和销售人员与客户的沟通。融资由 Butterfly Ventures 和 Bust 的领投,将用于扩大其 AI 服务的市场份额。
OpenFi 获50万英镑种子资金:OpenFi 是一家专注于对话式人工智能的公司,获得了来自 Bijan Morvaridi、Fortune Green Capital Ltd 和 Foundation Ventures Ltd 的投资。OpenFi 的 SalesTalkAI 通过 WhatsApp、电子邮件和社交生成人类对话。 SalesTalkAI 使用自然语言对话式 AI 来过滤、筛选和培养潜在客户。
Cartken 宣布筹集2250万美元融资:Cartken 是一家专注于机器人自主导航技术的初创公司,该公司的技术不受特定环境限制,能够在多样化的环境中运作。这次投资由 468 Capital 领投,其他参与投资的机构包括 Incubate Fund、LDV Partners 和 Vela Partners,以及全球性的移动技术领导者如 Magna International、三菱电气、Shell Ventures 和 Volex。
Gendo 获110 万美元融资:Gendo 是一个专为建筑师设计的生成式 AI 平台,它能够将 2D 绘图、草图或文本提示转换成复杂、逼真的可视化。
若创科技获硅谷VC美元投资:原大疆光电部负责人洪小平成立深圳若创科技。洪小平曾在伯克利获得物理学博士学位,并在霍尼韦尔担任高级科学家,后在大疆主导光电模块及激光雷达产品的研发和生产。他是大疆的核心研发人员之一,与公司共同申请了 187 项专利。新公司的业务方向为低速机器人。
瑞士 SaaS 平台 Squirro收购Synaptica:Squirro是一家位于瑞士的企业 SaaS 平台,专注于生成式 AI、搜索和业务洞察, Synaptica是美国企业分类管理和知识图谱系统 SaaS 提供商。这次收购的目的是将 Synaptica 的强大语义图技术与 Squirro 的尖端生成式 AI 功能相结合,形成一个强大的平台,用于知识发现、对话搜索和业务流程自动化。
(欢迎添加微信AIyanxishe2,了解更多AIGC、融资情况,与志同道合的朋友一同畅聊时新AI产品)
国内情报:
周伯文接任汤晓鸥,以上海AI Lab主任身份发表WAIC演讲:
周伯文在 WAIC 2024 全体会议上以上海 AI 实验室主任身份发表演讲,提出了人工智能 45° 平衡律(AI-45° Law),强调从长期视角确保 AI 安全与性能的平衡发展。他指出,当前 AI 发展存在失衡,性能提升远超安全性,导致了所谓的 “Crippled AI” 现象。为了解决这一问题,周伯文提出了可信 AGI 的 “因果之梯”,分为三个阶段:泛对齐、可干预和能反思,旨在逐步提升 AI 的安全性和可信度。他还强调了 AI 安全的全球性公共利益,呼吁国际社会共同推进 AI-45° 平衡律的实现。
Kimi论文自曝推理架构,80%流量都靠它:
月之暗面和清华 KVCache.ai 团队发布论文,揭示了 Kimi 大模型背后的推理架构 Mooncake,该架构采用分离式设计,通过 KV 缓存优化和分布式系统结构,以及基于预测的早期拒绝策略,有效提高了推理服务性能,能够承担 80% 以上的流量。
中国首款全尺寸通用人形机器人开源公版机“青龙”发布:
“青龙”身高 185cm,体重 80kg,全身拥有 43 个主动自由度,关节峰值扭矩最大 400N・m,算力支持 400TOPS。拥有高度仿生的躯干构型、拟人化的运动控制,支持多模态机动 / 感知 / 交互 / 操控。其同时具备高机动下肢行走配置、轻量化高精度上肢作业配置,支持快速行走、敏捷避障、稳健上下坡、抗冲击干扰四大运动功能。“青龙”由人形机器人(上海)有限公司自研,已获批省部级上海人形机器人制造业创新中心,并于 2024 年 5 月由工业和信息化部授牌国家地方共建人形机器人创新中心。
阶跃星辰发布Step-2等三个模型,主打多模态能力:
Step-2 是一个拥有万亿参数的 MoE 模型,目前处于申请体验阶段。Step-1.5V 展现了在图片和视频理解方面的非凡才华,推动了视觉艺术的边界。Step-1X 则以其 DiT 架构的灵活性,表现出对中国文化元素的深刻理解,实现了东方美学与现代科技的完美融合。
摩尔线程升级夸娥智算集群到首个国产全功能GPU的万卡规模集群:
国产GPU公司摩尔线程宣布其人工智能旗舰产品夸娥(KUAE)智算集群解决方案实现重大升级——从千卡扩展至万卡规模。总算力超过10EFLOPS,目标是做到有效计算效率超过60%、稳定性达99%,能支撑万亿参数级大模型训练。
商汤发布可控人物视频生成大模型Vimi,实现分钟级视频:
商汤科技打造的首个面向C端用户的可控人物视频生成大模型VImi。Vimi基于商汤日日新大模型的强大能力,仅通过一张任意风格的照片就能生成和目标动作一致的人物类视频,并支持多种驱动方式,可通过已有人物视频、动画、声音、文字等多种元素进行驱动。
网易伏羲发布机器人品牌“灵动” 推出“易生诸相”多模态大模型:
灵动由网易伏羲依托自主研发的工业级大型模型和AOP技术理念精心打造,旗下推出的两款旗舰产品——挖掘机器人和装载机器人,已经在超过50个省级重点项目中投入使用,服务于矿山、港口、搅拌站、学校等多样化的应用环境。网易伏羲还展示了其最新研发的“易生诸相”多模态大型模型,以及名为“丹青约”的多模态智能体助手。
腾讯云发布全新自研大数据高性能计算引擎Meson:
通过软硬一体加速和智能技术的综合应用,该引擎能显著为AI等场景下的大数据任务提供更优的计算性能,并节省更多计算资源。比如,在数据湖场景下,Meson能够助力单个数据查询分析提速6倍,在微信读书“AI问书”项目中,Meson助力大数据任务节省了9成的资源消耗。
腾讯混元DiT升级,推出6G小显存版本,支持Kohya训练:
腾讯混元文生图大模型(混元DiT)宣布开源小显存版本,仅需6G显存即可运行,对使用个人电脑本地部署的开发者十分友好,该版本与LoRA、ControlNet等插件,都已适配至Diffusers库;并新增对Kohya图形化界面的支持,让开发者可以低门槛地训练个性化LoRA模型;同时,混元DiT模型升级至1.2版本,在图片质感与构图方面均有所提升。
Agent再升级!昆仑万维、智源等联合发布计算机控制框架 “Cradle”:
这一AI框架使智能体无需特别训练,直接像人一样控制键盘和鼠标,与任意开闭源软件进行交互,不依赖任何内部API。Cradle是首个能够同时玩转多种商业游戏和操作各类软件应用的AI框架,其论文、项目和代码均已开源。在具有挑战性的benchmark OSWorld上击败了使用真值标签的基线方法。
北京计划2025年智算供给规模达45EFLOPS,两年打造AI原生城市:
北京市经济和信息化局总经济师、数字经济专班执行长唐建国表示:“北京市明确提出,到2025年本地智算供给规模达到45EFLOPS,形成北京市内东西南北四个亿级以上算力中心,构建‘京津冀蒙’算力供给走廊,为人工智能大模型的训练和推理应用提供高效的算力供给。同时,推出一系列人工智能商业场景,预计利用两年时间打造AI原生城市。”
李彦宏称没有应用,基础模型一文不值,商业化闭源模型最能打:
百度创始人、董事长兼首席执行官李彦宏谈及2023年国内出现了百模大战,造成了社会资源的绝大浪费,但也使得国内追赶世界上最先进的基础模型能力得到建立。李彦宏强调闭源模型的优势,称激烈竞争环境下,商业化闭源模型最能打。另外,没有应用,基础模型一文不值。同时他称智能体是最看好的AI应用方向。最简单的AI应用开发就是智能体,未来将会有数百万量级的智能体出现,而搜索是智能体分发的最大入口。
他还指出要避免掉入“超级应用陷阱”,认为一定要出现一个10亿DAU的APP才叫成功,这是移动时代的思维逻辑。AI时代,规律可能不是这样的,“超级能干”的应用比只看DAU的“超级应用”更重要,只要对产业、对应用场景能产生大的增益,整体价值就比移动互联网要大多了。
商汤科技 CEO 徐立称AI 行业很热但未到“超级时刻”,需要应用来支撑:
商汤科技董事长兼 CEO 徐立指出,当前 AI 行业确实很热,但“还没有到一个超级时刻”—— 因为 AI 暂未真正走进行业垂直应用,或引起广泛变化。当下的大模型只是一个“记忆器”,只是背下了所有的知识点,仅有的一点点智能其实是来自互联网上的数据背后带有的一个“高阶逻辑思维链”。在谈到“超级时刻”时徐立补充说,超级时刻和应用是相互成就的。“超级时刻”带来认知变化,才能推动应用。如果有应用来支撑,那么当下就是“超级时刻”。“就像 iPhone 一样,因为有了平台,后面才有 App Store 的生态。所以我想,这个时代是否是 AI 的超级时刻,一个关键就在于应用。”
丘成桐称人工智能要重视上游的基础学科:
菲尔兹奖首位华人得主丘成桐表示,“人工智能的上游、中游、下游要同步做,上游(基础学科)要领导,中、下游要帮忙,中国尤其要重视上游的工作。”
中国移动董事长杨杰称擅长使用 AI 的人将替代不会使用 AI 的人:
杨杰表示:“AI 到底是人类的助手还是对手、是机遇还是威胁,已经成为全社会共同的话题。我个人认为,AI 不会取代人类智能,但是会重构很多行业和领域,擅长使用 AI 的人将会替代不会使用 AI 的人。”
华为云 CEO 张平安称中国的 AI 应追求在行业领域构筑大模型的全球领先地位:
华为常务董事、华为云 CEO 张平安表示,中国的 AI 发展离不开算力基础设施的创新,并且要敢于开放行业场景,让 AI 在行业应用上领先。张平安提出,中国的 AI 发展道路,追求的应该是在行业领域构筑大模型的全球领先地位。如果各行各业都积极拥抱 AI,积极地开放行业的业务场景,中国很有机会在 2B 领域构筑起全球的领先优势。
国际情报:
抢跑OpenAI发布语音助手,法国Kyutai实验室演示自带70种情绪AI:
法国开源AI研究实验室Kyutai发布实时语音多模态模型Moshi,具备看、听、说等功能。该实验室的八人研究团队耗时六个月从零开始开发。Moshi对标OpenAI GPT-4o,可以听取人的语音提问后进行实时推理回答内容,能够以 70 种情绪和风格进行交流,并且可以在 Kyutai 的网站上进行免费的交互式演示。Kyutai 计划公开 Moshi 模型的代码和权重。
特斯拉二代人形机器人Optimus亮相WAIC,行走速度提升30%:
2024世界人工智能大会上,特斯拉二代人形机器人Optimus正式亮相。特斯拉介绍,二代Optimus在直立行走的基础上,行走速度提升了30%;其手指还“进化”到除了感知和触觉,可以在轻握鸡蛋和搬运重物时做到“游刃有余”。近期二代 Optimus 已经在特斯拉工厂尝试“打工”。借助视觉神经网络和 FSD 芯片,二代 Optimus 可以模仿人类操作,进行电池的分拣训练。
macOS 版 ChatGPT 被指以纯文本存储 AI 对话,OpenAI 紧急更新修复:
开发者Pedro Vieito在Thread平台发布动态,表示 macOS 版 ChatGPT 应用会以纯文本方式在计算机上存储用户对话,可能被恶意行为者访问。OpenAI 公司回应称已更新其应用,对存储在 Mac 设备上的聊天记录进行了加密处理。
微软更新支持文档,鼓励开发者为 Win11 开发 AI 应用:
微软公司更新了支持文档,鼓励开发者在 Windows 11 系统中充分利用 AI 功能,打造优质应用程序。文档介绍了相关专业术语和内容,推荐开发者使用 OnnxRuntime 等框架来使用本地或者云端的 AI 模型,除了 C++ 和 Python 之外,还推荐使用 C# 开发 Windows 应用程序。同时,微软提醒开发者要注意数据隐私和安全问题,鼓励公开数据收集情况,用户应对数据拥有控制权。
Perplexity AI发布 Pro Search,提升问题解决与代码执行能力:
新版Pro Search不仅能处理更复杂的查询,还具备多步推理能力,能执行高级数学和编程计算,提供更全面的调研结果。通过整合Wolfram|Alpha引擎,Pro Search在解决复杂数学问题方面的准确性和速度得到显著提升。所有用户每四小时可免费使用Pro Search五次。Perplexity Pro订阅者则享有几乎无限制的每日使用权限。
Cloudflare 推出一键阻止AI机器人网络爬虫的新方法:
Cloudflare发布了新的免费工具,用于防止 AI 机器人爬取其托管网站的数据,以训练 AI 模型。Cloudflare 通过分析 AI 机器人和爬虫的流量,优化了自动机器人检测模型,以便更准确地识别和标记那些试图模仿浏览器使用者行为以逃避检测的 AI 机器人。此外还设立了一个表单,供主机商报告可疑的 AI 机器人和爬虫,并承诺随着时间的推移不断手动将 AI 机器人列入黑名单。
ElevenLabs发布消音神器VOICE ISOLATOR,可去除音频中的背景噪音:
VOICE ISOLATOR不仅能消除不需要的背景噪音,还能从任何音频中提取出清晰的对话,让播客、采访或电影听起来就像在专业录音室录制的一样。它的Extract vocals功能可以增强人声,同时清除街道噪音、麦克风杂音以及其他任何不需要的背景噪音。
三星放缓汽车半导体开发,专注于人工智能芯片:
三星负责芯片设计的系统LSI部门正在进行业务和组织重组,将优先发展AI芯片。此次从事汽车处理器“Exynos Auto”开发的的人员已在该部门内重新分配到AI系统级芯片团队,该团队现在是三星设计工作的重点。目前,该部门集中了100-150名专门设计人员,致力于AI芯片设计。
一开发者在 Google Drive 上运行了整个操作系统:
普渡大学计算机科学专业学生 Sambhav S. 完成了一项创新的技术项目,该项目能够让完整的 Linux 发行版直接从 Google Drive 启动。他利用 FUSERAM 磁盘技术,在 Linux 启动过程中直接从 Google Drive 加载操作系统的关键组件、应用程序和网络二进制文件。最终成功地在一台没有本地存储空间的备用笔记本电脑上启动了这个系统。虽然速度较慢,权限和属性也受到影响,但仍然可用。Sambhav 认为这种技术可能有实际应用,比如从 Git 仓库或 SSH 连接启动环境,甚至可能让公司完全依赖云技术而不是硬件存储。
IBM公布其完整的6.48 TB LLM训练数据集:
这个数据集经过严格的预处理后,缩减为2.07TB,减少了68%。对于确保高质量、无偏见、符合伦理和法律的数据集,以满足企业应用场景需求至关重要。数据集由多个来源精心策划而来,包括 arXiv、Common Crawl、DeepMind Mathematics、Free Law、GitHub Clean、Wikimedia 等。IBM 发布了四个 Granite 代码模型的版本,参数范围从30亿到340亿。
比尔盖茨称现在对AI的狂热远超互联网泡沫:
盖茨曾预言每个办公桌上都会有一台电脑,现在他又预言每个人的耳边都将配备一个人工智能助手。他指出,目前对人工智能的狂热远超过去互联网泡沫时期,进入人工智能领域的门槛非常低,资本正在以前所未有的速度涌入这个新领域。虽然谷歌和微软等大公司在人工智能领域拥有大量资本,但这并没有阻止其他公司在基础能力或垂直领域的发展。人工智能技术在全球经济中所占的份额虽然相对较小,但其潜力巨大,即使是小型机构也能借助这些工具与大型机构竞争,并提供更优质的服务。
更多国际情报:
谷歌母公司 Alphabet CEO 皮查伊减持公司股票,套现超 420 万美元:皮查伊本次出售股票是根据预先制定的 10b5-1 交易计划进行的,此类计划允许公司内部人士在预定时间出售股票,以避免因利用内幕信息交易而受到指控。
Google AI Overviews新研究,SE Ranking的全新发现:Google 的 AI Overviews 功能仅出现在 8.71%的 SERPs 中,用于 100K 关键词,比之前的 64%有了显著的下降。具有更多单词、较低搜索量和较低 CPC 的用户查询更有可能触发 AI 生成的回应。
Alphabet将放弃其矿业机器人农业初创公司Mineral:这是由于激烈的行业竞争和微薄的利润率。Mineral 曾是 Google 的 X 实验室的一部分,该实验室也是 Google 眼镜和 Waymo 自动驾驶汽车部门的孵化器。
谷歌等科技巨头承认AI可能会损害其业务:在他们提交给美国证券交易委员会的年度财报中,谷歌母公司 Alphabet 指出,AI 产品和服务可能会引发道德、技术、法律、监管等挑战,影响品牌形象和市场需求。Meta、微软和甲骨文也提到生成式 AI 带来的错误信息传播、有害内容滋生、知识产权侵犯和数据隐私泄露等问题。
联合国报告称中国生成式AI专利申请量世界第一:据联合国保护知识产权机构数据显示,中国在人工智能发明方面申请的专利数量是美国的六倍。
任天堂反对在游戏中使用生成式AI:任天堂总裁古川俊太郎认为 AI 侵犯知识产权,生成式 AI 制作的内容缺乏个性化与任天堂注重的原创性和创造力不符。
Zepp Health推搭载GPT-4o的 Zepp OS 4 智能手表操作系统:Zepp OS 的主界面允许用户通过自然语言交互来控制设备。用户可以通过说出指令来管理设置、回复 WhatsApp 等应用程序的消息,并发起蓝牙电话。
苹果中国官网上线iOS 18介绍页面,全程未提AI:由于技术限制及政策考量,ChatGPT与Apple Intelligence在中国市场暂时无法提供服务,这也直接导致了iOS18中的AI功能在国内的缺席,从而未在官网介绍中占据一席之地。
Product Hunt 热榜, AI驱动的知识库Ariglad
Ariglad是一款创新的AI工具,专注于自动化知识库的创建和更新。它能够无缝整合来自Zendesk、支持票据和Slack等多个渠道的信息,为企业提供一站式的帮助中心解决方案。通过分析海量数据,Ariglad已生成超过30,000条建议,处理了500,000多张支持票据。
这款工具简化了知识库的维护过程,确保了信息的实时更新和安全性(获得SOC2认证)。通过自动识别知识空白、整合产品更新和利用Slack对话,Ariglad帮助企业节省时间成本,同时提高客户满意度。在当今81%的客户倾向于自助寻找答案的背景下,Ariglad为企业提供了维护高质量、始终最新的知识库的有力工具。
?https://www.ariglad.com/?ref=producthunt
GitHub Trending 热榜,一键视频翻译+配音工具pyVideoTrans
通过简单操作实现视频语音识别、字幕翻译+配音,生成带有字幕+配音的新视频(把视频从一种语言翻译成另一种语言并配音);支持自动视频翻译,集成faster-whisper模型,支持自定义huggingface模型; 集成批量处理工具,批量语音转字幕、批量字幕翻译和批量配音;支持多种配音和翻译渠道,如edgeTTS、AzureTTS、OpenAiTTS、Elevenlabs、Google、ChatGPT、DeepL、Gemini等;翻译渠道替换为本地模型,配音渠道替换为clone-voice,即可实现完全本地离线视频翻译
?https://pyvideotrans.com/
开发者推荐
1.Widgera:无代码网站开发新选择
Widgera是一款新兴的无代码网站和应用开发平台,专为初创企业和中小企业打造。该平台目前处于Alpha 0.0.11阶段,提供拖放式界面和高度定制化功能,无需编码或设计技能即可创建强大的网站和应用。
Widgera的核心优势在于其简便性和灵活性。用户可轻松添加电子商务、预订等功能,并享受内置支付系统。平台还运用动态界面个性化技术,根据用户行为调整内容。目前Widgera免费使用,计划在2024年11月推出Beta版本后采用每月29美元的定价模式。
?https://widgera.com/?ref=producthunt
2.AI驱动的开源测试工具Mutahunter
Mutahunter是一款基于大型语言模型的突变测试工具,引起开发者关注。这个开源项目支持多种编程语言,通过AI生成上下文相关的错误注入,模拟真实世界的软件漏洞。其特点包括自托管选项、与Tree-Sitter的集成,以及详细的覆盖率报告生成。
该工具旨在提高代码质量并增强开发流程,其实际效果和在不同开发环境中的适用性仍有待进一步验证。
?https://github.com/codeintegrity-ai/mutahunter?utm_source=uwl.me
前沿技术
1.港大字节开源自回归文生图模型LlamaGen,图像生成如此简单:
LlamaGen在GitHub上获得了近900颗星标的认可。在ImageNet测试基准上,LlamaGen的表现超越了LDM、DiT等扩散模型。LlamaGen的技术实现基于几个关键设计原则:图像压缩/量化器、可扩展的图像生成模型,以及高质量的训练数据。研究团队采用了与VQ-GAN相似的CNN架构,将连续图像转化为离散Token,并在两个阶段的训练过程中,显著提升了图像的视觉质量和分辨率。
?项目地址:https://top.aibase.com/tool/llamagen
?在线体验地址:https://huggingface.co/spaces/FoundationVision/LlamaGen
2.首个开源、原生多模态生成大模型Anole,破图文交互:
上海交通大学 GAIR 团队开发了全球首个完全开源、自回归、原生的多模态大模型 Anole,它能够通过纯 "token" 自回归预测实现文字与图像的生成。Anole 基于 Meta AI 的 Chameleon 模型,通过精心构建的约 6,000 张图像数据集进行微调,实现了出色的图像生成和理解能力。该模型不仅能够生成图像并附带相关文本描述,还能够根据文本生成图像,并且在初步测试中表现出卓越的能力,能够产生高质量的图像和交错的文本 - 图像内容,与用户提示密切吻合。GAIR 团队已经对 Anole 项目进行了全方位开源,提供了模型微调代码、权重转换代码、推理代码、以及用于微调的 5k + 图片,以及详细的使用教程,旨在帮助研究人员更容易上手和实验。
?https://gair-nlp.github.io/anole
3.InstantStyle-Plus: 文本生图的风格革新
InstantStyle-Plus是一项由Haofan Wang团队开发的创新技术,旨在解决文本到图像生成中的一个关键挑战:如何在转换视觉风格的同时保持原始内容的完整性。这项技术巧妙地将风格迁移任务分解为风格、空间结构和语义内容三个核心元素,通过轻量级处理实现高效的风格注入。
该技术的独特之处在于其多方面的创新:使用反转内容的潜在噪声和可插拔的Tile ControlNet保持原始布局,集成全局语义适配器提高语义保真度,并采用风格提取器作为判别器提供额外的风格指导。尽管目前仍处于预实验阶段,InstantStyle-Plus已展示出在实际应用中的巨大潜力,为未来的图像生成和风格迁移技术开辟了新的可能性。
?https://instantstyle-plus.github.io/?utm_source=uwl.me
4.Magic Insert: 跨风格图像融合的魔法师
Magic Insert允许用户将任意风格的图像主体无缝融入到风格迥异的目标图像中,同时保持主体的原有风格和真实感。它通过巧妙地结合风格感知个性化和对象插入两大技术,克服了传统图像合成方法的局限。
该技术的核心在于其独特的两步流程:首先,利用LoRA和学习到的文本令牌对预训练模型进行微调,实现风格感知个性化;其次,通过引导领域适应技术,将专门的对象插入模型应用于多样化的艺术风格。
?https://magicinsert.github.io/
5.书生浦语:开源 InternLM 2.5 系列模型
InternLM/InternLM 是一个公开的 GitHub 仓库,最近发布了 InternLM2.5 版本,其中包括 7B 参数规模的基础和聊天模型。这个版本具有 1M(10^6)的上下文支持能力,这意味着模型能够处理大量的文本输入,适用于复杂的自然语言处理任务。
?https://github.com/InternLM/InternLM/
大牛洞见
OpenAI 联合创始人 Andrej Karpathy 解释了新的计算范式
“我们正在进入一个新的计算范式,大语言模型就像CPU一样,使用Token而不是字节,并且有一个上下文窗口而不是RAM。这就是大语言模型操作系统。”
Andrej指出,人工智能领域在过去15年中经历了巨大的发展,从最初的学术研讨到现在的广泛应用,这种变化令人瞩目。尤其是大语言模型的兴起,彻底改变了计算的范式,使得计算不仅仅是处理字节,而是处理语言和上下文,这为人工智能的应用打开了新的大门。
他回顾了自己在OpenAI的经历,描述了公司从八个人在公寓里工作到如今成为市值近千亿美元的行业巨头的历程。通过一个个小项目的积累和发展,OpenAI最终实现了巨大的突破。Andrej特别强调了项目经验的重要性,很多看似不起眼的小项目最终可能会带来意想不到的巨大影响。
? https://www.youtube.com/watch?v=tsTeEkzO9xc
敬请期待明日的最新动态!
AI情报局征集情报合伙人,汇集独家价值线索!如果您可以提供有关AI最新成果&行业内幕&独特产品,请添加运营微信号:AIyanxishe2备注行业岗位。
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。