沈向洋领衔的IDEA研究院披露最新成果：多模态大模型开箱即用、AI科研助手2.0上线

首页 > AI资讯 > 最新资讯 > 沈向洋领衔的IDEA研究院披露最新成果：多模态大模型开箱即用、AI科研助手2.0上线

新火种 2023-11-23

11月22日，2023 IDEA大会在深圳举行，IDEA研究院创院理事长、美国国家工程院外籍院士沈向洋登台演讲，披露了诸多技术进展。

“在大家都看到的问题里，找到大家都找不到的方法。”沈向洋在演讲中提及科研者的创新方向时谈到。他举例称，大模型做到今天，GPT4已经非常强大，但多模态仍然是一个没有解决的问题。

随后，沈向洋展示出最新的计算机视觉融合大模型的研究成果：视觉提示（visual prompt）模型T-Rex。其团队表示，在真实应用场景中，许多罕见、复杂物体难以用文字充分描述，视觉提示的加入能够有效解决这一痛点，直观的视觉反馈与强交互性，也有助于提升检测的效率和精准度。

T-Rex是一个开箱即用的模型，无需重新训练或微调，即可检测模型在训练阶段从未见过的物体。活动中，沈向洋还发布了T-Rex的模型实验室（playground），Interactive Visual Prompt（iVP），用户可试用“一图胜千言”的prompting体验。

图片来源：IDEA官方

沈向洋在演讲中指出，计算机视觉领域在呼唤通用大模型的来临。以GPT-4V为代表的多模态大模型，是在语言能力上增加视觉能力；IDEA研究院的计算机视觉团队则选择了另一条路径，先将基础的视觉能力做到极致，再增加语言能力。

“我们认为，物体级别的理解（object-level understanding），也就是检测、分割、识别，是连接语言和视觉这两种最重要的模态的基石。”沈向洋表示。

为了解决大模型如今的通病，即“一本正经的胡说八道”，IDEA研究院团队研发了Think-on-Graph（思维图谱）技术，让大模型和知识图谱联合。总体来说，大模型更擅长意图理解和自主学习；而知识图谱因其结构化的知识存储方式，擅长逻辑链条推理，具有更佳的可解释性与可实时更新性。

Think-on-Graph通过实现两者的紧耦合交互，驱动大模型agent在知识图谱上“思考”，逐步搜索推理出最优答案（在知识图谱的关联实体上一步一步搜索推理）。每一步推理中，大模型都亲自参与，与知识图谱相互取长补短。

近年来，技术创业已然成为许多技术创新者的下一站。在演讲中，沈向洋用Transformer架构开山之作《Attention is All You Need》举例，这篇论文的八名作者如今全部在创业。

沈向洋指出，IDEA研究院一直致力于创造一个架构，让科学家头脑、企业家素质、创业者精神能够自由碰撞，严谨产出。成立刚满三年，IDEA研究院也带来一批已经或正在走向大市场的创业项目。

这些项目中，有主打AI for Scientists的AI科研产品ReadPaper，也有为数据要素可信流通提供硬件级安全保障的SPU机密计算协处理器、SPU-G异构AI协处理器，还有基于自研知识图谱与生物医学领域大模型的脑卒中智能防护产品StroCare。

其中，AI科研助手ReadPaper上线一年，在大会上，团队发布了升级的ReadPaper 2.0版本，并现场演示阅读copilot、润色copilot等新功能，其中，支撑ReadPaper 2.0体验的学术大模型Eureka也在现场首次公开。

图片来源：IDEA官方

IDEA研究院是沈向洋卸任微软全球执行副总裁之后的新事业，在从微软退休的告别信中，沈向洋曾写到在告别信中写道：在人生的这个阶段，我觉得，已经是时候去思考为产业、为下一代计算科学领域的研究员和工程师们，还能多做些什么。

2020年，沈向洋在深圳成立了 IDEA 粤港澳大湾区数字经济研究院，在一次公开活动中，沈向洋曾谈及成立IDEA的初衷：

经常有人问我，我们IDEA是一群人特别年轻的人，在这里想做什么。我们有自己的愿景，我们希望通过我们的努力创新智能技术，创造伟大企业，推动数字经济发展。这是我们想做的事情，我们定位非常清晰，希望做出来的技术能够为社会、为经济、为发展起到我们的一些作用和力量。

Tags:

语音识别研究院上线

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。