给大模型制作图文并茂的教科书：从2.5年的教学视频里挖掘多模态语料

首页 > AI资讯 > 最新资讯 > 给大模型制作图文并茂的教科书：从2.5年的教学视频里挖掘多模态语料

给大模型制作图文并茂的教科书：从2.5年的教学视频里挖掘多模态语料

新火种 2025-02-09

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

近期关于 scaling law 的讨论甚嚣尘上，很多观点认为 scale law is dead. 然而，我们认为，高质量的 “无监督” 数据才是 scaling law 的关键，尤其是教科书级别的高质量的知识语料。此外，尽管传统的语料快枯竭了，但是互联网上还有海量的视频并没有被利用起来，它们囊括了丰富的多种模态的知识，可以帮助 VLMs 更好好地理解世界。

浙大和阿里巴巴达摩院联合提出一个图文交织的多模态知识语料：他们收集互联网上超过 22000 课时 (两年半) 的教学视频，提取关键步骤的画面和音频（转录成文本），组织成连贯、图文交织的格式，制作成数学，物理，化学等多个学科的图文教科书 (textbook)。基于这些 textbook，VLMs 可以像人类上课一样学习这些图文交织，由易至难的学科知识。

论文地址: arxiv.org/abs/2501.00958

Code: https://github.com/DAMO-NLP-SG/multimodal_textbook

Tags:

机器学习语料图文并茂

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

给大模型制作图文并茂的教科书：从2.5年的教学视频里挖掘多模态语料

AI早知道｜全球首个亿级参数量地震波大模型；面壁智能发布首个“端侧GPT-4o”模型

豆包实时语音大模型上线

港股异动|京东健康(06618)早盘涨超5%近日首发医疗大模型产品体系“AI京医”

商汤“日日新融合大模型交互版”开放商用，限时免费

商汤“日日新融合大模型交互版”开放商用限时免费

热门文章

联想AIPC全家桶接入DeepSeek，本地跑70B大模型，离线也能写总结

AI图像生成平台「LiblibAI」获数亿元融资

AI剧本风控项目启动天使轮融资

【VIP机会日报】机器人概念再度走强栏目追踪行业动态提及产业相关公司强势涨停

紫光国微：在特种集成电路业务方面强化业务能力、提升发展质量

联芸科技：我司已量产的商用产品暂未应用于无人驾驶

L3上路倒计时？工信部加快推进智能网联车规划产业基建+商业化迎来关键节点

资讯出海，扬帆起航正当时！

ChatGPT引爆“吉卜力”风格图像生成浪潮同时激发AI违法争议