上海人工智能实验室发布书生·天际LandMark三维实景大模型
·全球首个千亿参数的NeRF三维实景大模型书生·天际LandMark可支持多项城市编辑功能。在演示中,武康大楼能够通过NeRF技术根据不同时段变换风格与光影效果;中华文化宫能够进行整体的旋转或不同分层的旋转。
·上海人工智能实验室首发书生通用大模型体系,包含多模态、浦语、天际3个基座模型,同时推出了首个面向大模型研发与应用的全链条开源体系。
7月6日,在2023世界人工智能大会(WAIC)科学前沿全体会议上,深度学习与计算机专家、上海人工智能实验室教授、香港中文大学教授林达华,发布了书生·天际LandMark三维实景大模型,并对其技术原理和功能应用进行了介绍。
林达华表示,书生·天际LandMark是全球首个千亿参数的NeRF三维实景大模型,由上海人工智能实验室、香港中文大学和上海市测绘院共同研发,能够将NeRF(Neural Radiance Fields,神经辐射场)光场建模的能力从物体级别拓展到城市级别。林达华表示,书生·天际LandMark的发布是对大模型的创新应用,“为未来我们实现城市级的AIGC(人工智能生成内容)提供了技术上的可能性。”
会上还首次发布了“书生通用大模型体系”(以下简称“书生大模型”),包括书生·多模态、书生·浦语和书生·天际等三大基础模型,以及首个面向大模型研发与应用的全链条开源体系。
书生通用大模型体系在2023世界人工智能大会上发布。
从一颗苹果到整座城市
“大模型除了生成文字,还能给我们一个更加充满想象的世界。”林达华表示,书生·天际LandMark利用NeRF技术,为大模型技术的应用提供了更多的可能性。
NeRF是一项新型三维光场建模技术,在2020年3月由谷歌研究团队首次提出,最初被应用于三维建模,且仅限于小型物体(一颗苹果大小)级别。“但我们认为NeRF技术不止于此。”林达华说 ,“我们的团队在2021年12月10日首次提出把NeRF光场建模的能力从一个小苹果的物体级别拓展到城市级别。这是全球首次将NeRF技术的能力从物体拓展到城市。他表示,在他们的研究团队提出城市级NeRF一段时间后,美国卡耐基梅隆大学(Carnegie Mellon University)和谷歌才陆续发布各自的城市级NeRF技术。
林达华团队在2021年12月10日首次提出把NeRF光场建模的能力从一个小苹果的物体级别拓展到城市级别。
“基于城市级NeRF这个核心技术,我们不断地去提升其扩展性和能力。”林达华介绍,书生·天际LandMark三维实景大模型基于研究团队的第二代的CT NeRF技术和算法,支持对全范围的高精度实时渲染,包含2000亿参数,覆盖100平方公里,实景中的每一个细节都支持4K高清分辨率。
实景三维是对一定范围内人类生产、生活和生态空间进行真实、立体、时序化反映和表达的数字空间。据介绍,书生·天际LandMark集算法、算子、计算系统为一体,在模型层面提出一种新的实景三维模型表征和训练范式,在高效训练的同时,可以准确表征大规模三维城市场景,并且达到高质量的神经渲染效果。其在高精度建模、高精度渲染、功能可扩展性、训练交互一体化四个方面取得领先。
书生·天际LandMark还可支持城市级编辑、风格化转换等功能。在演示中,武康大楼能够通过NeRF技术根据不同时段变换风格与光影效果;中华文化宫能够进行整体的旋转或不同分层的旋转。“这就为未来我们城市级的AIGC提供了一个技术上的可能性。”林达华说。
中华文化宫的各个部分可实现“旋转”。
林达华表示,“希望通过新的三维实景生成技术,为我们未来的城市空间注入全新的想象力和创新空间。未来,上海AI实验室将对书生·天际的建模范围和功能进行扩展,并对书生·天际的算法、算子和系统全部进行开源。”
首发书生通用大模型体系
会上,林达华还介绍了书生通用大模型体系,包含多模态、浦语、天际3个基座模型,同时推出了首个面向大模型研发与应用的全链条开源体系。其中多模态大模型有200亿参数,支持350万种语义的标签,在80+项任务世界领先;浦语大模型则是国内首个正式发布的千亿参数支持多语种的大模型。
“书生·浦语在全部维度上都超越了LLaMA-7B(Meta AI的FAIR团队开发的人工智能语言模型)。”林达华称,书生·浦语作为具有千亿参数的大模型,在各个维度上都超越了国内现有最好的开源模型。
今年6月7日,上海AI实验室与商汤科技联合香港中文大学、复旦大学和上海交通大学发布了“书生·浦语”大型语言模型。该模型参数量达到1040亿,是当前千亿级参数的大语言模型之一,基于一个包含1.6万亿Token的多语种高质量数据集进行训练。
据介绍,自6月正式亮相后,书生·浦语在一个月内进行全面升级,具体包括五个方面。第一,语境窗口的长度从2K提升到8K,这使其具备了理解长输入、展开复杂推理、以及进行长时间多轮对话的能力;第二,多语种和结构化表达能力进一步加强,新版模型支持20多种语言,还可通过表格和图表等方式汇总与呈现复杂信息;第三,多维度能力全面提升,在42个主流评测集上性能明显提升,在其中35个评测集上性能超越了ChatGPT;第四,数理逻辑能力明显进步,大幅提高了数值计算、函数运算、方程求解等数理能力,在数学评测集GSM8K上性能从62.9提高到73.2,在2023年高考数学选择题上,正确率提升超过70%;第五,安全与对齐能力显著增强,通过更有效的指令微调,包括基于人类反馈的强化学习(RLHF),新版模型可以更可靠地遵循人类指令,安全性也得到明显改善。
“所有大模型最终的价值依归,依旧是为生活和生产创造价值。上海人工智能实验室不仅通过创新实现技术突破,还致力于推动这些技术在具体行业落地。”林达华在会上说。
林达华表示,除了大模型本身,团队还同时开源了全链条的工具体系,涵盖了大模型开发过程中的数据、预训练、微调、部署和评测五大主要环节,“通过开源工具体系,可以让模型价值得到充分发挥。我相信开源能够真正地帮助到开发者们在大模型的基础上进行研发、创新。”
据介绍,正式开源的版本为一个70亿参数的轻量级InternLM-7B,在包含40个评测集的全维度评测中展现出卓越且平衡的性能,全面领先现有开源模型。
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。