中信证券:谷歌Gemini模型发布,AI进入多模态时代
近日,谷歌宣布发布新一代大模型Gemini,再次引发市场对人工智能产业的持续关注。Gemini模型作为谷歌以及全球范围内最先发布的多模态模型,在性能上是第一个在MMLU上超越人类专家的模型。模型根据体量大小分为Gemini Ultra、Gemini Pro、以及Gemini Nano三个版本,支持在云端以及边缘测运行。同时谷歌同步发布最新版本的计算芯片TPU v5p,相较上一代TPU v4性价比提升2.3倍。我们认为,多模态Gemini模型的正式发布,一方面可以拓宽应用场景的拓展,另一方面能够带来算力需求的持续升级。我们持续看好后续AI产业的前景,认为后续GPT-5等模型的发布亦将带来更多的催化。
产品发布:多模态模型Gemini、TPU v5p等新品发布。
近日,谷歌进行新一轮的产品发布,包含AI软件及计算硬件等领域。模型层面,谷歌发布了最新的多模态模型Gemini,基于TPU进行训练,可以概括和无缝地理解、操作和组合不同类型的信息。模型包括Ultra、Pro、Nano三个版本,能够在从数据中心到移动设备的所有设备上高效运行。TPU亦更新至v5p版本,与上一代 TPU v4 相比,性价比提高了 2.3 倍。
Gemini:实现多模态,性能得到大幅提升。
根据谷歌披露,Gemini是基于Transformer decoder构建的多模态模型,其性能较原有的单一模型更为全面,支持32K的contex长度。根据公司披露,Gemini Ultra 在大型语言模型 (LLM) 研发中使用的 32 个广泛使用的学术基准中的 30 个方面,其性能超过了当前最先进的结果。Gemini Ultra 的得分为 90.0%,是第一个在 MMLU(大规模多任务语言理解)方面优于人类专家的模型,横向对比来看多个任务性能超过GPT-4。在公司披露的技术文档中,Gemini能够实现图标理解与格式转换、基于图片的多个问答、文生图、图片理解与推理、几何问题求解、图片信息关联、基于图片以及提示词的问答、梗图理解、图片逻辑解释、代码生成、数学问题求解、表格转换及计算、复杂图片生成、视频理解等功能。
训练方法:基于TPU v5e及v4训练,数据集类型更为丰富。
Gemini的预训练数据集使用来自web文档、书籍和代码的数据,包括图像、音频和视频数据,并通过筛选、过滤方式去除有害数据,提升数据质量。硬件层面,采用了谷歌的TPU v5e及v4训练,并针对任务进行优化,训练的硬件规模相较上一代的PaLM-2显著提升。后续来看,预计谷歌将继续推出更高级的TPU v5p,进一步提升训练效果。
后续展望:持续关注在谷歌体系内的导入进展,以及GPT-5等多模态模型进展。
谷歌在发布会上表示,目前,Gemini的初始版本已在Bard(12月6日)中提供,开发人员版本将于12月13日通过Google Cloud的API提供。根据谷歌的计划, Bard 将使用 Gemini Pro 的微调版本进行更高级的推理、计划、理解等。谷歌还将 Gemini 引入 Pixel,Pixel 8 Pro 是第一款搭载 Gemini Nano 的智能手机。在接下来的几个月里,Gemini 将出现在谷歌体系内更多产品和服务中,如搜索、广告、Chrome 和 Duet AI。在当前的搜索场景中,Gemini能够降低大约40%的延迟。对整个产业来讲,谷歌产品化、商业化的推进亦将带来行业整体的变化,同时伴随GPT-5等模型的推出,我们预计将看到:1)多模态模型带来的算力需求增长以及 2)越来越多的AI场景与产品的出现。
风险因素:
AI核心技术发展不及预期风险;科技领域政策监管持续收紧风险;全球宏观经济复苏不及预期风险;宏观经济波动导致欧美企业IT支出不及预期风险;全球云计算市场发展不及预期风险;企业数据泄露、信息安全风险;行业竞争持续加剧风险等。
投资建议:
短期来看,Gemini的发布将进一步带来对多模态模型的更多期待,对产业而言,多模态料将带动算力需求的提升;而在中长期来看,预计多模态模型的升级将丰富相关产品的使用场景,叠加硬件升级、算法优化带来的成本优化,2C产品的进展值得期待。我们持续看好本轮生成式AI浪潮对科技产业的长周期影响和改变,继续关注算力、算法、数据、应用等环节的领先厂商。
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。