性能超GPT

首页 > AI资讯 > 最新资讯 > 性能超GPT

新火种 2023-12-07

界面新闻记者 | 李京亚

OpenAI空前崛起之际，谷歌毅然打响了绝地反击战。

北京时间12月7日凌晨，谷歌CEO桑达尔・皮查伊和Deepmind CEO戴密斯·哈萨比斯在谷歌官网联名发文，官宣了最新多模态大模型Gemini 1.0（双子星）版本正式上线。这个上线时间早于外界猜测的明年1月，保密程度很高，仅有少数媒体提前猜出。

Gemini 1.0是谷歌筹备了一年之久的GPT4真正竞品，也是目前谷歌能拿出手的功能最为强悍、适配最为灵活的大模型，包括三种不同套件，分别是Gemini Ultra, Gemini Pro和Gemini Nano。其中Ultra的能力最强，复杂度最高，能够处理最为困难的多模态任务；Pro能力稍弱，是一个可扩展至多任务的模型；Nano则是一款可以在手机端侧运行的模型。这说明，Gemini的触达范围很广，可以下探至数据中心，也可以上行至移动设备端侧。

谷歌的Bard聊天机器人，此番也已经升级到了Gemini，可以说Gemini的初始版本已于今日开始在Bard中提供。从5月的I/O大会之后，谷歌就将自己此前最强的人工智能模型PaLm 2融入了Gemini的能力之中。

在一段公布的演示视频中，桑达尔・皮查伊展示了Gemini对视频、图像的非同凡响的识别能力。在视频中，Gemini极为自如地在图像、音频、视频各模态之间的转换，展现了惊人的解锁应用场景与产品形态的潜力。

图源：谷歌演示视频

仅从谷歌释出的演示视频结果看，市面上现有的全部多模态大模型与Gemini的性能表现都有代际差，包括Meta 5月开源的跨6个模态的AI模型ImageBind以及GPT-4。

图源：谷歌

今年4月开始，随着多模态技术不断升级，以及叠加模型调用成本等性能的优化，GPT4及国内外一众模型持续迭代，实现了跨模态性能的不断增强。一时间，多模态大模型呈百花齐放之势。但有国内头部大模型初创开发工程师对界面新闻记者表示，现今绝大部分多模态大模型都是在大语言模型LLM之上生长出多模态的应用，而并非从头开始训练的多模态的大模型，这是多模态大模型目前“不能言说的秘密”。

图源：中信建投证券

谷歌自己也提到，到目前为止，创建多模态模型的标准方法基本是针对不同模态训练单独的组件，然后将它们拼接以粗略模仿其中一些功能。这会导致这些模型有时擅长执行某些任务，例如描述图像，但难以处理更概念性和复杂的推理。

其通过60页的相关技术报告证明，Gemini是一个真正原生的多模态大模型，因为从最初的预训练数据开始，Gemini就在针对不同模态的模型进行训练，因此其功能在每个重大领域都达到了SOTA（State of the art，特指领先水平的大模型）。

图源：谷歌技术报告

在权威MMMU基准测试中，Gemini Ultra获得了59.4%的SOTA分数。这项基准测试是经典的多模态测试，由跨不同领域的多模式任务组成，能够体现大模型的深度推理能力，而推理过程本身，需要花费的成本要远远高于模型训练。谷歌技术报告同时显示，谷歌是使用TPUv5e和TPUv4来训练Gemini，尤其是训练Gemini Ultra时，使用了跨多个数据中心的大量TPUv4。

多模态能力之外，Gemini在专业知识储备和高级编码等领域都处在最前列。比如，Gemini Ultra在MMLU（大规模多任务语言理解数据集）中的得分率高达90.0%，这款MMLU数据集包含数学、物理、历史、法律、医学和伦理等57个科目，专门用于测试大模型的知识储备和解决问题能力。Gemini Ultra是第一个在MMLU上超越人类专家的大模型。

值得一提的是，谷歌此番并没有透露Ultra和Pro版本的具体参数规模，但根据量子位的分析，Gemini与谷歌此前的主力大模型PaLM-2相比，参数规模上要增大许多。此前，PaLM-2被曝参数规模为3400亿。

谷歌方面表示，Gemini将通过谷歌产品推向数十亿用户。从12月13日开始，开发者和企业客户可以通过Google AI Studio或Google Cloud Vertex AI中的Gemini API访问Gemini Pro。

今天凌晨，谷歌还同步发布了最新版本的计算芯片TPU v5p，相较上一代TPU v4性价比提升2.3倍，但这则消息完全被Gemini的光芒所掩盖。

Tags:

GPT 性能

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

性能超GPT

通义千问重磅开源Qwen2.5，性能超越Llama

o1方法性能无上限！姚班马腾宇等数学证明：推理token够多，就能解决任意问题

图形性能高40%！苹果：Mac才是最好的AIPC

OpenAI宣布启动GPTNext计划：AI性能有望提高100倍

NVIDIA首秀BlackwellGB200超级芯片系统：AI推理性能飙升1.5倍

热门文章

三六零开源升级版自研大模型360Zhinao2-7B：数学推理能力提升，医疗教育领域更实用

特斯拉Optimus展示新一代灵巧手，机器人产业ETF（159551）涨超3%

马斯克“开怼”SEC：六年骚扰还不够？律师公开质问幕后黑手

“人工智能+”，河南怎么“+”？

《金融大模型应用评测指南》发布，系全国首个以金融业务能力为核心的团体标准

AIGC“重塑”影视制作产业快手可灵AI用户超600万探索多元变现模式

北京：预计全市2024年人工智能产业规模突破3000亿元

中央经济工作会议：以科技创新引领新质生产力发展建设现代化产业体系

《中国语言服务发展报告（2024）》（语言服务蓝皮书）发布