首页 > AI资讯 > 最新资讯 > 谷歌狙击OpenAI集中火力猛攻AI智能体

谷歌狙击OpenAI集中火力猛攻AI智能体

科创板日报    2024-12-13

《科创板日报》12月12日讯(编辑 宋子乔) 12月12日,在OpenAI宣布ChatGPT全面接入苹果之际,谷歌发布新一代大模型Gemini 2.0,值得注意的是,Gemini 2.0专为AI智能体(AI Agent)而生。

谷歌首席执行官Sundar Pichai在公开信中称,“在过去一年中,我们一直在投资开发更具“代理性”的模型,即这些模型能更深入地理解你周围的世界,提前多步思考,并在你的监督下为你执行任务。今天,我们很高兴迎来新一代的模型——Gemini 2.0,它是我们迄今为止最强大的模型。通过多模态的新进展——如原生图像和音频输出——以及原生工具使用,我们能够构建新的AI智能体,使我们更接近普遍AI助手的愿景。”

谷歌DeepMind CEO Demis Hassabis也表示,2025年将是AI智能体的时代,Gemini 2.0将是支撑我们基于智能体工作的最新一代模型。

目前Gemini 2.0版本尚未正式上线,谷歌表示已经将其提供给了一些开发者内测。第一时间上线的是比Gemini 1.5 Pro更强的Gemini 2.0 Flash实验版,实验版已在网页端开放,Gemini用户可以通过PC端访问Gemini 2.0 Flash,移动端即将推出。

根据谷歌发布的基准测试结果,不论是在多模态的图片、视频能力上,还是编码、数学等能力上,仅是Flash实验版的Gemini 2.0表现几乎全面超越Gemini 1.5 Pro,且响应速度提升了2倍。

谷歌集中火力猛攻AI智能体

通过谷歌的本次更新,我们已经可以窥见其AI布局的冰川一角——一切为了智能体。

1、更强大的多模态能力:

Gemini 2.0 Flash实验版除了支持图像、视频和音频等多模态输入,还支持多模态输出,比如原生生成的图像与文本结合,以及可操控的多语言文本转语音(TTS)音频。

2、更专业的AI搜索:

谷歌在Gemini Advanced中推出了一项名为深度研究(Deep Research)的智能体新功能。该功能结合了谷歌的搜索专长和Gemini的高级推理能力,可以围绕一个复杂主题生成研究报告,相当于一个私人研究助手。

3、多款智能体更新、上线:

更新了基于Gemini 2.0构建的智能体Project Astra :Astra的新功能包括支持多语言混合对话;能够在Gemini应用中直接调用Google Lens和地图功能;记忆能力提升,具备最多10分钟的会话内记忆,对话更连贯;借助新的流式处理技术和原生音频理解能力,该智能体能够以近于人类对话的延迟来理解语言。值得注意的是,Astra是谷歌为眼镜项目所做的前瞻项目。谷歌提到,正在将Project Astra移植到眼镜等更多移动终端中。

发布适用于浏览器的智能体Project Mariner(海员项目):该智能体能够理解并推理浏览器屏幕上的信息,包括像素和网页元素(如文本、代码和图片),然后通过Chrome扩展程序来利用这些信息帮你完成任务。

发布专为开发者打造的AI编程智能体Jules:Jules支持直接集成到GitHub工作流中,用户使用自然语言描述问题,就能直接生成可以合并到GitHub项目中的代码;

发布游戏智能体:能够实时解读屏幕画面,通过用户游戏屏幕上的动作给出下一步操作建议,或直接在你打游戏的时候通过和你语音交流。

谷歌表示,明年年初,会将Gemini 2.0扩展到更多旗下产品中。此前推出的AI Overviews将集成 Gemini 2.0,从而提升复杂问题处理能力,包括高级数学公式、多模态查询和编程。本周已经进行有限测试,预计明年推广,并扩展至更多国家和语言。

相关推荐
免责声明
本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。