ChatGPT重磅更新！可以通过图片和语音命令交互

首页 > AI资讯 > 最新资讯 > ChatGPT重磅更新！可以通过图片和语音命令交互

ChatGPT重磅更新！可以通过图片和语音命令交互

新火种 2023-09-26

·OpenAI在其官网宣布，目前正在推出ChatGPT的新版本，除了通过常见的文本框交互外，现在它正在学会以新的方式理解人类的问题，比如通过大声说话或者上传一张图片。·随着越来越多的人使用语音控制和图像搜索，并且ChatGPT越来越接近成为一个真正多模式、有用的虚拟助手，维持住安全护栏会变得越来越困难。

OpenAI在其官网宣布，ChatGPT现在可以“看”、“听”和“说”了。自诞生以来，ChatGPT的大部分更新主要在于，这个基于AI的机器人可以做什么、可以回答哪些问题、可以访问哪些信息，以及如何改进其基础模型等方面。这一次，OpenAI正在调整使用ChatGPT的方式。北京时间9月25日晚，OpenAI在其官网宣布，目前正在推出ChatGPT的新版本，除了通过常见的文本框交互外，现在它正在学会以新的方式理解人类的问题，比如通过大声说话或者上传图片。具体而言，在语音方面：第一，允许用户进行语音对话，提供更直观的交互方式；第二，支持在iOS和Android移动应用上使用；第三，提供5种不同的语音选择；第四，通过新型文本转语音模型和语音识别系统实现。这应该感觉就像与苹果的Siri交谈一样，只是OpenAI希望，通过改进基础技术使其说出更好的答案。目前，大多数虚拟助手，如亚马逊的Alexa，都在以大语言模型（LLM）为基础进行改进。据OpenAI介绍，新的语音功能由一个新的文本到语音模型提供支持，该模型能够从文本和几秒钟的语音样本生成“类似人类的音频”。OpenAI似乎还认为该模型的潜力不止于此，其正在与流媒体音乐服务平台Spotify合作，将播客翻译成其他语言，同时保持播音者的声音。合成语音有许多有趣的用途，而OpenAI可能会成为该行业的重要组成部分。然而，只需几秒钟的音频就能构建出功能强大的合成音色，这也为各种问题性用例敞开了大门。“这些功能还带来了新的风险，比如恶意行为者冒充公众人物或实施欺诈的可能性”，OpenAI在其宣布新功能的博文中写道。OpenAI表示，出于这个原因，该模型不会广泛被使用，而更多受到特定用例和合作伙伴的限制。在图像方面，第一，允许用户上传图像与ChatGPT进行交互；第二，支持多张图像；第三，提供移动应用上的绘图工具；第四，使用多模态GPT模型（Generative Pre-Trained Transformer，生成式预训练Transformer模型）理解图像；第五，在接下来的两周内首先面向Plus（付费订阅用户）和企业用户推出；第六，语音和图像功能的推出采取渐进策略，以确保安全性；第七，要注意模型局限性，避免高风险场景下对其依赖。图像搜索有点类似于Google Lens的功能，用户拍摄自己感兴趣的任何东西的照片，ChatGPT去尝试了解用户在询问什么，并做出相应的回应。用户还可以使用应用程序的绘图工具帮助明晰自己的诉求，或配合图像进行说话或写入问题。这是ChatGPT希望实现的一个互动特性：与其进行一次搜索得到错误答案，然后再重新进行一次搜索，不如在进行的过程中提示AI机器人完善答案。不过，显然图像搜索也有其潜在问题。比如，如果用户询问的是关于一个人的情况，ChatGPT该如何反应？OpenAI表示，他们故意限制了ChatGPT“分析和直接陈述关于人的能力”，这既是为了准确性，也是为了隐私原因。这意味着对于AI的一个极具科幻色彩的想象——看着某人然后问AI“那是谁”，并不会很快实现。在ChatGPT首次推出将近一年后，OpenAI似乎仍在寻找，如何为其AI机器人增加更多功能和能力而不会产生新的问题和缺点。OpenAI也试图通过有意限制其新模型的功能，来维持“更进一步”和“降低风险”这两者之间的平衡。但这种方法可能不会永远奏效。随着越来越多的人使用语音控制和图像搜索，并且ChatGPT越来越接近成为一个真正多模式、有用的虚拟助手，维持住这个护栏会变得越来越困难。(本文来自澎湃新闻，更多原创资讯请下载“澎湃新闻”APP)

Tags:

TensorFlow 重磅语音

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

ChatGPT重磅更新！可以通过图片和语音命令交互

重磅！国产AI写作模型比ChatGPT强1000%，360前员工AI团队取得重大突破

通义千问重磅开源Qwen2.5，性能超越Llama

支付宝AI理财重磅升级！蚂蚁AI金融管家蚂小财全量对外

首发4599元起石头洗衣机Z1系列上市：支持AI语音操控

MiniMax不藏了，大秀视频/语音/文本全模态模型家族，“每天与世界交互30亿次”

热门文章

全球首次！人形机器人将与人类一起跑“半马”

政协委员甄子丹：人工智能对电影行业既是冲击也是鼓励

全国人大代表刘庆峰：发展AI新岗位，试点“AI失业保障专项保险”

我国首个林草行业大模型研发成功

平稳开局！今年一季度我国货物贸易进出口10.3万亿元，增长1.3%

小K播早报|2025中国互联网企业家座谈会召开“天工”夺得全球首个人形机器人半马冠军

前高通高管任小米芯片平台部负责人；2024年我国再生资源回收总量超4亿吨

恒生电子董事长刘曙峰：AI平权时代，“智能体”成为金融大模型战略性赛道

撬动千亿资本杭州加快建设人工智能产业高地