“AI春晚”结束不到24小时,大批GPT新用例出炉:电竞解说,瑜伽教练,网友们脑洞大开
图片来源:由无界 AI生成
11 月 7 日,AI 界“春晚”召开,全世界科技圈的目光再次汇聚美国旧金山。在短短 45 分钟时间里,那个男人——山姆・奥特曼再次向世界证明“你大爷还是你大爷”。总结来看,这一波 GPT 的升级主要包括支持 128K 上下文窗口的 GPT-4 Turbo 模型;可定制的“GPTs”;被誉为下一个 App Store 的 GPT Store 以及 Assistant API 等。
图源微博用户:@Sunbelife
发布会一开完,各类消息刷屏,而拿到内测资格的大佬们也是纷纷出手,不到 24 小时,网上基于新功能的用例也是一波接着一波,而且效果可以说是惊掉下巴的那种。
根据 X(前推特)大 V Rowan Cheung 的整理,以下是 8 个热门应用。
1. GPT-4V + TTS API 直接“取代”解说
网友 @geepytee 将足球视频的每一帧画面传递给 gpt-4-vision-preview,并通过一些简单的提示要求生成旁白,然后通过 TTS(从文本到语音)就得到了以下画面。该网友表示,这一过程完全由模型直出,未进行任何修改,也就是说,如果加以调整,完全可以做得更好。
视频链接:https://twitter.com/i/status/1721705524176257296
从视频当中可以听到,AI 解说的内容其实已经与画面相差不多,而且在梅西过防进球的“高光”时刻,AI 解说也已经尽可能的表现出了它“激动”的情绪,只是如果要与真人解说相比,还是存在差距的。
该网友表示,整个视频长达 1131 帧,但只能每隔 10 帧向 GPT 传递一次,制作成本约 30 美元,不算便宜。另外,他还把完整代码贡献了出来,有兴趣的同学可以一试。
代码链接:https://t.co/eppBNcJUby
除了足球比赛,也有网友用新的 GPT-4 V 和文本转语音 API 创建了电竞 AI 解说。但就听感而言,虽然这场比赛特无语(懂的都懂),但这“解说”偏陈述性的语调确实也让人犯困。
视频链接:https://twitter.com/i/status/1721900523866214635
不过,虽然这些 AI 解说还不够完美,但也是能够理解的。OpenAI联创人 Greg Brockman 直接站台,毫不吝啬自己的夸赞。
2. AGI.zip:GPT4-Turbo 还可以更快
曾创建了大热 AI 智能体 BabyAGI 的 Nick Dobos 觉得 GPT4-Turbo 不够快,于是就添加了 20 个预置热键以加快速度。据悉,新版本基于使用自定义指令制作的 agi dop zip 的早期版本。优化过的版本可以自动保存长期记忆,可重复使用,跟踪当前任务,也可使用 .sql 导出到任何聊天工具中。
此外,他还打造了 Gif-PT,可以自动将 Dalle 图像转化为 gif。复杂的工作流程统一化,作图斗图可谓是更方便了。
3. 新一代“点读机”:哪里不会圈哪里
另一网友 @Karmedge 通过 GPT-4 V 应用程序接口定制出了 GPT4 Vision 浏览器,只要截图就可以询问任何问题,可以说是新一代的哪里不会“圈”哪里。从该网友的演示视频中可以看出,即使是在不给出任何上下文背景的情况下,GPT-4 也能准确回答出诸如骨骼、数学符号,汽车零部件的名称。
另外,这位小哥还做了个有趣的试验,在用 GPT4 V 构建完新模型后,通过电脑摄像头,它就成为了私人瑜伽教练,你可以直接询问它“我的动作准确不?”,这位“教练”便会给出它贴心的动作指导。
4. “小编助手”:可以帮助优化推文的自定义 GPT
作为拥有 34 万粉丝的大 V,Rowan Cheung 也迫不及待地进行了尝试。他自定义了“X Optimizer GPT”,可以对其想要在 X 上发的帖子进行微调,并精确定位高峰发布时间,从而帮助其在 X 上获得更多的曝光。具体的做法是,先从 Twitter 分析中下载帖子数据,然后配置自定义指令,让 X Optimizer GPT 撰写帖子并确定发布时间。
至于成效如何,Rowan Cheung 直呼:“Mind-blowing!”
5. WebcamGPT:可识物的 GPT 摄像头
网友 Benjamin De Kraker 通过 GPT-4 Vision API 用大约 10 分钟的时间创建了 WebcamGPT,可以近乎实时地识别摄像头前正在发生的事情,包括物体和动作等。从视频中可以看出,当该网友在镜头前举起手掌、手机等物品时,大约 3 秒后,WebcamGPT 就可以具体写出这些物品。
该网友同样放出了demo 测试,不过由于API token 有限,可能不一定体验的到。需要注意的是,这类涉及隐私的测试,大家还是小心些。
据悉,该网友是基于 @skalskip92 的思路创建的该应用,有网友在其原推评论道,“对于盲人来说,这将是一个很好的工具,如果它能像个人助理一样用语音应答,就能指导他们如何寻找丢失的物品或其他东西。”
6. “自导自演”:GPT vs. GPT
BabyAGI 建设者 Yohei 通过 Assistant API 用 109 行代码创建了开源的“GPTvsGPT”,可以自定义参数,让两个 AI 助手扮演不同的“角色”进行对话。Yohei 表示,“GPT vs GPT”还可以通过检索、数据和自定义函数来扩展功能。
目前该项目也已在 GitHub 开源,感兴趣的朋友也可以去浏览看看。https://GitHub.com/yoheinakajima/GPTvsGPT
7. 从草图到 HTML 网站,速度超快
网友 Sawyer Hood 利用 GPT-4-Vision 在 5 个小时内完成了从低保真的模型到实际 HTML 网站的建设流程。视频演示中,该网友简单用绘画工具勾勒了一个类似社交页面的草图,然后 GPT-4V 瞬间就把它变成了 HTML 网页。类似的,网友 Sam Hogan 用 30 行代码就完成了整个网页的创建。速度之快,可以称之为“game changer”。
8. 讲座报告神器:用 128k 上下文窗口总结近 90 分钟的写作讲座
网友 Riley Brown 对此次 OpenAI 带来的 128k 上下文窗口大加赞赏。在演示中,该网友首先拷贝了长达近 90 分钟的 YouTube 视频讲座字幕,然后在 GPT 4 中输入总结指令,GPT 4 Turbo 便迅速整理出了该讲座每一个部分的要点。而且,GPT 4 Turbo 还可以根据每个要点进行扩展。
除了上面这 8 个用例之外,各种用例层出不穷,如截图,然后让 GPT4-vision 给出网站优化建议;将网页浏览与 GPT 结合创建自己喜爱的音乐列表;与 YouTube 视频对话等等。
要知道,定制 GPTs 功能目前还未上线。
格局打开,想象力打开!一旦上线, 各位想自定义一个怎样的专属 GPT 呢?
参考资料:https://twitter.com/rowancheung/status/1721939382775447566
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。