“AI春晚”结束不到24小时，大批GPT新用例出炉：电竞解说，瑜伽教练，网友们脑洞大开

首页 > AI资讯 > 最新资讯 > “AI春晚”结束不到24小时，大批GPT新用例出炉：电竞解说，瑜伽教练，网友们脑洞大开

“AI春晚”结束不到24小时，大批GPT新用例出炉：电竞解说，瑜伽教练，网友们脑洞大开

新火种 2023-11-09

图片来源：由无界 AI生成

11 月 7 日，AI 界“春晚”召开，全世界科技圈的目光再次汇聚美国旧金山。在短短 45 分钟时间里，那个男人——山姆・奥特曼再次向世界证明“你大爷还是你大爷”。总结来看，这一波 GPT 的升级主要包括支持 128K 上下文窗口的 GPT-4 Turbo 模型；可定制的“GPTs”；被誉为下一个 App Store 的 GPT Store 以及 Assistant API 等。

图源微博用户：@Sunbelife

发布会一开完，各类消息刷屏，而拿到内测资格的大佬们也是纷纷出手，不到 24 小时，网上基于新功能的用例也是一波接着一波，而且效果可以说是惊掉下巴的那种。

根据 X（前推特）大 V Rowan Cheung 的整理，以下是 8 个热门应用。

1. GPT-4V + TTS API 直接“取代”解说

网友 @geepytee 将足球视频的每一帧画面传递给 gpt-4-vision-preview，并通过一些简单的提示要求生成旁白，然后通过 TTS（从文本到语音）就得到了以下画面。该网友表示，这一过程完全由模型直出，未进行任何修改，也就是说，如果加以调整，完全可以做得更好。

视频链接：https://twitter.com/i/status/1721705524176257296

从视频当中可以听到，AI 解说的内容其实已经与画面相差不多，而且在梅西过防进球的“高光”时刻，AI 解说也已经尽可能的表现出了它“激动”的情绪，只是如果要与真人解说相比，还是存在差距的。

该网友表示，整个视频长达 1131 帧，但只能每隔 10 帧向 GPT 传递一次，制作成本约 30 美元，不算便宜。另外，他还把完整代码贡献了出来，有兴趣的同学可以一试。

代码链接：https://t.co/eppBNcJUby

除了足球比赛，也有网友用新的 GPT-4 V 和文本转语音 API 创建了电竞 AI 解说。但就听感而言，虽然这场比赛特无语（懂的都懂），但这“解说”偏陈述性的语调确实也让人犯困。

视频链接：https://twitter.com/i/status/1721900523866214635‌

不过，虽然这些 AI 解说还不够完美，但也是能够理解的。OpenAI联创人 Greg Brockman 直接站台，毫不吝啬自己的夸赞。

2. AGI.zip：GPT4-Turbo 还可以更快

曾创建了大热 AI 智能体 BabyAGI 的 Nick Dobos 觉得 GPT4-Turbo 不够快，于是就添加了 20 个预置热键以加快速度。据悉，新版本基于使用自定义指令制作的 agi dop zip 的早期版本。优化过的版本可以自动保存长期记忆，可重复使用，跟踪当前任务，也可使用 .sql 导出到任何聊天工具中。

此外，他还打造了 Gif-PT，可以自动将 Dalle 图像转化为 gif。复杂的工作流程统一化，作图斗图可谓是更方便了。

3. 新一代“点读机”：哪里不会圈哪里

另一网友 @Karmedge 通过 GPT-4 V 应用程序接口定制出了 GPT4 Vision 浏览器，只要截图就可以询问任何问题，可以说是新一代的哪里不会“圈”哪里。从该网友的演示视频中可以看出，即使是在不给出任何上下文背景的情况下，GPT-4 也能准确回答出诸如骨骼、数学符号，汽车零部件的名称。

另外，这位小哥还做了个有趣的试验，在用 GPT4 V 构建完新模型后，通过电脑摄像头，它就成为了私人瑜伽教练，你可以直接询问它“我的动作准确不？”，这位“教练”便会给出它贴心的动作指导。

4. “小编助手”：可以帮助优化推文的自定义 GPT

作为拥有 34 万粉丝的大 V，Rowan Cheung 也迫不及待地进行了尝试。他自定义了“X Optimizer GPT”，可以对其想要在 X 上发的帖子进行微调，并精确定位高峰发布时间，从而帮助其在 X 上获得更多的曝光。具体的做法是，先从 Twitter 分析中下载帖子数据，然后配置自定义指令，让 X Optimizer GPT 撰写帖子并确定发布时间。

至于成效如何，Rowan Cheung 直呼：“Mind-blowing！”

5. WebcamGPT：可识物的 GPT 摄像头

网友 Benjamin De Kraker 通过 GPT-4 Vision API 用大约 10 分钟的时间创建了 WebcamGPT，可以近乎实时地识别摄像头前正在发生的事情，包括物体和动作等。从视频中可以看出，当该网友在镜头前举起手掌、手机等物品时，大约 3 秒后，WebcamGPT 就可以具体写出这些物品。

该网友同样放出了demo 测试，不过由于API token 有限，可能不一定体验的到。需要注意的是，这类涉及隐私的测试，大家还是小心些。

据悉，该网友是基于 @skalskip92 的思路创建的该应用，有网友在其原推评论道，“对于盲人来说，这将是一个很好的工具，如果它能像个人助理一样用语音应答，就能指导他们如何寻找丢失的物品或其他东西。”

6. “自导自演”：GPT vs. GPT

BabyAGI 建设者 Yohei 通过 Assistant API 用 109 行代码创建了开源的“GPTvsGPT”，可以自定义参数，让两个 AI 助手扮演不同的“角色”进行对话。Yohei 表示，“GPT vs GPT”还可以通过检索、数据和自定义函数来扩展功能。

目前该项目也已在 GitHub 开源，感兴趣的朋友也可以去浏览看看。https://GitHub.com/yoheinakajima/GPTvsGPT‌

7. 从草图到 HTML 网站，速度超快

网友 Sawyer Hood 利用 GPT-4-Vision 在 5 个小时内完成了从低保真的模型到实际 HTML 网站的建设流程。视频演示中，该网友简单用绘画工具勾勒了一个类似社交页面的草图，然后 GPT-4V 瞬间就把它变成了 HTML 网页。类似的，网友 Sam Hogan 用 30 行代码就完成了整个网页的创建。速度之快，可以称之为“game changer”。

8. 讲座报告神器：用 128k 上下文窗口总结近 90 分钟的写作讲座

网友 Riley Brown 对此次 OpenAI 带来的 128k 上下文窗口大加赞赏。在演示中，该网友首先拷贝了长达近 90 分钟的 YouTube 视频讲座字幕，然后在 GPT 4 中输入总结指令，GPT 4 Turbo 便迅速整理出了该讲座每一个部分的要点。而且，GPT 4 Turbo 还可以根据每个要点进行扩展。

除了上面这 8 个用例之外，各种用例层出不穷，如截图，然后让 GPT4-vision 给出网站优化建议；将网页浏览与 GPT 结合创建自己喜爱的音乐列表；与 YouTube 视频对话等等。

要知道，定制 GPTs 功能目前还未上线。

格局打开，想象力打开！一旦上线，各位想自定义一个怎样的专属 GPT 呢？

参考资料：https://twitter.com/rowancheung/status/1721939382775447566‌

Tags:

OpenAI GPT-4V

免责声明: 本文所包含的观点仅代表作者个人看法，不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。交易和投资涉及高风险，读者在采取与本文内容相关的任何行动之前，请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。