GPT-4V多模态能力惊人!公式截图直出代码,龙与魔法世界瞬间生成
【新智元导读】GPT-4在默默更新了多个功能之后,早已有了惊艳世人的各种新能力,简直是上体入地无所不能!
最近,GPT-4一直在默默更新,加入了多模态,语音交互等功能。
但是与年初OpenAI每次发布的新功能,都能引得外界一阵惊呼的阵仗相比,现在GPT-4的声量似乎小了很多。
不知道是不是担心自己产品发布太过于耀眼,导致监管和官司不断找上门,OpenAI除了3周前更新了文生图模型DALL-E 3外,在发布了GPT-4之后的7个月内,官方没有公开发布任何新的产品和功能。
![](/uploads/pic/20231019/miy5voen5ox.jpg)
但是OpenAI总裁Greg Brockman自己却在X(推特)上,不断转发利用新版的GPT-4来实现的各种天马行空的功能。
利用GPT-4V的多模态能力和代码能力,直接把一个写在书上的数学公式转化成一段Python代码。
![](/uploads/pic/20231019/1j3bwo2yneu.jpg)
而利用GPT-4刚更新不久的语音功能,有人开始把它当成商务谈判的教练来进行模拟练习了。
![](/uploads/pic/20231019/k1tfuygj52b.jpg)
就在这个帖子下面,这位帝国理工学院商学院的学习设计师留言称,他们已经开始使用GPT-4的语音功能为MBA设计培训课程了。
![](/uploads/pic/20231019/44hdd5cf1e3.jpg)
直接用ChatGPT集成的的DALLE 3来为游戏设计师生成世界观和原画设定图。
只要几行Prompt,一个飞龙世界的文字描述和原画风格图就出来了。
![](/uploads/pic/20231019/qfsf45zngku.jpg)
![](/uploads/pic/20231019/xzaxsiycfzl.jpg)
一颗玉米如何成为爆米花。
![](/uploads/pic/20231019/gwyvo4dk1en.jpg)
一只跳舞的狗子。
我们就一起来看看如何利用GPT-4来完成这一系列的功能。
GPT-4理综版
网友发现,只要通过截图,可以将几乎任何数学公式,通过GPT-4转化为Python代码。
![](/uploads/pic/20231019/mekwxt4xto5.jpg)
当然,因为模型还是存在出现幻觉的可能,所有的结果不能直接拿过来就用,还是要认真检查其中的错漏。
比如截图中第六行的代码,「d_hat(i, j)」应该是「d_hat(i)」。
虽然有小错误,但是网友们依然对这个功能给与了非常高的评价。
![](/uploads/pic/20231019/cc2j24zo2cw.jpg)
这位MIT博士,AI初创公司的创始人认为,如果没有额外的上下文,GPT-4无法识别这个函数,但它确实知道它正在做什么……非常酷。
![](/uploads/pic/20231019/q4w5mscienj.jpg)
另一位开发了一个金融AI工具的开发人员称,这个用例非常棒!有无穷的想象空间。
![](/uploads/pic/20231019/swrben041ho.jpg)
并且他给出了两个具体的用例。
可以截图研究论文中的复杂数学方程并在本地快速运行。2. 可以截屏(任何内容)并让GPT生成代码来实现 UI。
同样,除了数学公式,它还可以直接读取分子式,直接输出制备方法。
![](/uploads/pic/20231019/nt5eqwjj4co.jpg)
给它投喂一个耳机的电路图,它就能告诉你组装这个设备的大致步骤。
![](/uploads/pic/20231019/eqwldfdymeu.jpg)
GPT-4V对于多模态的良好支持,结合它的编码能力,以及广博的知识面,可以组合出几乎无穷的使用方案。
几句Prompt 生成龙与魔法的世界
另外一位网友分享了它通过ChatGPT创造了一个和龙有关的奇幻世界的过程。
GPT-4生成了和龙有关的概念、解剖结构,甚至龙的栖息地。
![](/uploads/pic/20231019/qc2iqxob154.jpg)
龙的头部特写。
![](/uploads/pic/20231019/qm54ds1nkxe.jpg)
龙的骨架和解刨图。
![](/uploads/pic/20231019/zibr0fjuvl1.jpg)
以及龙的生存环境原画和描述。
首先,需要指定出你想要的图像样式。
作者想要那种技术信息图表风格的美术风格,他使用了这个Prompt,几乎就是普通的英语描述。
「Can you generate me a technical engineer's drawing of a dragon, with labels of its various parts? Use a wide aspect ratio:」
就得到了下面的结果:
![](/uploads/pic/20231019/e4d1fn1oq5z.jpg)
接下来,生成龙头的特写。
![](/uploads/pic/20231019/mu1fhn0qmio.jpg)
然后让他生成栖息地的环境原画图和介绍。
![](/uploads/pic/20231019/n34i2uxeeql.jpg)
如果不满意,就再进一步细化你的要求,让GPT-4来满足。
![](/uploads/pic/20231019/bsucjzqh4s5.jpg)
作为游戏设计师,想要设计一个和龙有关的场景,直接动手就能出可以使用的结果。
![](/uploads/pic/20231019/bzenb11bw5a.jpg)
另外一位网友根据这个用例的启发,生成了一个和藏红花相关的介绍。
![](/uploads/pic/20231019/pw3cibfu5ec.jpg)
「Can you generate me a technical engineer's drawing of a saffron, with labels of its various parts? Use a wide aspect ratio.」
用这个提示词生成了一个藏红花的结构图。
![](/uploads/pic/20231019/thbn3cgewcb.jpg)
再生成了一幅藏红花束的特写。「Can you generate a close up of saffron strand in wide aspect ratio?」
![](/uploads/pic/20231019/bcf52sj5lsw.jpg)
藏红花田的远景图片。「Please generate an aerial view of saffron field in wide aspect ratio.」
![](/uploads/pic/20231019/rja0vl3uled.jpg)
最后生成了藏红花的剖面图。「Anatomy of saffron strand in wide aspect ratio.」
![](/uploads/pic/20231019/mwdcdo102qo.jpg)
一个非常复杂的潜艇结构图!
![](/uploads/pic/20231019/zjcps2nk0ns.jpg)
高达的结构示意图。
![](/uploads/pic/20231019/0dlldnwur3l.jpg)
头部的详细结构图。
![](/uploads/pic/20231019/faedz2lxywf.jpg)
足部的详细结构图。
![](/uploads/pic/20231019/djgp0wsmy5k.jpg)
武器的结构图。
面包机的超详细结构图。
![](/uploads/pic/20231019/lvkiqtmo3wv.jpg)
网友纷纷表示,完全停不下来。
![](/uploads/pic/20231019/5gtevfl0tpz.jpg)
参考资料:
https://twitter.com/gdb/status/61036466
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。
热门文章
![](https://www.xhz.cn/uploads/images/16.jpg)