首页 > AI资讯 > 工具使用 > 年度盘点!2023年不容错过的30款AI神器,你用过多少?

年度盘点!2023年不容错过的30款AI神器,你用过多少?

新火种    2023-12-27


大家好我是花生~

还有几天 2023 年就结束了,过去的 1 年里生成式 AI 技术发展迅速,出现了很多优质的 AI 工具,今天就为大家盘点其中我觉得非常不错的那些产品~

相关推荐:

一、AI 聊天机器人

① ChatGPT

过去 1 年是大语言模型发展的井喷之年,但是说起目前最强大的 AI 聊天机器人,却依旧是 1 年前横空出世的 ChatGPT。ChatGPT 的目前内置的是 GPT-4V 多模态模型,可以处理图像、音频等多种类型的信息,性能也比之前的 GPT-3.5 要好。今年 ChatGPT 还出了手机 APP,可以实现语音交互,支持中英等多种语言,对用户来说使用更便捷。


ChatGPT 还在今年推出了插件(Plugins)功能,赋予其使用工具、联网、运行计算的能力,让 ChatGPT 的能力有了进一步的扩大和提升。而 11 月份推出的 GPTs 则更进一步,让用户能够按需要定制 AI 工具来辅助自己完成任务。GPTs 还可以互相分享,我们可以直接使用别人构建好的 AI 工具,目前也有很多 GPTs 资源网站可以使用。


② Bard

Google Bard 目前内置了最新的原生多模态大模型 Gemini Pro,这是谷歌历史上最强大、最通用的模型,可以吸收任何类型的输入和输出,包括文本、代码、视频、音频和图像。对我们普通用户来说,Bard 的获取便捷度要比 ChatGPT 好很多,还是免费的,作为 ChatGPT 的平替来使用非常不错。


③ 文心一言

百度在今年 10 月份的时候发布了文心大模型 4.0,与原来的基础模型相比在理解、生成、逻辑和记忆能力上都有着显著提升,并且也有插件功能。“一言百宝箱”中有很多 AI 小工具,可以帮用户直接解决各种类型的问题,而像考公资料、写教案、写党政报道这样的特色功能则只有中文大语言模型里才能找到,这也是国产模型相比国外模型的优势。


④ Microsoft Copilot

Copilot 其实就是之前的微软 New Bing Chat,今年 11 月份改为了 Copilot。它目前依旧集成在 Edge 浏览器中,内置的是 GPT-4 模型,并支持调用 DALL·E 3 生成图像。当我们在浏览器搜索框内输入问题进行搜索后,AI 自动总结好的好答案,鼠标滚轮上划能看完整内容和信息的来源,还能切换不同的模式与 AI 进行对话,日常用来查找信息非常方便。


⑤ Perplexity

问 AI 聊天机器人问题时,我们最担心的一点就是它会“胡编乱造”,给我们错误的信息,而 Perplexity AI 可以解决这个问题。

Perplexity 准确来说是一个 AI 驱动的搜索引擎,利用 GPT-4 模型,综合最新的信息(包括新闻、学术、视频等)为用户提供准确、权威的答案,并且还会附上答案的引用源,方便用户检验信息是否正确,还支持识别图像和上传文档。它的界面设计非常简洁,交互高效并具有成沉浸感,月访问量曾一度跻身所有网页 AI 应用的前 10,仅次于 Midjourney 和 Huggingface。


⑥ Poe

Poe 之前专门给大家推荐过了,它目前接入的大语言模型包括 GPT-4、Claude、Gemini Pro、Llama 2 等,还支持调用 AI 绘画模型 Dalle 3 和 Stable Diffusion XL,还有很多其他小工具可以使用,相当于是一个 AI 工具拼盘。


二、AI 绘画工具

① Stable Diffusion WebUI / Fooocus / ComfyUI

去年的 12 月份时 Midjourney 已经是 V4 模型了,图像生成质量和清晰度大幅提升,一跃成为当时最受瞩目的 AI 绘画工具,而 Stable Diffusion 还处于 v2.1 版本,图像生成效果并不好。时隔一年,现在 Stable Diffusion 的出图质量与 Midjourney 已经没有那么大的差距了,这主要得益于 Dreambooth/ Lora 这些技术的出现,还有就是新模型 Stable Diffusion XL 1.0 的发布。

过去的一年里 Stable Diffusion 的生态也进一步发展完善,高质量的开源模型不断涌现,我们可以选择的图像风格越来越丰富;开源插件更是极大地拓宽了 Stable Diffusion 的能力,提高了图像生成的可控性和处理效率,让其成为目前平面、建筑、游戏等设计领域的首选 AI 工具。


Stable Diffusion 目前最受欢迎的三种用户操作界面分别是 Stable Diffusion WebUI、Fooocus 和 ComfyUI。

Stable Diffusion WebUI 最早出现,界面也最通用好理解,一键整合包的出现进一步降低了它的使用门槛,让它成为目前普及率最高的开源 AI 绘画软件;基于 WebUI 开发的各种拓展插件也是目前最丰富的,所以它能处理的图像任务种类最多、效率也最高,这让 WebUI 成为新手学习 Stable Diffusion 首先要掌握的界面 ,想全面系统学习的小伙伴也可以解我最新制作的 《零基础 AI 绘画入门指南》 ,可以帮你快速高效地掌握 WebUI 这个热门工具 ~


ComfyUI 则是节点式的工作界面,它其实也出现得很早,不过界面不及 WebUI 方便好用,早期生态也不够完善,所以一直不怎么受关注。

而随着拓展插件的丰富和 SDXL 模型的出现,ComfyUI 的优势也逐渐出来。它生成图像的速度更快,对硬件的要求更低,处理 SDXL 模型的效率比 WebUI 更高;模块化形式让用户可以自己搭建工作流并随时复用,会编程的话还可以自己编写模块和节点,以此满足特殊或者定制化的需求。ComfyUI 相比 WebUI 来说更灵活专业,但是上手难度也更大,需要掌握 Stable Diffusion 的各种原理才能熟练运用。


Fooocus 是今年 8 月份推出的操作界面,它使用的是 Stable Diffusion 的开源模型,交互方式借鉴则是 Midjourney。Fooocus 的界面非常简单,用户可以专注在提示词和图像上,无需进行复杂的参数设置就能生成高质量图像,安装也很简单,所以很适合没有复杂处理需求的用户。Fooocus 目前还支持垫图、局部重绘、外绘扩展、高清放大、生成变体等多种功能。


② Midjourney

Midjourney 今年的更新升级也非常密集,推出过 V5、V5.1、V5.2、Niji 5 等版本,让其图像生成质量始终处理领先地位;也接连上线了 Zoom out 图像拓展外绘、High Variation 高变体、Describe 图像描述、Shorten 提示词优化、Vary Region 局部重绘、Styler Tuner 风格生成器等功能,满足用户编辑图像和探索风格的需求。

Stable Diffusion XL 1.0、Dalle 3 还有各种新的 AI 绘画工具的接连出现也一度给了 Midjourney 不小的压力,不过前几天它又推出了新的 V6 版本,图像的细节精细度达到令人惊叹的水平,对提示词的理解也更准确,还支持生成正确的英文文本内容,这让 Midjourney 在 AI 绘画领域依旧非常有竞争力。

Midjourney v1 到 v6 出图效果对比,来源 Twitter @doganuraldesign

③ Adobe Firefly / PS beta

Adobe 在 4 月份的时候推出了自己的 AI 图像生成模型 Firefly,支持文生图、文生字体特效、局部重绘等多种功能,还将这些功能置入到了 Photoshop Beta 测试版中,让设计师可以借助 AI 的力量更高效地完成设计工作。

10 月份的时候 Firefly Image Model 升级到了 2.0 版本,图像生成质量比之前有了进一步提升,还支持人像调节、垫图、镜头调色设置等多种功能,还有 Firefly Vector Model,支持通过文字生成矢量图像,相信未来 Adobe 旗下的工具肯定会在 AI 的加持下更加好用。


④ DALL·E 3

OpenAI 的 DALL·E 算是元老级别的 AI 绘画工具了,最早的 DALL·E 1 在 2021 年 1 月的时候就出现了;DALL·E 2 在 2022 年 4 月份推出,以一张“宇航员骑着白马”的清晰图像启发了人们对 AI 绘画的认知。虽然技术一直走在前沿,不过 OpenAI 对其商业化这一块很好像并不重视,所以知名度并不如其他 AI 绘画工具。

虽然如此,9 月份 DALL·E 3 发布时依旧引起过广泛关注,一方面是它对文本的理解远超当时的其他 AI 绘画模型,可以准确理解并呈现复杂提示词中的所有元素,包括元素间的关系和文本内容;另一方便则是它和 ChatGPT 结合带来的新交互方式,用户直接用语言描述自己的需求,ChatGPT 会自动理解它并拆分生成任务,而无需用鼠标进行复杂的设置。从在某种程度上来说,ChatGPT 里的 DALL·E 3 才是最好用的 DALL·E 3。


⑤ Krea AI

AI 绘画在今年的一大技术进步就是出现了 LCM,可以一步完成图像推理,让图像的生成时间缩短了 6-10 倍,并由此开启了“实时生成”这种新的 AI 绘画形式,Krea AI 就是最早将其商业化的应用。而随着 LCM 和 SDXL Turbo 模型的开源,我们也可以在本地体验这种超快的生成速度,或者在 ComfyUI 中自己搭建图像实时生成的工作流。

有了实时生成,我们可以在画板上控制画面的元素、构图、配色,再结合提示词将其转化为完整精致的图像,并调整修改内容,这比在 WebUI 中重新生成或者局部重绘要高效很多,对电商、产品、电影、游戏概念等设计领域来说具有重要意义。

三、AI 音视频工具

① Runway

Runway 无疑是目前最强的视频生成和编辑应用,它既有正常的视频剪辑功能,也有基于生成式 AI 的各项新功能,包括文生图、图生图、文生视频、图生视频、视频风格化、文本生成语音、一键视频抠图、视频内容抹除、动态追踪等。

用 Runway 的 Gen-2 模型生成视频时,可以调节视频运动幅度,可以设置不同的镜头运动方式,还支持用运动笔刷控制画面中的运动区域,以及视频进行抠图然后组合生成新的场景,这都让视频生成的可控性变得更强了。

② Pika

Pika 算是 AI 视频生成领域的后起之秀,它也支持通过文本或者图像生成视频,也可以控制视频动态强度和镜头运动方式,总体来说和 Runway 非常类似。最新的 Pika 1.0 则是让它的功能更上一层楼,不但可以生成高质量的 2D/3D 动画,还支持视频扩展(Expand canvas)和区域修改(Modify region),让 AI 视频的趣味性变得更强了。

③ Domo AI

Domo AI 是最近才出现的一个 AI 视频生成应用,功能包括文生图、图像风格转化、图像生成视频和视频风格转换。由于它将真人视频转化为动漫、3D、像素等风格时非常稳定,效果比目前其他的 AI 视频工具都优秀,所以非常受欢迎。

④ Heygen

前段时间郭德纲用英语说相声的视频让 Heygen 爆火出圈,作为一个数字人视频生成工具,Heygen 不仅有可以在神态上以假乱真的数字人形象,还提供了从人物选择、内容制作到配音、视频合成等一整套的服务,让营销视频的制作变得前所有的简单和高效。视频对口型无痕翻译则是其新推出的功能,给传统视频翻译和影视制作带来了一种新的处理思路。

用 Heygen 生成的数字人短视频

⑤ 开源AI视频工具

除了各种商业 AI 视频应用外,我们也可以利用开源工具或模型在本地实现视频生成,目前比较受欢迎的有 Animatediff 和最新推出的 Stable Video Diffusion。

大家在网上看到的“一个女孩的一生”或者人物变装的视频, 就是用 Animatediff 生成的。Animatediff 是一个拓展插件,可以安装在 SD WebUI 或者 ComfyUI 中,实现文本生成视频或者视频转风格。

Stable Video Diffusion 则是 Stability AI 最新推出的视频模型,可以通过 ComfyUI 部署到到本地使用,免费将图像转为视频。

⑥ 开源AI音频工具

生成式 AI 技术也可以帮我们实现音频的生成或处理,比如通过文本生成自然语音(TTS)、声音克隆、通过文本生成音乐音效等,其中既有商业应用,也有可以部署到本地使用的开源的工具。

ElevenLabs 是目前比较成熟的商业 AI 语音生成应用,功能包括文本生成逼真自然语言以及克隆语音。而相似功能开源的工具则非常多,包括 so-vits-svc (声音克隆)、Bert-VITS2、网易易魔声(文本转语音)等。


之前还大家推荐过 6 款 AI 音乐生成工具,包括 Stable Audio、Soundraw、Suno AI 等,它们都可以生成高质量的音乐、音效以及歌曲。最近还出现了一个开源工具 Amphion,可以免费实现文本转语音、语音克隆、文本生成音乐以及歌声合成。

四、其他

AI 模型也促进了细分领域里 AI 工具的发展。比如有了大语言模型后,就催生了很多如 AI 简历生成器、AI 写作工具,AI 翻译器,AI PPT 生成工具这样的细分应用。这里推荐一个我使用频率非常高的 AI 翻译工具——沉浸式翻译,它可以实现网页双语对照翻译,还支持在 YouTube、Netflix、Bilibili 等网站上显示双语字幕,对需要经常看英文网页的小伙伴非常有用。


AI 在 3D 模型领域也有不错的进展。比如 Luma AI 可以通过视频快速重建 3D 场景;Genie 可以通过文本生成高精度的 3D 模型,并导入其他 3D 软件中进行再次编辑;最近还出现了一个 Stable Zero123 的模型,支持从单张图像生成高质量的 3D 对象。

在 Genie 中用文本生成的 3D 模型

还有之前已经给大家推荐过很很多次的 AI 图像处理工具,比如综合图像处理网站 Clipdrop、一键抠图网站 Pixian AI、免费的图像高清放大工具 Upscayl 等,有意识地运用这些 AI 工具可以让我们更轻松地完成重复性的工作。


Clipdrop 包含是多种图像处理工具

那么以上就是本期为大家推荐的 2023 年 AI 神器,希望对大家有帮助 ~ 文章内提到的工具我我都整理成了一份文档,大家可以扫描下方二维码进群领取链接,也可以和群里的小伙伴们一起学习交流 AI 知识。


喜欢本期推荐的话记得点赞收藏支持一波,也可以分享给身边有需要的朋友。如果像了解更多 AI 神器,大家可以访问 「 AIGC 导航」 ,200 多款 AI 绘画、设计、图像处理神器等你探索。另外大家也可以关注我们「 AIGC」的 微信 视频号,小瓜老师每天都会分享最新的 AIGC 资讯和神器,让你轻松掌握最新的 AI 发展动态 ~


相关推荐
免责声明
本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

热门文章