首页 > AI资讯 > 最新资讯 > AI早知道|ChatGPT免费开放高级语音模式;B站推出IndexTTS文本转语音模型

AI早知道|ChatGPT免费开放高级语音模式;B站推出IndexTTS文本转语音模型

新火种    2025-04-08

1.字节跳动与中国和新加坡大学研究团队联合推出的PhotoDoodle,利用Flux.1模型重新定义图像创作。该系统通过少量样本学习艺术风格,精准执行编辑指令,极大地提高了创意表达的可能性。

2.B站推出的IndexTTS模型是基于XTTS和Tortoise的GPT风格文本转语音系统,具备独特的拼音纠正汉字发音能力和精准的停顿控制。

3.微软开源了名为“Magma”的多模态AI Agent基础模型。Magma能够跨越数字和物理世界,处理图像、视频和文本等多种数据类型,并具备心理预测功能,能够更准确地理解人物或物体的意图。

4.ChatGPT的高级语音模式正式向用户免费开放。该模式基于GPT-4o mini模型,通过优化计算效率,性能已接近完整版GPT-4o。

5.DeepSeek在开源周最后一天发布了Fire-flyer File system(3Fs)和Smallpond数据处理框架。3FS是一种高性能并行文件系统,专为AI训练和推理设计,支持大规模集群的高吞吐量数据访问,峰值读取吞吐量达6.6 TiB/s。Smallpond基于3FS和DuckDB构建,支持高效数据处理,可扩展至PB级数据集。

6.ElevenLabs 最近推出了其最新的语音转文本模型 Scribe v1,声称在多种语言中达到了最高的准确性。该模型支持99种语言,能够在复杂音频环境中准确区分多达32位不同说话者。

相关推荐
免责声明
本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。