首页 > 音频

音频

  • OpenAI首次展示音频模型VoiceEngine15秒即可复制原音

    财联社3月30日电,OpenAI在官网首次展示了全新自定义音频模型“Voice Engine”。 用户只需要提供15秒左右的参考声音,通过Voice Engine就能生成几乎和原音一模一样的全新音频,在清晰度、语音连贯、音色、自然度等方面比市面上多数产品都强很多。

  • 一个开源库搞定各类文本到音频生成,Meta发布AudioCraft

    近来,Meta 发布并开源了多个 AI 模型,例如 Llama 系列模型、分割一切的 SAM 模型。这些模型推动了开源社区的研究进展。现在,Meta 又开源了一个能够生成各种音频的 PyTorch 库 ——AudioCraft,并公开了其技术细节。代码地址:https://github.com/fa

  • AI驱动的计算音频时代来临?

    前言:计算音频不是一个新鲜的话题。尤其是从苹果在WWDC20 上宣布「空间音频」开始,计算音频时不时就会成为行业、媒体关注的焦点。

  • AI电台流,车载音频娱乐的“新科技”

    近日, 2018广州车展落下帷幕。作为国内四大车展之一,本届车展以 新科技,新生活 为主题,连同全球百余家汽车品牌,共同传递 以科技创新支持每一个人的生活 的汽车生活理念。花城之夜,数位汽车行业领袖及大咖齐聚一堂,就行业发展、造车新势力、汽车 新四化 、智能网联等行业热点话题分享自己的观点和看法。

  • 免费GPT-4o来袭,音频视觉文本实现「大一统」

    作者 | 赖文昕今天凌晨,即北京时间5月14日1点整,OpenAI 召开了首场春季发布会,CTO Mira Murati 在台上和团队用短短不到30分钟的时间,揭开了最新旗舰模型 GPT-4o 的神秘面纱,以及基于 GPT-4o 的 ChatGPT,均为免费使用。此前,有传言称 OpenAI 将推出

  • 不断探索AIGC与音频深度结合,为喜马拉雅IPO增添技术力量

    科学技术是第一生产力,无数企业借助新兴技术提升了内容质量,实现了弯道超车。随着ChatGPT的爆火,AIGC成为目前技术领域稳稳的“C位”担当,同时也为音频带来了无限发展可能。作为国内领先的音频平台,喜马拉雅积极探索新技术,以AIGC加持业务韧性,赋予喜马拉雅上市强大动能。

  • 音频播放量过亿!小米王化将恶搞雷军AI配音转发法务部

    10月9日消息,日前,短视频平台出现大量“雷军”配音视频,但实际上这些视频中的声音并非出自雷军本人,而是AI配音。各种配音模仿、恶搞视频层出不穷,截稿前,仅一家短视频平台上的“雷军AI配音”话题音频播放量就已过亿。今日,有网友在小米集团公关部总经理王化的微博评论区留言称,“把雷军AI语音骂人的事情先

  • 字节让达芬奇和蒙娜丽莎“隔空吵架”,只需一张图、一段音频

    AIGC在视频生成领域展现出非凡的潜力。近期, 字节跳动智能创作团队和得克萨斯大学达拉斯分校又提出了一项名为DREAM-Talk的基于扩散模型框架:接收一段驱动的音频序列、一张给定的人像图片和一个情感风格的例子(一段有情感的讲话面部视频)作为输入,

  • 现在,用音频也能指挥GAN生成图像了

    CLIP大家都不陌生吧?由OpenAI于今年1月份推出,能够实现文本描述与图片的精准匹配。现在,有人“灵机一动”,从CLIP中学习了一种音频表示方法。用这个方法搭配VQGAN-CLIP,就能实现声音到图像的转变!