AI语音的未来已经到来:新AI拥有情商合成语音


去年的 AI 发布让我们明白,AI 追求的不是低技能的劳动工作。如果你是一名艺术家,你绝对应该担心——尤其是如果你是一名配音艺术家。微软最近发表的一篇研究论文揭示了有关 VALL-E 的详细信息,VALL-E 是一种人工智能模型,只需三秒钟的语音样本即可重现任何人的声音。

此前,我们曾报道中国公司腾讯音乐也一直在使用 AI 语音以真实艺术家的声音发行歌曲——尽管腾讯声称它主要使用其AI 引擎以已故传奇歌手的声音制作歌曲,但很有可能该引擎未来将成为腾讯真人歌手的替代品。毕竟,如果拥有可以免费完成同样工作的软件,世界上没有哪家公司愿意在真人歌手身上花费数百万美元。

微软不仅是一家主要的软件公司,还是世界领先的游戏公司之一。该公司还正在以超过 680 亿美元的价格收购动视暴雪。如果这笔交易成功,它将成为人类历史上最大的视频游戏收购案。现在你可能想知道腾讯音乐的人工智能引擎、微软的游戏业务和 VALL-E 之间有什么联系。

VALL-E将提高AI的声音

如果看看微软的游戏收入,仅 2022 年一年就达到了162.3 亿美元。该公司已经发布了一些最大的游戏特许经营权,包括战争机器和光晕,而且它肯定在为这些游戏中的角色配音的艺术家身上投入了大量资金。

与腾讯不同的是,它不用请歌手,但确实请了很多声优。现在没有关于微软在配音演员身上花费多少的官方数据,但考虑到该公司从游戏中获得的巨额收入,这个数字肯定很大。虽然这只是一个假设,但似乎有可能像腾讯一样,微软未来也计划采用 AI 为其游戏配音。

微软开发 VALL-E 可能还有其他各种原因。为了理解这些,让我们首先了解这个VALL-E是什么。

VALL-E 基本上是一种神经编解码器模型,能够模仿人类的声音和伴随该声音的情绪基调。它不是普通的语音合成软件,因为除了语音之外,它还捕捉了人类说话者说话的特定风格——而要做到这一点,它所需要的只是说话者的三秒钟语音样本。

例如,假设您有一个朋友卡洛斯,他说话时总是听起来很生气。你是一名制作动画短片的动画师。现在要为你的一部电影中的角色配音,你需要卡洛斯。不幸的是,卡洛斯恰好也是那个喝多了,走到哪里就闹什么的朋友。

你想要卡洛斯的声音,但你不能带他去录音室录音。如果你能访问像 VALL-E 这样的 AI 模型,你就可以通过 Carlos 的三秒钟语音样本来为你的角色配音(你甚至可以在车里录制)。你不需要卡洛斯来录音室录音。

想象一下像 Microsoft 这样的公司可以用 VALL-E 做什么。微软团队建议,一旦完全开发,VALL-E 就可以用于语音编辑和优质文本到语音应用程序。除了模仿语音和情绪基调,这种神经编解码器模型还可以在其输出中模拟声学环境。

如果输入语音样本取自录音机,则 VALL-E 的输出样本将具有录音机的氛围。VALL-E 研究论文的作者写道,

“VALL-E 在语音自然度和说话人相似度方面明显优于最先进的零样本 TTS(文本到语音)系统。此外,我们发现 VALL-E 可以在合成中保留说话者的情绪和声音提示的听觉环境。”

微软的 VALL-E 可以颠覆一切

Ars Technica的一份报告提到,VALL-E 是使用一种名为EnCodec的基于深度学习的音频编解码器模型开发的,该模型实际上是由 Meta 去年发布的。EnCodec 可以将语音样本分解为小型音频编解码器(压缩或解压缩数据以对其进行任何更改的计算机程序),这些编解码器可以进一步训练以在语音样本中引入操作。

此外,VALL-E 已经使用由 Meta 策划的开源音频库Libri-light进行了培训。它包含 60,000 小时的英语音频内容(主要是 7,000 多名演讲者的演讲)(可在LibriVox上获得)。目前,微软的人工智能只有在与训练的音频内容非常匹配时才能模仿语音。

您可以在 GitHub 上阅读有关 VALL-E 的信息并检查它的一些音频样本。但是,与DALL-E mini和ChatGPT 不同,该程序尚未可供公众使用,因为音频深度伪造可能会产生严重影响。有些人喜欢用政客和名人的声音互相发送信息,但也有一些罪犯和骗子可以利用 VALL-E 制造混乱。

此外,还有微软显然不希望其竞争对手免费使用其 AI 语音模型。该公司甚至可能有自己的秘密计划,通过在其游戏中使用 VALL-E 作为配音演员来震惊游戏行业。

未来,微软可能会使用这项技术为游戏玩家提供选择,让他们可以为自己的角色使用他们想要的任何声音。谁知道呢——也许您可以使用 VALL-E 让游戏角色听起来像您。

配音演员也该考虑对他们的声音进行版权保护了,因为有了像 VALL-E 这样的程序,他们可以在未来随时被替换。不管你信不信,人工智能革命已经开始。

展开阅读全文

页面更新:2024-04-30

标签:卡洛斯   语音   腾讯   微软   人工智能   样本   情商   模型   音频   声音   未来   游戏

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号

Top