作者 | 周愚
编辑 | 邓咏仪
(资料图片仅供参考)
美国时间 6 月 16 日,Meta 正式发布语音生成模型 Voicebox。据官网介绍,通过非自回归 " 流匹配 "(Flow Matching)技术,研究人员无需手动标记不同数据,即可利用长达 5 万小时的语言和有声书文本训练 Voicebox。Voicebox 生成语音的速度,可到达目前最先进的自回归模型的约 20 倍。
不同于过去的语音 AI 模型一般只有单一用途,Voicebox 基于同一通用模型,即可实现基于文本的语音生成、语音编辑和降噪、跨语言转换、多风格语言采样等功能。
在英语文本到文字的转换过程中,Voicebox 的平均单词错误率与音频相似度 ( 相较于真实语音)分别为 1.9% 和 0.681,而目前最先进的英语模型 Vall-E,则分别为 5.9% 和 0.580。
此外,Voicebox 还支持合成包括英语、法语、西班牙语、德语、波兰语和葡萄牙语等六种语言的语音。在跨语言转换的表现上,Voicebox 同样优于该领域领先的 YourTTS,平均单词错误率从 10.9% 降低到了 5.2%,音频相似度则从 0.335 提高到了 0.481。
Voicebox 与其他语音生成模型单词错误率对比。来源:MetaVoicebox 与其他语音生成模型音频相似度对比。来源:Meta在训练过程中,Voicebox 会得到一个音频样本和相应的文本,然后部分音频将被屏蔽,该模型需要根据前后音频和给定的文本,生成被屏蔽的音频片段。
经过这种训练的模型可以直接或在少量微调后,适用于许多任务。以降噪和语音错误修改为例,Voicebox 在实现这两项看似不同的功能时,均是首先屏蔽出现噪音或错误的部分,然后基于前后已有的音频和原文本或修改后的文本,重新生成该部分语音。
这也是 Meta 研发 Voicebox 的主要目标。在一篇披露 Voicebox 技术细节的论文中,Meta 研究人员写道:" 研究目标是建立一个单一模型,通过上下文学习来执行多种基于文本的语音生成任务。"
Voicebox 通过前后音频学习生成语音。来源:MetaVoicebox 并非是为特定应用程序训练的生成模型,因此还可以执行许多未经过训练的其他任务。
输入长度仅为两秒的音频样本,Voicebox 就可以获得相应的音频样式。而后,使用者只需输入文本就可以生成语音。Meta 表示,这项功能可为语言功能障碍人士提供语音,或为 NPC 和虚拟助手定制声音。
同时,Voicebox 跨语言转换的功能也可以帮助不同语言的人们进行顺畅的交流。基于六种语言的语音样本和给出的文本,使用者在 Voicebox 的帮助下便可以轻松生成目标语言的语音。
Voicebox 还可以将其生成的语音用于模型训练。Meta 的研究结果表明,与真实语音训练出的模型相比,使用 Voicebox 生成的语音训练出的语音识别模型表现几乎一样好。
Voicebox 与其他主流语音生成模型功能对比。来源:Meta尽管 Meta 研究团队已经发布了披露技术细节的相关论文,但 Meta 并没有公开 Voicebox 的模型或代码,认为 " 需要在开放和责任之间找到适当的平衡 "。
Meta 在社交平台上公开表示:" 与其他强大的人工智能创新技术一样,我们认为这项技术也可能会被滥用,造成意外伤害。"
关键词: