MiniMax登顶、多家创企融资,AI语音离“现实场景”还有多远?
2 月份,我们在《AI 语音,真的有感情了?》选题中,选取了知名影视剧《甄嬛传》中的片段来测试4 款 AI 语音合成模型在情感表达上的表现。当时的结论是,AI 语音模型们的表现力依然不足,仍有待加强。
时隔一段时间,4 月12日,MiniMax 上线最新版本语音生成模型 Speech-02,而在 5 月 15 日,系列模型中的 Speech-02-HD 同时登顶了 Artificial Analysis Speech Arena 和 Hugging Face TTS Arena 两大榜单,技术指标上 Speech-02-HD 不仅在错字率、声音相似度等客观指标上领先竞品,在主观的盲听测试中,也取得了相当不错的成绩。
除此之外,AI 语音赛道中,距离我们上次观察又有多款产品完成了融资,比如,3 月 11 日,Cartesia 完成了 6400 万美元 AI 轮融资;3 月 29 日,Hume AI 完成了 5000 万美元融资。除了创企们争相融资外,各大厂也纷纷下场,Amazon 推出了 Nova Sonic,Google 在 Veo3 中也整合了一个强大的语音模型,根据一线从业者的说法,Veo3 的语音合成功能堪称惊艳。
随着技术日趋成熟,AI 语音开始更快更深地渗透到各个应用场景中。所以此次,为了测试目前的语音模型在特定场景内的表现,我们选择了直播带货、语音陪伴、有声书,三个具有代表性的 TTS 落地场景,并根据模型榜单、读者的推荐等方式,确定了 5 款接受测试的语音模型,其中包括,MiniMax 推出的 Speech-02-HD、阿里推出的 CosyVoice2、杭州智声悦合的自研模型 Dubbing X,以及 ElevenLabs 和 Sesame,进行了又一轮的测试。
测试方法:
在上一次的测试基础上,我们扩展了直播带货、语音陪伴、有声书三个 AI 语音的具体落地场景,让AI 分别针对三个场景生成一段音频,主要测试 AI 情感传达能力和场景适配性。生成测试语音时,笔者会按照预设情感来打标签(受试模型中仅有 ElevenLabs 和 Sesame 没有情感标签功能)。
在生成测试音频后,会先使用阿里推出的开源语音理解模型 SenseVoice(在 modelscope 平台上使用)进行客观测试,输出符合预设即为通过。然后,再邀请编辑部的 5 位同事进行主观评测,测评者将针对AI的表现进行 1-5 分的评分,平均分超过 3 才算及格。
注 1:受试产品(模型)中,MiniMax、DubbingX、ElevenLabs、Sesame 均通过各自官网生成测试语音,阿里的 CosyVoice2 由于是开源模型,所以使用接入了 CosyVoice2 的第三方平台“书梦”。
注 2:由于对 ElevenLabs、Sesame 预测试中,这两款模型在中文场景的表现较差,所以我们在有声书场景设计了英文测试,专门测试这两款产品的表现。
中文有声书:配音垂类产品 DubbingX 表现更好
上次针对《甄嬛传》的测试中,各模型在“高兴”情绪的表现相对好,“愤怒、悲伤”两个情绪中比较拉胯。所以,本次在有声书场景的测试中,我们用水浒传中两大知名桥段,“林教头风雪山神庙”和“武松哭兄”中最具情感张力的桥段改写成有声书的形式,来测试各 AI 模型分别在“愤怒”和“悲伤”情绪中的表现。
愤怒情绪测试内容:高衙内!你欺人太甚!我林冲纵是个教头,也不是你们这等宵小欺辱的!我忍你三分,是敬你权势;你再敢污我清白、害我性命,今日,我便与你拼了!
悲伤情绪测试内容:哥哥!你死得好惨啊!你这一生忍气吞声、辛苦操劳,结果却落得被人害死,连个说理的地方都没有!我武松一定为哥哥报仇!
注:分数标注红色的即为模型通过测试
从结果看,愤怒情绪当中,三款产品都通过了客观测试,主观测试中也仅有 CosyVoice2 的平均分低于三分,而从海螺、DubbingX 两款模型表现看,笔者认为是显著优于上一次测试的,这两款模型都能将林冲层层递进的愤怒情绪还原出来,虽然与真人仍有差距,但应该已经到了“能用”的地步了。读者们也可以自己听一听几款产品的表现,来给他们打打分。
悲伤场景中,笔者选择了武松在哥哥墓前的一段自白,情绪上前半段偏向于伤心,后半段悲伤+愤怒,算是拥有复合情感的片段。但在这个片段中,仅有 DubbingX 能够在这个场景里达到及格的水平,之前表现一贯很好的 MiniMax 甚至都没有通过客观测试。
DubbingX 能表现得相对优秀,可能得益于它在情绪方面的深度优化,其他产品的情感标签无外乎是高兴、悲伤、愤怒等粗颗粒度的情感,而 DubbingX 则在大情感分类下,还有适配不同小场景的情绪标签,专门针对复合情感的场景。在这类场景中,DubbingX 的表现显然会更好。
英文有声书:简单设定下,全军覆没
而在英文场景中,我们选择了《基督山伯爵》中,主角得知自己被陷害入狱后,内心愤怒,并渴望复仇的一段独白。
“Fourteen years—trapped in that dungeon, freezing, starving, forgotten. I whispered your name in the dark, Mercedes. I begged for justice. And now, I will have my revenge. No mercy. No forgiveness. Only justice—my way.”
在英文有声书的场景,三款模型表现得有些拉胯,均没有体现出强烈的愤怒情绪与气势,三款产品在主观测试中均没有过 3 分的及格线。而且由于 ElevenLabs 和 Sesame 的官网中都没有“情绪标签”功能,AI 的输出要更差一些,甚至都没有通过客观测试。
在工程设计上,ElevenLabs 仅能通过几个“滑块”调节声音的速度、稳定度、相似度、风格等几个相对抽象的参数,而调节这些参数虽然可以一定程度上优化声音的情感表达,但无法定量调节,才造成了在我们的测试中 ElevenLabs 相对拉胯的表现。
笔者找到了一位 YouTuber 用 ElevenLabs 演播有声书的测试音频,在经专业创作者手动调整后,它在英文有声书场景中的表现好了不少。
直播带货:情感传达合格,场景适配拉胯
带货场景:“姐妹们,这瓶真的闭眼入!今天直播间直接抄底价,只要 39 块还送正装!库存不多了,手慢真没了!”
在直播带货场景中,三款模型都通过了客观测试,但均没有通过主观测试。一位“评委”表示,三款语音产品都传达了相当饱满的情感,情绪传达方面算是合格,但是没有体现出真人带货主播的节奏与韵律,AI 感还是非常强,与场景的适配性较差,所以才给出了不及格的分数。
AI 陪伴场景:表现中规中矩
“我知道你现在很难过,失去一个重要的人真的会让人心碎。但请你记住,你的情感是真实而珍贵的,它说明你认真爱过。痛苦会慢慢淡去,就像乌云终究会散开,而阳光还是会照进你的生活。你不是一个人,我会一直陪着你。”
最后一个 AI 陪伴场景中,三款 AI 模型的表现相对好一些,虽然仍有一些 AI 感,但能够传达温暖、积极的正确情绪,也能够适配场景,所以不少评委给了还不错的分数。
ToC 仍欠火候,ToB 开始爆发
相比上一次的测试,笔者认为经过几个月的发展,AI 语音在情感传达上“有点进步,但不多”,能够拿到及格分以上的,基本都是测试片段情感单一,且给出了正确情感标签的情况,算是“简单题,开卷考试”。而碰上简单情感标签无法覆盖的复杂情况,或直播带货这种需要强烈情感表达才能形成转化的场景,AI 语音仍力不从心。
而除了模型本身,工程化设计也颇为重要,比如 DubbingX 就定位在中文有声书配音的场景,会提供更加丰富细致的情感标签,所以在相对应场景中就表现得更好(中文有声书的场景中 DubbingX 都拿到了及格以上的分数)。而相比之下, ElevenLabs 和 Sesame 都没有情感标签功能,AI的表现就差很多。
实际产品设计中调用 AI 语音 API 时,如何保证输出语音的情感,注:这里用 ElevenLabs 为例,其他产品大同小异|98出海制作
而实际应用中,想让AI语音适应实际场景,开发者还要做更多的工程优化,为此笔者咨询了 AI 陪伴领域的一线从业者。她表示,在产品接入 API 时,开发者会提交针对几个常规情绪的 Preset 语音,然后用户输入后,算法会先判定用户的情感输入,并映射到相应的情绪,转化为参数,最后再把“声音类型+情绪参数”一并返回给 API 平台,并结合 Preset,生成正确的声音,这样才能保证输出的语音尽可能符合要求。
注:本表只涉及几款AI语音产品官方宣布的技术合作
在 toB 领域,AI语音生成技术已相当广泛的应用于各个相关领域,比如上面视频中呈现的Maya语音助手,再比如我们之前关注过,做AI陪伴硬件的 BubblePal(详情可以参考《对话 Haivivi 李勇:用 AI 做 Jellycat,如何单月营收千万》),而在可见的未来,AI 语音生成一定会变得越来越智能,开拓出更丰富的落地应用场景,我们将持续关注。