卧槽!这两段AI语音太顶了!插图

大概三四年前,换了内核的 Edge 浏览器,推出了「大声朗读」的 TTS 功能。

卧槽!这两段AI语音太顶了!插图1

那时候默认的晓晓一出,真的是吊打市面上各种语音合成工具。

一般的文字转语音调用的都是通用引擎,那发声一听就是程序合成的,根本让人听不下去。

而晓晓,不光机器的死板味少,那吐字清晰、字正腔圆的感觉,妥妥的降维打击。

后来我们扒出「大声朗读」的背后,其实是微软云 Azure 提供的语音合成服务。

除了能设置语音的停顿、发音、语调、语速、音高、音量外,还能给每句话设置不同的情绪,让生成的语音更加个性化。

卧槽!这两段AI语音太顶了!插图2

和一统江湖的抖音小姐姐,以及付费的讯飞快读比,免费的晓晓读到我心窝去了。

晓晓:

抖音:

讯飞:

所以当后面两年间,市场上突然出现了不少语音合成工具的时候,虽然没说出处,但一下子就能听出晓晓的声音。

记性好的小伙伴应该记得,咱们还深扒了一篇,其源头正是两个微软让你试用的 Demo,算是解锁了白嫖的新方案。

卧槽!这两段AI语音太顶了!插图3

不过时至今日,专门配「这个男人叫小帅」的云希(也是微软的)都快退隐江湖了,抖音上的各种特色配音也渐渐常态化,不再新奇。

再来一个猴哥版的「家人们谁懂啊」,只会觉得烦,因为我们知道,它不是真人配音。

从这个角度说,其实微软晓晓也一样,字是说清楚了,情绪也有,但就是不像人正常说话一样连贯。

让 10 个人听,保底 7、8 个能听出来这是 AI 生成的,而不是一个人对着麦在跟你说话。

直到上个星期,我在抖音上刷到了这么两段音频——

一段是聊职业热爱的对谈,除了那两声笑让人绷不住,主体声音真的是丝滑,尤其是那个「嗯」字的停顿,咬字、语气,自然无比。

另一段是播客场景下的录音,一个人说话的时候,就更牛 Plus 了,音调、语速,就像一个在收音极佳的环境下,专门录制的音频。

即便是被疯狂进化震撼了一整年,已经开始审美疲劳的我听来,第一反应也是脱口而出一句「卧槽!」

这谁听得出来屏幕后到底是不是人啊,要不是标题上明晃晃写着 AI,简直跟真人无二。

有一说一,作为一个普通话考试拿下一乙,以前做视频还专门练过念稿的我,是真没信心做到这么好。

我拿这两段语音去找播音主持的专业老师问了问,她们压根就没听出来这是 AI 生成的。

但这就是晓晓,一个全新的晓晓:微软刚刚公布的 AI 语音模型。

卧槽!这两段AI语音太顶了!插图4

卧槽!这两段AI语音太顶了!插图5

按官网的说法,本次更新的 AI 语音不再是专为「通用」设计,而是主打真实,为「对话」而生,更自然,也更添「人味」。

是的,咱们没办法拿着稿就立刻情绪饱满地把它念出来,但微软用实力说明,AI 可以。

论语音合成的专业程度,还得是微软这个老大哥。

不过在官方公告的评论区,全都是问为啥新模型无法使用的。

卧槽!这两段AI语音太顶了!插图6

我去细瞅了一下,公告里有提到,这个新的晓晓模型预计这两天才会实装。

卧槽!这两段AI语音太顶了!插图7

等过几天我搞定了,再给大家出一篇教程,有需要的小伙伴可以期待一下。卧槽!这两段AI语音太顶了!插图8

可以预见的是,等这个晓晓新模型实装,这个声音将来几年将会多次在各种视频中出现。以后屏幕后、网站里、回访电话时的小姐姐,可能是一个更像人的 AI,一个分不出真假的 AI

PS:经有人把晓晓请到了播客,动作是真快啊

卧槽!这两段AI语音太顶了!插图9

评论区更是好评连连,感兴趣的小伙伴可以去听一听。

卧槽!这两段AI语音太顶了!插图10

地址:www.xiaoyuzhoufm.com/episode/661003594f66d1c1da317634

再加上 DeepFake 的换脸,GeneFace++ 的对口型,VITS 的克隆声音……

不敢想,未来的世界会变成怎么样。

卧槽!这两段AI语音太顶了!插图11