卧槽！这两段AI语音太顶了！

卧槽！这两段AI语音太顶了！插图

大概三四年前，换了内核的 Edge 浏览器，推出了「大声朗读」的 TTS 功能。

卧槽！这两段AI语音太顶了！插图1

那时候默认的晓晓一出，真的是吊打市面上各种语音合成工具。

一般的文字转语音调用的都是通用引擎，那发声一听就是程序合成的，根本让人听不下去。

而晓晓，不光机器的死板味少，那吐字清晰、字正腔圆的感觉，妥妥的降维打击。

后来我们扒出「大声朗读」的背后，其实是微软云 Azure 提供的语音合成服务。

除了能设置语音的停顿、发音、语调、语速、音高、音量外，还能给每句话设置不同的情绪，让生成的语音更加个性化。

卧槽！这两段AI语音太顶了！插图2

和一统江湖的抖音小姐姐，以及付费的讯飞快读比，免费的晓晓读到我心窝去了。

晓晓：

抖音：

讯飞：

所以当后面两年间，市场上突然出现了不少语音合成工具的时候，虽然没说出处，但一下子就能听出晓晓的声音。

记性好的小伙伴应该记得，咱们还深扒了一篇，其源头正是两个微软让你试用的 Demo，算是解锁了白嫖的新方案。

卧槽！这两段AI语音太顶了！插图3

不过时至今日，专门配「这个男人叫小帅」的云希（也是微软的）都快退隐江湖了，抖音上的各种特色配音也渐渐常态化，不再新奇。

再来一个猴哥版的「家人们谁懂啊」，只会觉得烦，因为我们知道，它不是真人配音。

从这个角度说，其实微软晓晓也一样，字是说清楚了，情绪也有，但就是不像人正常说话一样连贯。

让 10 个人听，保底 7、8 个能听出来这是 AI 生成的，而不是一个人对着麦在跟你说话。

直到上个星期，我在抖音上刷到了这么两段音频——

一段是聊职业热爱的对谈，除了那两声笑让人绷不住，主体声音真的是丝滑，尤其是那个「嗯」字的停顿，咬字、语气，自然无比。

另一段是播客场景下的录音，一个人说话的时候，就更牛 Plus 了，音调、语速，就像一个在收音极佳的环境下，专门录制的音频。

即便是被疯狂进化震撼了一整年，已经开始审美疲劳的我听来，第一反应也是脱口而出一句「卧槽！」

这谁听得出来屏幕后到底是不是人啊，要不是标题上明晃晃写着 AI，简直跟真人无二。

有一说一，作为一个普通话考试拿下一乙，以前做视频还专门练过念稿的我，是真没信心做到这么好。

我拿这两段语音去找播音主持的专业老师问了问，她们压根就没听出来这是 AI 生成的。

但这就是晓晓，一个全新的晓晓：微软刚刚公布的 AI 语音模型。

卧槽！这两段AI语音太顶了！插图4

卧槽！这两段AI语音太顶了！插图5

按官网的说法，本次更新的 AI 语音不再是专为「通用」设计，而是主打真实，为「对话」而生，更自然，也更添「人味」。

是的，咱们没办法拿着稿就立刻情绪饱满地把它念出来，但微软用实力说明，AI 可以。

论语音合成的专业程度，还得是微软这个老大哥。

不过在官方公告的评论区，全都是问为啥新模型无法使用的。

卧槽！这两段AI语音太顶了！插图6

我去细瞅了一下，公告里有提到，这个新的晓晓模型预计这两天才会实装。

卧槽！这两段AI语音太顶了！插图7

等过几天我搞定了，再给大家出一篇教程，有需要的小伙伴可以期待一下。

可以预见的是，等这个晓晓新模型实装，这个声音将来几年将会多次在各种视频中出现。以后屏幕后、网站里、回访电话时的小姐姐，可能是一个更像人的 AI，一个分不出真假的 AI。

PS：已经有人把晓晓请到了播客，动作是真快啊：

卧槽！这两段AI语音太顶了！插图9

评论区更是好评连连，感兴趣的小伙伴可以去听一听。

卧槽！这两段AI语音太顶了！插图10

地址：www.xiaoyuzhoufm.com/episode/661003594f66d1c1da317634

再加上 DeepFake 的换脸，GeneFace++ 的对口型，VITS 的克隆声音……

不敢想，未来的世界会变成怎么样。

卧槽！这两段AI语音太顶了！插图11

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

相关文章