语音合成（语音合成网站）-51转让网

本篇文章给大家谈谈语音合成，以及语音合成网站对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。

本文目录一览：

1、吾爱语音合成原理
2、语音合成技术
3、语音合成的名词解释？
4、一文看懂语音合成：模拟人类语言，暗藏哪些商机？
5、语音合成简介 Text-to-speech
6、人工智能：语音合成技术

吾爱语音合成原理

亲你好，为你了解到语音合成原理如下：

语音合成的技巧经历了一个循序渐进的发展过程，从参数的组合到拼读和连接的组合，再到两者的逐步结合。其不断发展的动力是人们的认识水平和需要提高。

语音合成的理论基础是语音合成的数学模型。在这个模型中，声音的产生过程是在激励信号的激励下，声波通过谐波腔(声道)，从嘴或鼻子辐射出来。因此，声学参数的数目和声谐振动的特性是研究的重点。但是共振峰频率率(极频率)的分布决定了音色的音色。

不同的音调有不同模式的共振峰，因此可以以每个共振峰的频率及其带宽为参数来构造共振峰滤波器。然后通过若根滤波器的组合来模拟声道的传输特性(频率响应)，对激励源发出的信号进行调制，然后通过辐射模式就可以得到合成的声音。这是共振峰合成技术的基本原理。

语音合成技术

一，语音合成技术原理

语音合成（test to speech）,简称TTS。将文字转化为语音的一种技术，类似于人类的嘴巴，通过不同的音色说出想表达的内容。

在语音合成技术中，主要分为语言分析部分和声学系统部分，也称为前端部分和后端部分，语言分析部分主要是根据输入的文字信息进行分析，生成对应的语言学规格书，想好该怎么读；声学系统部分主要是根据语音分析部分提供的语音学规格书，生成对应的音频，实现发声的功能。

1. 语言分析部分

语言分析部分的流程图具体如下，可以简单的描述出语言分析部分主要的工作。

文本结构与语种判断：当需要合成的文本输入后，先要判断是什么语种，例如中文，英文，藏语，维语等，再根据对应语种的语法规则，把整段文字切分为单个的句子，并将切分好的句子传到后面的处理模块。

文本标准化：在输入需要合成的文本中，有阿拉伯数字或字母，需要转化为文字。根据设置好的规则，使合成文本标准化。例如， “请问您是尾号为8967的机主吗？“8967”为阿拉伯数字，需要转化为汉字“八九六七”，这样便于进行文字标音等后续的工作；再如，对于数字的读法，刚才的“8967“为什么没有转化为”八千九百六十七“呢？因为在文本标准化的规则中，设定了”尾号为+数字“的格式规则，这种情况下数字按照这种方式播报。这就是文本标准化中设置的规则。

文本转音素：在汉语的语音合成中，基本上是以拼音对文字标注的，所以我们需要把文字转化为相对应的拼音，但是有些字是多音字，怎么区分当前是哪个读音，就需要通过分词，词性句法分析，判断当前是哪个读音，并且是几声的音调。

例如，“南京市长江大桥”为“nan2jing1shi4zhang3jiang1da4qiao2”或者“南京市长江大桥”“nan2jing1shi4chang2jiang1da4qiao3”。

句读韵律预测：人类在语言表达的时候总是附带着语气与感情，TTS合成的音频是为了模仿真实的人声，所以需要对文本进行韵律预测，什么地方需要停顿，停顿多久，哪个字或者词语需要重读，哪个词需要轻读等，实现声音的高低曲折，抑扬顿挫。

2 ．声学系统部分

声学系统部分目前主要有三种技术实现方式，分别为：波形拼接，参数合成以及端到端的语音合成技术。

1) 波形拼接语音合成

通过前期录制大量的音频，尽可能全的覆盖所有的音节音素，基于统计规则的大语料库拼接成对应的文本音频，所以波形拼接技术通过已有库中的音节进行拼接，实现语音合成的功能。一般此技术需要大量的录音，录音量越大，效果越好，一般做的好的音库，录音量在50小时以上。

优点：音质好，情感真实。

缺点：需要的录音量大，覆盖要求高，字间协同过渡生硬，不平滑，不是很自然。

2) 参数语音合成技术

参数合成技术主要是通过数学方法对已有录音进行频谱特性参数建模，构建文本序列映射到语音特征的映射关系，生成参数合成器。所以当输入一个文本时，先将文本序列映射出对应的音频特征，再通过声学模型（声码器）将音频特征转化为我们听得懂的声音。

优点：录音量小，可多个音色共同训练，字间协同过渡平滑，自然等。

缺点：音质没有波形拼接的好，机械感强，有杂音等。

3) 端到端语音合成技术

端到端语音合成技术是目前比较火的技术，通过神经网络学习的方法，实现直接输入文本或者注音字符

，中间为黑盒部分，然后输出合成音频，对复杂的语言分析部分得到了极大的简化。所以端到端的语音合成技术，大大降低了对语言学知识的要求，且可以实现多种语言的语音合成，不再受语言学知识的限制。通过端到端合成的音频，效果得到的进一步的优化，声音更加贴近真人。

优点：对语言学知识要求降低，合成的音频拟人化程度更高，效果好，录音量小。

缺点：性能大大降低，合成的音频不能人为调优。

以上主要是对语音合成技术原理的简单介绍，也是目前语音合成主流应用的技术。当前的技术也再迭代更新，像端到端技术目前比较火的wavenet，Tacotron，Tacotron2以及deepvoice3等技术，感兴趣的朋友可以自己了解学习。

二，技术边界

目前语音合成技术落地是比较成熟的，比如前面说到的各种播报场景，读小说，读新闻以及现在比较火的人机交互。但是目前的TTS还是存在着一些解决不掉的问题。

1. 拟人化

其实当前的TTS拟人化程度已经很高了，但是行业内的人一般都能听出来是否是合成的音频，因为合成音的整体韵律还是比真人要差很多，真人的声音是带有气息感和情感的，TTS合成的音频声音很逼近真人，但是在整体的韵律方面会显得很平稳，不会随着文本内容有大的起伏变化，单个字词可能还会有机械感。

2. 情绪化

真人在说话的时候，可以察觉到当前情绪状态，在语言表达时，通过声音就可以知道这个人是否开心，或者沮丧，也会结合表达的内容传达具体的情绪状态。单个TTS音库是做不到，例如在读小说的时候，小说中会有很多的场景，不同的情绪，但是用TTS合成的音频，整体感情和情绪是比较平稳的，没有很大的起伏。目前优化的方式有两种，一是加上背景音乐，不同的场景用不同的背景音乐，淡化合成音的感情情绪，让背景音烘托氛围。二是制作多种情绪下的合成音库，可以在不同的场景调用不同的音库来合成音频。

3. 定制化

当前我们听到语音合成厂商合成的音频时，整体效果还是不错的，很多客户会有定制化的需求，例如用自己企业职员的声音制作一个音库，想要达到和语音合成厂商一样的效果，这个是比较难的，目前语音合成厂商的录音员基本上都是专业的播音员，不是任何一个人就可以满足制作音库的标准，如果技术可以达到每一个人的声音都可以到达85%以上的还原，这将应用于更多的场景中。

三，效果指标和技术指标

随着语音合成技术的发展，语音合成（TTS）已经应用于生活中的各个场景，实现了语音合成技术的应用落地。例如，在高铁，机场的语音播报工作，医院的叫号业务，以及现在比较火热的语音交互产品。语音合成的各种应用说明它不仅仅是一项技术，更是一款产品，作为产品，可以用哪些指标来衡量这款产品呢？

下面将介绍两种衡量TTS产品的指标，效果指标和性能指标。

1. 效果指标

1) MOS 值

目前关于TTS合成效果的评判标准，行业内一致认可的是mos值测试，找一些业内专家，对合成的音频效果进行打分，分值在1-5分之间，通过平均得到最后的分数，这就是mos值测试。很显然这是一个主观的评分，没有具体的评分标准，这和个人对音色的喜好，对合成音频内容场景的掌握情况，以及对语音合成的了解程度是强相关的，所以算是仁者见仁，智者见智的测试方式。

由于TTS合成效果的评判主观性，导致在一些项目的验收中，不能明确出具体的验收标准，例如在定制音库的项目中，客户想做一个独有的定制音库，最后验收肯定是客户对合成音频效果满意，则成功验收，这是一个很主观的标准，怎么样才算满意呢？对于TTS厂商而言，这是不公平的。所以需要找一些可以量化的标准使得项目可以更好的验收，双方也不会因为合成效果出分歧。这里推荐一条验收标准，可以将语音合成效果量化，分别对原始录音和合成音频进行盲测打分（mos值测试），合成音频的mos值能达到原始录音的85% （数值可以根据项目情况来定）以上，就可验收，这样就可以把验收标准确定下来，且进行了量化。当然打分团队可以是客户和TTS厂商的人，也可以请第三方的人来打分，确保公平。

虽然mos值是一个比较主观的测试方式，但也有一些可评判的标准。例如在合成的音频中，多音字的读法，当前场景下数字的播报方式，英语的播报方式，以及在韵律方面，词语是否连在一起播报，应该重读的地方是否有重读，停顿的地方是否合理，音色是否符合应用于当前的这个场景，都可以在打分的时候做为得分失分的依据。

分享一个简单的评分标准，可作为参考依据。

2) ABX 测评

合成效果对比性测试，选择相同的文本以及相同场景下的音色，用不同的TTS系统合成来对比哪个的合成效果较好，也是人为的主观判断，但是具有一定的对比性，哪一个TTS更适合当前的场景，以及合成的效果更好。

2. 性能指标

1) 实时率

在语音合成中，合成方式分为非流式合成和流失合成，非流失合成指的是一次性传入文本，一次性返回合成的文本音频；流式合成指的是文本传输给TTS时，TTS会分段传回合成的音频，这样可以减少语音合成的等待时间，在播报的同时也在合成，不用等到整段音频合成完再进行播报，所以对于语音合成时间的一个指标就是实时率。实时率等于文字合成所需时长除以文字合成的音频总时长，下面是实时率的计算公式：

为什么讲实时率会说到非流失合成和流式合成，因为在流式合成场景中，开始合成的时候也就已经开始播报了，音频合成完成也就播报完成了，不会产生等待的过程，这种过程主要用于语音交互的场景，智能机器人收到语音信号之后，马上就可以给予答复，不会让用户等太久。所以为了确保用户的最佳体验，要求“文字合成所需时长”≤“文字合成出的音频时长”，也就是实时率要小于等于1 。

2) 首包响应时间

在流式合成中，分段合成的音频会传输给客户端或者播放系统，在合成首段音频时，也会耗费时间，这个耗时称为“首包响应时间”。为什么会统计这个时间呢，因为在语音交互中，根据项目经验以及人的容忍程度，当用户说完话时，在1200ms之内，机器人就要开始播报回复，这样就不会感觉有空白时间或者停顿点，如果时间超过1200ms，明显感觉会有一个等待的时间，用户体验不佳，性子急的用户可能就终止了聊天。1200ms的时间不只是TTS语音合成的首包时间，还有ASR（语音识别）和NLU（自然语言理解）所消耗的时间，所以TTS首包响应时间要控制在500ms以内，确保给ASR，NLU留有更多的时间。

3) 并发数

人工智能的发展主要有三个方面，分别为算法，算力，数据，其实讲的性能指标相当于是算力的部分，目前承载算力的服务器有CPU服务器和GPU服务器。前面说到实时率的指标是要小于等于1，那如果实时率远小于1，是不是会对服务器造成浪费呢，因为只要实时率小于等于1，就可以满足用户的需求，让用户体验良好。所以上面说的实时率是针对CPU服务器单核单线程时，或者GPU单卡单线程时，那实时率的公式可以为：

为了资源的最大利用化，我们只需确保实时率接近1，或者等于1就行，没必要远小于1，所以当在单核单线程实时率远小于1时，则可以实现一核二线，一核三线的线程数，使得实时率为1，这个一核“二线”，“三线”，这个“几线”说的就是几并发数，准确说是单核并发数。那这个并发数怎计算呢，举个例子，如果单核单线程的并发数是0.1，则一核10线程的并发就是1，也是满足需求的，就可以按照这个并发数给客户提供。所以并发数的计算公式如下：

所以当用户需要200线程的语音合成并发数使，按0.1的实时率，一核十线，只需要20核的cpu服务器，则可以跟客户要求24核的cpu服务器即可满足客户的需求，也为客户节省了成本。

再说一下这个线程和并发的概念，线程，并发算是同一个概念，例如200线并发，指的是需要同时支持200线的语音合成，200线是同时合成音频的，合成内容可以相同也可以不同。

4) 合成100个字需要多少时间（1s能合成多少个字）

有些客户对于实时率，响应时间这些概念是比较模糊的，他会问你们的 TTS合成100个字需要多少时间或者 1s能合成多少个字，所以这个时候为了方便和客户沟通，我们需要知道合成100个字TTS消耗的时间。这个数据是可以大概算出来的，当然也可以直接让测试测出一百字消耗的时间。这里主要讲一下计算的方法。

按照正常的播报速度，1秒可以播报4个字左右，我们就按照四个字计算，100个字的音频，音频时长大概就是25s（100除以4），假如实时率为0.1，再根据当前的实时率计算公式，算出合成时间为2.5s，也可以计算出1s合成的字数（100/2.5）为40个字。

简单介绍了语音合成产品会涉及到的一些参数指标，还有一些测试时需要了解的指标数据，例如cpu占用，内存占用，DPS（单位时间合成的音频总时长）,TPS（单位时间合成的音频任务数）以及TP99，感兴趣的朋友可以查询研究一下，这些数据也主要用于项目poc的测试中，或者TTS产品整体的测试中，可以算是对于TTS产品的一个整体的了解。

四，语音合成厂商

有很多厂商拥有语音合成技术，有互联网大厂，也有一些只专注于人工智能的企业。

科大讯飞科大讯飞的语音合成技术在全球范围内也是数一数二的，合成的音频效果自然度高，讯飞官网挂接的音库是最多的，且涉及很多的场景，以及很多的外语音库。

阿里巴巴在阿里云官网的音库，有几个音库的合成效果非常棒，例如艾夏，合成的音频播报时感觉带有气息感，拟人化程度相当高。

百度百度的语音合成技术还是很强的，但是官网给的合成音库较少，具体不太好评判。

灵伴科技这家公司在语音合成领域是不在忽略的。灵伴的音库合成音效果也是非常的棒，有一个东北大叔的音库，主要是偏东北话，整体的韵律，停顿，重读等掌握的很好，很到位。

标贝科技标贝科技和灵伴科技一样，是语音合成领域不可小觑的两个企业，是因为他们TTS合成的音频效果拟人化程度很高，每个场景的风格也很逼真。

捷通华声捷通华声是一家老牌的人工智能企业，合成的音频效果整体还是不错的，且支持多种语种的音库。

还有些企业没有一一列出来，是因为上面这些企业是在平时项目中，或者TTS技术落地应用上比较多的企业。

五，小结

目前的语音合成已经应用于各种场景，是较成熟可落地的产品，对于合成音的要求，当前的技术已经可以做很好了，满足了市场上绝大部分需求，语音合成技术主要是合成类似于人声的音频，其实当前的技术已完全满足。目前的问题在于不同场景的具体需求的实现，例如不同的数字读法，如何智能的判断当前场景应该是哪种播报方式，以及什么样的语气和情绪更适合当下的场景，多音字如何更好地区分，确保合成的音频尽可能的不出错。当然错误有时候是不可避免的，但是如何在容错范围之内，或者读错之后是否有很好的自学机制，下次播报时就可以读对，具有自我纠错的能力，这些可能是当前产品化时遇到的更多更实际的问题，在产品整体设计的时候，这些是需要考虑的主要问题。

后续会讲述在实际场景中主要遇到的问题以及解决的方案。

语音合成的名词解释？

语音合成，就是通过音频制作软件，把多个不同的语音片段，合成为一段完整的语音的一个制作过程。

一文看懂语音合成：模拟人类语言，暗藏哪些商机？

语音合成技术给我们带来了很多惊喜，你知道自己每天都在与它们打交道吗？而开车时的导航就是语音合成的一种。虽然目前的"它们"只会相对机械的朗读文章，但可以肯定的是，语音合成技术已经走出实验室，开始商用，其潜在的巨大市场已露出曙光。

我们的身边总是人声鼎沸。

婴儿牙牙学语，男女互诉爱意。在肺部、气管和声带的共同作用下，声音出现，喉内肌肉协调作用下，我们说出能够代表自己想法的字符，再赋予其愤怒或喜悦或悲伤的情感，人类的语音就此形成。

18世纪末，一个因土耳其行棋傀儡的骗局将在多年后臭名昭著的发明家沃尔夫冈·冯·肯佩伦，花费了人生最后20年的时间，试图模拟人类的语音。他做了一个布满孔洞的空箱，空箱连接着一个奇异形状的鼓风机，鼓风机被压动后将使得内置的簧片振动，这一过程模拟了人类的发声，也确实发出了声音，而这也成就了人类最早的语音合成机械之一。

让机器更像人类，是无数科学家的梦想。这样的梦想被多方位的推进，从机器的外形上、内核的思考运算上，以及对外表达的说话上。

如今，电子设备取代了空盒子，算法则比簧片更能够协调发声。在技术发展下，声音的波动被计算机捕捉、计算、指引，最终发出声音。这一项带着前人梦想的技术，不再单单出现在电影和小说里，也承载起了巨大的市场走进千家万户，这就是语音合成。

从Siri开始的热潮，语音合成潜力无限

同时，Siri的热潮也拉开了语音合成技术运用的大门。

2014年微软推出了"小娜"与"小冰"，这是将Siri所拥有的语音识别技术及语音合成技术分开来，小娜负责理解复杂的口语指令并进行执行，而小冰主要能够和人类友好地聊天。

随后，这样的运用逐步增多：2014 年底，亚马逊发布了 Echo 智能音箱，语音助理 Alexa也随之亮相；一年半后，Google 也发布了第一代智能音箱 Google Home 和语音助手 Google Assistant。

国内的巨头也不遑多让，京东叮咚智能音箱、天猫精灵智能音箱、小爱系列智能音箱、小度智能音箱，也纷纷进入了国人的家居生活。

Siri的热潮同步开启的，不仅仅是语音合成技术在硬件上的应用，也包括一系列更具想象力的交互场景，带来了巨大的商机。

2015年春节，本就搭载了语音导航的高德地图与郭德纲合作，推出了高德地图欢笑版。用户打开高德地图，不仅能够听到导航播报，还能听到郭德纲的极具特色的段子。这一次尝试，让高德地图一度跃至苹果App Store榜单第2名。

在今年新冠肺炎疫情期间，"宅经济"大行其道，"听书"市场也快速爆发，有声阅读成为新的阅读潮流。

除此以外，短视频中的AI配音，让视频内容者省去大量配音时间；对已故知名艺人的声音采集，实现过去与现在的交互，圆了一代粉丝的梦想……

我们可以看到，语音合成技术的未来拥有巨大的想象空间，根据赛迪智库数据，预计到2021年智能语音市场规模将达195亿元。在这其中，智能语音就由语音识别技术（ASR）和语音合成技术（TTS）共同组成。

而这两项技术也正在被头部企业迅速推进，市场之下，语音合成已经不仅仅代表人类过去的梦想，更是代表着更"大一统"的科技格局，毕竟，这一技术改变着人类与机器的交互方式，也将改变未来人类的机器使用习惯，代表着全新的机会与入口。

从过去到现在，语音合成技术一览

1773年，俄国科学家、在哥本哈根生活的生理学教授克里斯蒂安·克拉特齐斯坦（Christian Kratzenstein）制造了一个特别的设备，通过共鸣管和风琴管的连接，几乎可以完美的发出 a、e、i、o、u 这五个元音。

十多年后，前文提到的沃尔夫冈·冯·肯佩伦也制造了一台类似的机械声学语音机器。随后，多位发明家基于这一机器进行改进，都是试图通过物理机模拟人说话发音。

这样的尝试已经令人难以想象，不过，即使这样的物理机发展得登峰造极，也无法模拟出我们说出的每一个音节、无法拥有人说话的音质，也无法停顿、无法带有情绪。

因此，另一种方式出现——拼接系统，让说话人录制语音存入系统，在合成语音时选择对应的片段进行拼接、合成。这样的拼接系统能够相比物理机极大地接近人声，虽然拼接处的瑕疵难以消除，但是随着如今大数据时代的来临，大语料库的出现，让拼接出的语音逐步真人化，直至如今依然有商业系统在使用。

基于参数的合成技术的诞生背景则是基于神经网络架构的深度学习方法的飞速进展。当时，对语音的识别不再是识别一个简单的词和短词组，而是基于统计的方法，运用声学模型帮助计算机认知每个音素单元的声学特征、运用语言模型帮助计算机实现对人类用词习惯的认知，最终给到用户最高可能性的连接。在这其中，典型的模型是隐含马尔可夫模型（HMM），用来描述如何在可变长的时序特征序列上打词标签。

2017年3月，行业的引领者Google 提出了一种新的端到端的语音合成系统：Tacotron。端到端语音合成是在参数合成技术上演进而来的，把两段式预测统一成了一个模型预测，即拼音流到语音特征流的直接转换，省去了主观的中间特征标注，克服了误差积累，也大幅度提高了语音合成的质量。

然而，为了实现真正像人一样的发音，语音合成系统必须学会语调、重音、节奏等表达因素，这一问题，Tacotron也并未解决。

谷歌曾共享了两篇新论文试图解决这一问题，第一篇论文《Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron》介绍了"韵律学嵌入"（prosody embedding）的概念。论文中为 Tacotron 增加了一个韵律学编码器，该嵌入捕捉包括停顿、语调、语速等在内的音频特征可根据一个完全不同的说话者的声音生产语音。

第二篇论文《Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis》则在上一篇论文的架构上进一步展开，并且创新性地提出了一种建模潜在语音"因素"的无监督新方法。这一模型之下，学习的不再是时间对齐的精确的韵律学元素，而是较高层的说话风格模式，并且可以迁移于任意不同的短语之中。

如果论文提到的模型实现，那么我们便可以迫使 Tacotron 使用特定的说话风格，不需要参考语音片段，并能创造出语音长度多样化的不同语句，并带有情绪。

在不远的将来，或许我们就将听到，来自机器的人类声音。

国内：积极商用，进展瞩目

在语音合成的重要研究中，因为国内起步较晚，所以我们很少看到突破性的技术发展。但是，即便停留在艰难的探索初期，巨头们之于语音合成仍旧趋之若鹜。

我们也惊喜地看到，不少企业在近期通过语音合成的商用落地，展现出了自己的技术实力。

① 京东数科：AI主播"小妮"上岗

京东数科基于京东多年在人工智能、大数据、云计算等领域的技术沉淀，在2018年就开始组建机器人的团队，研究覆盖生命科学、传感器材料乃至运动力学与人机交互。

在全面的机器人开发体系下，今年5月，京东数科推出了令人瞩目的AI主播"小妮"，这是京东数科自主研发的AI虚拟数字人产品首次亮相。

小妮的真实是全方位的，在听感、表情、头部动作乃至口型上，小妮都极像真人。从文字到语音，小妮通过自研的轻量级对抗语音合成技术进行转化；而小妮特色鲜明的声音及极具真实性的呼吸和停顿，则是来源于在多人数据上结合深度神经网络进行个性化建模……

更为重要的是，小妮的出现打通了语音、图像、视频，在语音生成视频的阶段，她的形象同样真实。因为京东数科AI实验室利用对抗生成网络来还原更真实的表情，通过3D模型运动追踪技术来确保AI主播在说话时口型准确、表情细腻、头部运动自然。

而除了主播领域以外，AI虚拟数字人还可以用智能客服及招聘领域。在未来，我们可以预见到，AI虚拟数字人在其他高重复性场景的更多运用可能性。而伴随着京东数科全面的机器人体系研发技术的进展，或许也将出现超乎我们想象的AI运用。

② 科大讯飞：为多家企业提供底层技术支持

早在之前，科大讯飞就推出了讯飞录音笔、智能鼠标、阿尔法蛋等涉及语音交互的产品。今年，来自科大讯飞地一款彩色墨水屏阅读器正式面世，一方面，阅读器可以进行常见的新闻播报、语音读书，满足用户的基础要求；另一方面，阅读器结内置了神秘AI主播，可以对话用户、助力用户解决问题。同时，科大讯飞也为多家企业提供底层技术支撑，覆盖智能手机、智能汽车等多个领域。

③ 腾讯云：语音累计音色种类达24种

而对于拥有国内最大流量池——微信、QQ的腾讯而言，这家企业则选择为内容创业者提供服务。

今年9月，腾讯云语音合成团队正式开放面向全量用户的合成音频平台，该平台能够帮助用户在零门槛的情况下实现语音合成技术的运用，用户只需要直语音合成控制台上生成和下载文本对应的音频文件即可。该功能的侧重点是帮助内容创作者在公众号、短视频、小视频等内容上更简单、快捷地插入对应所需的音频文件。同时，腾讯云还发布了全新地11种音色，其中甚至包括粤语这样的方言在内，目前累计音色种类达24种。

④ 百度：百度大脑开放全栈语音引擎能力

作为将AI作为战略进行投入的百度，在语音合成上的推进也不容小觑。

去年，已经开放三年的百度发布了语音引擎。这是一套非常全面的系统，覆盖内容非常广泛，包括硬件模组、开发板以及语音交互场景解决方案等。在这其中，百度也专门围绕语音合成的成功进行了发布，推出了6个在线语音合成精品音库和5个离线语音合成精品音库。

未来语音合成将更接近人类的语言

立足现在，我们不禁畅想，未来的语音合成将是什么样，又将出现在哪些地方？

在技术上，毫无疑问，未来的语音合成将更接近人类的语言。一个理想的语音合成系统由三部分组成：文本分析、韵律生成和合成语音，而在这三方面，行业的发展都还有待提高。

在这其中，韵律生成是行业面临的共同问题，如何可以让语音合成更像人类？更具表达力？作为声学模型，还有大量个性化、情感化的变化因素需要学习。而值得一提的是，语音合成技术的复杂度也需要降低，从而实现更广度地运用。我们也相信，随着大量语料的有效使用，这一切问题也都将解决，未来，语音合成必将更加"传神"。

而随之而来的，我们的生活也将被改变。

一方面，在科技带来革新的同时，传统也将受到冲击。在上文中，小妮被运用与客服以及招聘的部分环节，那么很明显，在不远的未来，具有重复性的语音性质的工作将受到巨大影响。

而另一方面，更为智能的未来也将到来，在将来，人与机器的交互方式或许将被彻底改变，到那时，全新的商业机会也将藏于其中。

为了迎接这一时代，巨头趋之若鹜，而普通人也同样该砥砺前行。

#智能语音##语音合成#

语音合成（语音合成网站）

语音合成简介 Text-to-speech

这篇博客的主要内容是对语音合成（text to speech）的背景知识进行介绍。希望可以让读者通俗易懂的了解语音合成的工作原理，并对为了理解state-of-the-art text to speech 的算法做基础。

这个简介主要基于这篇论文 “Wavenet: a generative model for raw audio”的附录介绍的。论文链接如下： , 以及stanford CS224S的课程，链接如下

语音合成是通过文字人工生成人类声音，也可以说语音生成是给定一段文字去生成对应的人类读音。这里声音是一个连续的模拟的信号。而合成过程是通过计算机，数字信号去模拟。这里就需要数字信号处理模拟信号信息，详细内容可参考 [1]。

图片1，就是一个例子用来表示人类声音的信号图。这里横轴是时间，纵轴是声音幅度大小。声音有三个重要的指标，振幅（amplitude） , 周期（period）和频率（frequency）。振幅指的是波的高低幅度，表示声音的强弱，周期和频率互为倒数的关系，用来表示两个波之间的时间长度，或者每秒震动的次数。而声音合成是根据声波的特点，用数字的方式去生成类似人声的频率和振幅，即音频的数字化。了解了音频的数字化，也就知道了我们要生成的目标函数。

音频的数字化主要有三个步骤。

取样（sampling）：在音频数字化的过程，采样是指一个固定的频率对音频信号进行采样，采样的频率越高，对应的音频数据的保真度就越好。当然，数据量越大，需要的内存也就越大。如果想完全无损采样，需要使用Nyquist sampling frequency，就是原音频的频率2倍。

量化（quantization）：采样的信号都要进行量化，把信号的幅度变成有限的离散数值。比如从0 到 1，只有四个量化值可以用0， 0.25， 0.5， 0.75的话，量化就是选择最近的量化值来表示。

编码（coding ）：编码就是把每个数值用二进制的方式表示，比如上面的例子，就可以用2bit 二进制表示, 00, 01, 10, 11。这样的数值用来保存在计算机上。

采样频率和采样量化级数是数字化声音的两个主要指标，直接影响声音的效果。对于语音合成也是同样，生成更高的采样频率和更多多的量化级数（比如16 bit）, 会产生更真实的声音。通常有三个采样频率标准

1. 44.1kHz 采样，用于高品质CD 音乐

2. 22.05kHz 采样，用于语音通话，中品质音乐

3 . 11.025kHz 采样，用于低品质声音。

而量化标准一般有8位字长（256阶）低品质量化和16位字长（65536阶）高品质量化。

还有一个重要参数就是通道（channel）, 一次只采样一个声音波形为单通道，一次采样多个声音波形就是多通道。

所以在语音合成的时候，产生的数据量是数据量=采样频率* 量化位数*声道数，单位是bit/s。一般声道数都假设为1.。采样率和量化位数都是语音合成里的重要指标，也就是设计好的神经网络1秒钟必须生成的数据量。

文本分析就是把文字转成类似音标的东西。比如下图就是一个文本分析，用来分析 “PGE will file schedules on April 20. ” 文本分析主要有四个步骤，文字的规范化，语音分析，还有韵律分析。下面一一道来。

文本分析首先是要确认单词和句子的结束。空格会被用来当做隔词符. 句子的结束一般用标点符号来确定，比如问号和感叹号（？！）, 但是句号有的时候要特别处理。因为有些单词的缩写也包含句号，比如 str. "My place on Main Str. is around the corner". 这些特别情况一般都会采取规则（rule）的方式过滤掉。

接下来是把非文字信息变成对应的文字，比如句子中里有日期，电话号码，或者其他阿拉伯数字和符号。这里就举个例子，比如， I was born April 14. 就要变成， I was born April fourteen. 这个过程其实非常繁琐，现实文字中充满了缩写，比如CS, 拼写错误，网络用语， tmr -- tomorrow. 解决方式还是主要依靠rule based method，建立各种各样的判断关系来转变。

语音分析就是把每个单词中的发音单词标出来，比如Fig. 3 中的P, 就对应p和iy, 作为发音。这个时候也很容易发现，发音的音标和对应的字母不是一一对应的关系，反而需要音标去对齐（allignment）。这个对齐问题很经典，可以用很多机器学习的方法去解决，比如Expectation–maximization algorithm.

韵律分析就是英语里的语音语调，汉语中的抑扬顿挫。我们还是以英语为例，韵律分析主要包含了：重音 (Accent)，边界 (boundaries), 音长 (duration)，主频率 (F0).

重音（Accent）就是指哪个音节发生重一点。对于一个句子或者一个单词都有重音。单词的重音一般都会标出来，英语语法里面有学过，比如banana 这个单词，第二个音节就是重音。而对于句子而言，一样有的单词会重音，有的单词会发轻音。一般有新内容的名词，动词，或者形容词会做重音处理。比如下面的英语句子， surprise 就会被重音了，而句子的重音点也会落到单词的重音上，第二个音节rised, 就被重音啦。英语的重音规则是一套英语语法，读者可以自行百度搜索。

I’m a little sur prised to hear it cha racterized as up beat .

边界（Boundaries）就是用来判断声调的边界的。一般都是一个短语结束后，有个语调的边界。比如下面的句子， For language, 就有一个边界，而I 后面也是一个边界.

For language, I , the author of the blog, like Chinese.

音长（Duration）就是每个音节的发声长度。这个通俗易懂。 NLP 里可以假定每个音节单词长度相同都是 100ms, 或者根据英语语法，动词，形容词之类的去确定。也可以通过大量的数据集去寻找规律。

主频率（F0 ）就是声音的主频率。应该说做傅里叶转换后，值 (magnitude) 最大的那个。也是人耳听到声音认定的频率。一个成年人的声音主频率在 100-300Hz 之间。这个值可以用线性回归来预测，机器学习的方法预测也可以。一般会认为，人的声音频率是连续变化的，而且一个短语说完频率是下降趋势。

文本分析就介绍完了，这个方向比较偏语言学，传统上是语言学家的研究方向，但是随着人工智能的兴起，这些feature 已经不用人为设计了，可以用端到端学习的方法来解决。比如谷歌的文章 TACOTRON: TOWARDS END-TO-END SPEECH SYNTHESIS 就解救了我们。

这个部分就比较像我们算法工程师的工作内容了。在未来的博客里，会详细介绍如何用Wavenet 和WaveRNN 来实现这一步骤的。今天这个博客就是简介一下算法。

这里说所谓的waveform synthesis 就是用这些语言特征值（text features）去生成对应的声波，也就是生成前文所说的采样频率和振幅大小（对应的数字信号）。这里面主要有两个算法。

串接合成（concatenative speech synthesis）：这个方法呢，就是把记录下来的音节拼在一起来组成一句话，在通过调整语音语调让它听起来自然些。比较有名的有双音节拼接（Diphone Synthesis）和单音节拼接（Unit Selection Synthesis）。这个方法比较繁琐，需要对音节进行对齐（alignment），调整音节的长短之类的。

参数合成（Parametric Synthesis）：这个方法呢，需要的内存比较小，是通过统计的方法来生成对应的声音。模型一般有隐马尔科夫模型（HMM），还有最近提出的神经网络算法Wavenet, WaveRNN.

对于隐马尔科夫模型的算法，一般都会生成梅尔频率倒谱系数（MFCC），这个是声音的特征值。感兴趣的可以参考这篇博客去了解 MFCC。

对于神经网络的算法来说，一般都是生成256 个 quantized values 基于softmax 的分类器，对应声音的 256 个量化值。 WaveRNN 和wavenet 就是用这种方法生成的。

下面是我学习语音合成的一些资料，其中stanford cs224s 是强力推荐的，但是这个讲义讲的逻辑不是很清楚，要反复看才会懂。

UCSB Digital Speech Processing Course 课程, 声音信号处理的基础。建议读一遍，链接如下，

Stanford CS224S

WaveRNN,

音频的数字化，

人工智能：语音合成技术

近年来，国内巨头们也纷纷开始布局智能音箱（百度 Raven 、阿里天猫精灵、腾讯听听、京东叮咚、小米 AI 音箱等等），相信不少同学都已经入手；同时，越来越多读书 APP 提供“听书”的功能，甚至出现将小说转有声小说的软件；手机里的语音助手、电脑里的 Cortana、车载导航中说话越来越像真人，甚至感觉偶尔说话很有“感情”。这些应用背后都有用到了同一种技术——语音合成（TTS，即Text To Speech）。

语音合成一般会经过文本与韵律分析、声学处理与声音合成三个步骤，分别依赖于文本与韵律分析模型、声学模型与声码器。其中文本与韵律分析模型一般被称为“前端”，声学模型和声码器被称为“后端”。

文本与韵律分析中，首先对文本进行分词和标注：分词会将文本切成一个个词语，标注则会注明每个字的发音以及哪里是重音、哪里需要停顿等韵律信息；然后根据分词和标注的结果提取文本的特征，将文本变成一个个文本特征向量组成的序列。

目前百度语音技术是JAVA IDE语音合成技术。