语音合成 tts 声学基础
阅读数:71 评论数:0
跳转到新版页面分类
AI
正文
一、概述
声音本质上是由振动产生的一种机械波,一个完整的音节由元音和辅音相互组成。
二、元音
当气流经过声带在口腔中没受到一点阻碍或只受到轻微阻碍,称之为元音。
英文中主要包括a、e、i 、o、 u 五个元音。
普通话中则包括十个单元音和十三个复元音。
三、辅音
当气流经过口腔或咽部存在阻碍所发出的声音,辅音又分为清辅音各浊辅音。
普通话共有22个辅音。
1、清辅音
指气流通过咽部时,声带没有完全振动,主要依靠口腔对气流的阻碍作用发声。
2、浊辅音
指气流通过声带时,声带有充分振动并依赖口腔阻碍进行发声。
四、音频信号
是声音在数字层面的直观体现,其中包含声音频率、振幅、相位。
1、频率
人类的声音信号频率在300~3000Hz,在语音中具体体现为音调,频率越高音调越高。
2、振幅
是能量的体现,在语音中具体体现为音量大小,人类听觉范围在0dB~140dB
0~20dB | 安静 |
30~40dB | 微小 |
50~70dB | 正常 |
80~100dB | 响音 |
110~130dB | 极响音 |
相关推荐
一、概述
语言是人类最普通、最常用的信息交流方式,而且它还可以传达一些其它的信息,如:人的情感、说话时的态度以及说话人的人性等,因些,可以说语言是最自然、便利和有用的通信方式。
tss(Text to
一、概述
1、简介
非自回归tts模型可以比质量相当的自回归模型更快的合成语音,以前的神经tts模型首先从文本自加归生成mel谱图,然后使用单独训练的声码器从生成的mel谱图合成语音。它们通常存在推理
一、概述
对原始音频进行建模是一个具有挑战的问题,因为数据具有较高的时间采样率,因此代替直接对原始时间音频进行建模,大多数据方法通过对可以从原始时有效地计算的较低采样率表示进行建模来简化该问题。对齐的
一、概述
波形拼接的方法主要是分析通过前端提取出的输入文本中相应信息,比如文本中的韵律信息、声学参数等,而后从语音库中提取相应的语音单元进行拼接,最终合成语音。
二、大语料库
基于大语料库的波形拼接
一、概述
参数合成方法的前提是需要对人类声音信息进行建模,最后通过声学特征可以重建语音波形。它不不需要存储任何语音片段,直接使用参数对语音进行具体的描述。
目前使用较为广泛的是由参数合成方法的发展而衍
一、概述
国际音标是目前国际上通用的对声音进行标注的方法,其中汉语音单元中主要分为三类:章节、音位和音素,分别表示不同的语音分割状态。
1、音系
音系是针对某一具体语言的,不同的语言有不同的发音系统。