中文tts技术

阅读数:64 评论数:0

跳转到新版页面

分类

AI

正文

一、概述

语言是人类最普通、最常用的信息交流方式,而且它还可以传达一些其它的信息,如:人的情感、说话时的态度以及说话人的人性等,因些,可以说语言是最自然、便利和有用的通信方式。

tss(Text to Speech),即文本转为语音。现在基于大语料库的tts系统已经能够产生高清晰度的自然度的合成语音,并已得到较大的发展和应用。

按照常规技术方法 ,我们以单个汉字对应汉字发音建立汉字语音数据库,然后逐个查找文本中的汉字,把汉字语音逐个输出。这种tts方法实现非常简单,但是我们会发现文本语音是一个字一个字地发音,与人类自然语言有很大的不同。

首先, 中文 语句发音不是逐字的发音的简单结合,每个字的发音受上下字的影响。因此,tts转换必须对文字进行词法分析。

其次,中文语句的发音受上下文语气、语境的影响。因此,tts转换必须首先对整句甚至整文进行语法分析。

二、文本语法分析

汉语的每一个字,通常都被认为是一个有调的音节。每一个声调都有一些固定的调型,但我们通常所说的话往往是由多个字组成的连续语句,这些声调的调型受相邻其他字或词的影响,常常会产生变换,甚至失去原有的调型,这就是汉语中常说的协同发音现象。这也就是为什么人说话时会有连续感,而不是一个字一个字地发音。同时,连续语句发音的中间还会有短暂的停顿,这些又体现了人说话的节奏感。

第一步:对句子查词典,找出所有可能的词组。

词典查询主要考虑分词词典的数据结构与查询算法的时空消耗问题。

第二步:对句子进行排除歧义。

三、文本音调分析

对于文本的音调来说,首先,影响文本音调是句子的语气。

其次,影响文本音调的是词组。

第三,影响文本音调的是重音。

按照上面的思路,我们可以将汉语的文字信息沿着“语句-》词-》字-》重音”来划分。

四、tts语音合成

通过上面我们对原始文本的词法分析和音调分析,对句子进行停顿切分和音调确定 ,下面我们可就可以进行tts语音合成。

语音合成技术:

1、参数合成技术

它多以音节、音素为合成单位,按照语音学理论,对所有合成的单元做语音分析,分帧提取特征参数,再经编码后形成语音库;全成语音时,根据待合成的信息,从语音库取出相应的合成参数,经参数合成器全成出语音。这种技术十分依赖语言学和语音学的发展,如果语言生成模型不够完善,合成的语音的音质是比较差 的,难以达到文语转换系统的实用要求。不过,这类系统需要的存储容量低,易于实现韵律修改。

2、波形合成

波形合成以语句、短语、词或音节为合成单位,经录音、编码压缩后形成语音库;合成语音时,根据待输出的信息,从语音库中取出相应的单元的波形数据,经拼接解码输出语音。这种语音合成技术用原始语音波形替代参数,而且这些语音波形又自然语音的词或句子,它隐含了声调、重音等细微特性,合成出的语音清晰自然,其质量普通高于参数合成。

基于大规模真实语音数据库的合成系统已经成为语音合成的主流技术,它采用一种基于真人自然发音、多样本、不等长言语片段的波形直接拼接技术,不需要韵律修改,因而避免了由此带来的波形重建的失真,能够产生高质量的输出语音。但这种系统需要大容量的存储器和较高的处理速度。




相关推荐

一、概述 1、简介 非自回归tts模型可以比质量相当的自回归模型更快的合成语音,以前的神经tts模型首先从文本自加归生成mel谱图,然后使用单独训练的声码器从生成的mel谱图合成语音。它们通常存在推理

一、概述 对原始音频进行建模是一个具有挑战的问题,因为数据具有较高的时间采样率,因此代替直接对原始时间音频进行建模,大多数据方法通过对可以从原始时有效地计算的较低采样率表示进行建模来简化该问题。对齐的

一、概述 波形拼接的方法主要是分析通过前端提取出的输入文本中相应信息,比如文本中的韵律信息、声学参数等,而后从语音库中提取相应的语音单元进行拼接,最终合成语音。 二、大语料库 基于大语料库的波形拼接

一、概述 参数合成方法的前提是需要对人类声音信息进行建模,最后通过声学特征可以重建语音波形。它不不需要存储任何语音片段,直接使用参数对语音进行具体的描述。 目前使用较为广泛的是由参数合成方法的发展而衍

一、概述 国际音标是目前国际上通用的对声音进行标注的方法,其中汉语音单元中主要分为三类:章节、音位和音素,分别表示不同的语音分割状态。 1、音系 音系是针对某一具体语言的,不同的语言有不同的发音系统。

一、概述 声音本质上是由振动产生的一种机械波,一个完整的音节由元音和辅音相互组成。 二、元音 当气流经过声带在口腔中没受到一点阻碍或只受到轻微阻碍,称之为元音。 英文中主要包括a、e、i 、o、 u