中文tts技术

阅读数:73 评论数:0

跳转到新版页面

正文

一、概述

语言是人类最普通、最常用的信息交流方式，而且它还可以传达一些其它的信息，如：人的情感、说话时的态度以及说话人的人性等，因些，可以说语言是最自然、便利和有用的通信方式。

tss（Text to Speech），即文本转为语音。现在基于大语料库的tts系统已经能够产生高清晰度的自然度的合成语音，并已得到较大的发展和应用。

按照常规技术方法，我们以单个汉字对应汉字发音建立汉字语音数据库，然后逐个查找文本中的汉字，把汉字语音逐个输出。这种tts方法实现非常简单，但是我们会发现文本语音是一个字一个字地发音，与人类自然语言有很大的不同。

首先，中文语句发音不是逐字的发音的简单结合，每个字的发音受上下字的影响。因此，tts转换必须对文字进行词法分析。

其次，中文语句的发音受上下文语气、语境的影响。因此，tts转换必须首先对整句甚至整文进行语法分析。

二、文本语法分析

汉语的每一个字，通常都被认为是一个有调的音节。每一个声调都有一些固定的调型，但我们通常所说的话往往是由多个字组成的连续语句，这些声调的调型受相邻其他字或词的影响，常常会产生变换，甚至失去原有的调型，这就是汉语中常说的协同发音现象。这也就是为什么人说话时会有连续感，而不是一个字一个字地发音。同时，连续语句发音的中间还会有短暂的停顿，这些又体现了人说话的节奏感。

第一步：对句子查词典，找出所有可能的词组。

词典查询主要考虑分词词典的数据结构与查询算法的时空消耗问题。

第二步：对句子进行排除歧义。

三、文本音调分析

对于文本的音调来说，首先，影响文本音调是句子的语气。

其次，影响文本音调的是词组。

第三，影响文本音调的是重音。

按照上面的思路，我们可以将汉语的文字信息沿着“语句-》词-》字-》重音”来划分。

四、tts语音合成

通过上面我们对原始文本的词法分析和音调分析，对句子进行停顿切分和音调确定，下面我们可就可以进行tts语音合成。

语音合成技术：

1、参数合成技术

它多以音节、音素为合成单位，按照语音学理论，对所有合成的单元做语音分析，分帧提取特征参数，再经编码后形成语音库；全成语音时，根据待合成的信息，从语音库取出相应的合成参数，经参数合成器全成出语音。这种技术十分依赖语言学和语音学的发展，如果语言生成模型不够完善，合成的语音的音质是比较差的，难以达到文语转换系统的实用要求。不过，这类系统需要的存储容量低，易于实现韵律修改。

2、波形合成

波形合成以语句、短语、词或音节为合成单位，经录音、编码压缩后形成语音库；合成语音时，根据待输出的信息，从语音库中取出相应的单元的波形数据，经拼接解码输出语音。这种语音合成技术用原始语音波形替代参数，而且这些语音波形又自然语音的词或句子，它隐含了声调、重音等细微特性，合成出的语音清晰自然，其质量普通高于参数合成。

基于大规模真实语音数据库的合成系统已经成为语音合成的主流技术，它采用一种基于真人自然发音、多样本、不等长言语片段的波形直接拼接技术，不需要韵律修改，因而避免了由此带来的波形重建的失真，能够产生高质量的输出语音。但这种系统需要大容量的存储器和较高的处理速度。

秒吧学习