Arquitetura do sistema LianeTTS
A síntese de voz através do sistema LianeTTS pode ser pensado como um conjunto de etapas
em sequência (pipeline), em que cada etapa produz uma transformação sobre os dados gerados
na etapa anterior.
São as seguintes as fases utilizadas no LianeTTS
1. Pré-processamento
Nesta fase é tomado um texto qualquer do qual são substituídos para texto corrido os seguintes elementos:
Números
Caracteres especiais
Abreviaturas
exemplos:
123 - transcrito pra cento e vinte e três
@ - transcrito como arroba
av. - transcrito para avenida
2. Análise morfológica e desambiguação de fala
Tenta reconhecer a estrutura da frase.
Identificando, as diversas palavras em uma frase independentemente, visando sua classe gramatical. Na língua portuguesa, existem dez classes gramaticais.
Variáveis
1. Substantivo (Varia em gênero [homem-mulher], número [homem-homens] e grau [homem-homenzinho-homenzarrão]);
2. Artigo (Varia em gênero [o-a] e número [o-os]);
3. Adjetivo (Varia em grau [belo-mais/menos belo que-belíssimo], número [belo-belos] e, não necessariamente, em gênero [belo-bela]);
4. Numeral (Varia, não necessariamente, em gênero [dois-duas]);
5. Pronome (Varia em pessoa [ele-eu], número [ele-eles] e, não necessariamente, em gênero [ele-ela]);
6. Verbo (Varia em pessoa [desgosto-desgostas], número [desgosto-desgostamos], tempo [desgosto-desgostava-desgostarei] e modo [desgostais-desgosteis-desgostai]).
Verbo é o nome dado à classe gramatical que designa uma ocorrência ou situação. É uma das duas classes gramaticais nucleares do idioma, sendo a outra o substantivo. É o verbo que determina o tipo do predicado, que pode ser predicado verbal, nominal ou verbo-nominal. O verbo pode designar ação, estado ou fenômeno da natureza.
Invariáveis
1. Advérbio;
2. Preposição;
3. Conjunção;
4. Interjeição.
Bem como
Palavras de função (que modificam a melodia da frase), tais como pronomes, preposições, conjunções
Palavras de conteúdo e suas inflexões, derivações e composições
Esta parte tem forte conexão com a prosódia, na medida em que a melodia correta para a frase depende da correta identificação dos papéis das palavras na frase.
3. Separação das sílabas e cálculo da curva de prosódia
A partir da marcação morfológica, é produzida a melodia da frase (prosódia). No Lianetts, esta melodia é definida como uma curva de frequências a serem reproduzidas ao longo do tempo. Para cada sílaba é associado o tempo de duração. Para cada palavra são associados 3 números, representando a frequência ao início da palavra, a frequência na sílaba tónica e a frequência ao fim da palavra.
Nota:
As frequências são aproximadas por números entre 1 e 9, cujos valores reais de frequência são fornecidos numa tabela de configuração.
ex.: ... completar ...
4. Transformação de letras para fonemas
Nesta fase, o texto vai sendo lido, letra a letra, e as letras vão sendo modificadas segundo as regras básicas da escrita da língua.
ex: a letra “s” entre vogais soa como z, caso contrário soa como s.
Muitas regras na língua portuguesa. Durante esta transformação, é consultado também um dicionário de excessões, pois há muitas palavras que não seguem as regras de pronúncia habituais.
ex.: ... completar ...
5. Aplicação da prosodia
Nesta fase os difones recebem a forma final do arquivo .PHO, que será enviado posteriormente para o sistema MBROLA.
ex.: ... completar ...
6. Concatenação dos difones e produção do som
Os difones especificados após a aplicação da prosódia são buscados na base BR4 pelo sistema MBROLA, concatenados e exibidos na forma sonora.
ex.: ... completar ...