logotipo LianeTTS Sintetizador de voz LianeTTS


Conhecendo o LianeTTS
    O que é o LianeTTS
    Demonstração online
    Possibilidades de uso
Uma breve história do LianeTTS
    Cenário
    Política de acessibilidade
    Oportunidade de negócio
Usando o sistema LianeTTS
    Instalação (Linux apenas)
    Uso por linha de comando
    Uso interativo
    Criando programas com síntese de voz
Detalhamento técnico
    Arquitetura do sistema
    Arquivos de configuração
    Funcionamento do MBROLA
    Lista de fonemas
    A base BR4
    Configuração avançada
    Outros temas correlatos
Equipe
    Desenvolvedores
    Suporte técnico
    Colabore com o projeto
    Instituições participantes


Arquitetura do sistema LianeTTS

A síntese de voz através do sistema LianeTTS pode ser pensado como um conjunto de etapas em sequência (pipeline), em que cada etapa produz uma transformação sobre os dados gerados na etapa anterior.

São as seguintes as fases utilizadas no LianeTTS

1. Pré-processamento

Nesta fase é tomado um texto qualquer do qual são substituídos para texto corrido os seguintes elementos:

  • Números
  • Caracteres especiais
  • Abreviaturas

    exemplos:

    123 - transcrito pra cento e vinte e três

    @ - transcrito como arroba

    av. - transcrito para avenida

    2. Análise morfológica e desambiguação de fala

    Tenta reconhecer a estrutura da frase. Identificando, as diversas palavras em uma frase independentemente, visando sua classe gramatical. Na língua portuguesa, existem dez classes gramaticais.

  • Variáveis

    1. Substantivo (Varia em gênero [homem-mulher], número [homem-homens] e grau [homem-homenzinho-homenzarrão]);

    2. Artigo (Varia em gênero [o-a] e número [o-os]);

    3. Adjetivo (Varia em grau [belo-mais/menos belo que-belíssimo], número [belo-belos] e, não necessariamente, em gênero [belo-bela]);

    4. Numeral (Varia, não necessariamente, em gênero [dois-duas]);

    5. Pronome (Varia em pessoa [ele-eu], número [ele-eles] e, não necessariamente, em gênero [ele-ela]);

    6. Verbo (Varia em pessoa [desgosto-desgostas], número [desgosto-desgostamos], tempo [desgosto-desgostava-desgostarei] e modo [desgostais-desgosteis-desgostai]).

    Verbo é o nome dado à classe gramatical que designa uma ocorrência ou situação. É uma das duas classes gramaticais nucleares do idioma, sendo a outra o substantivo. É o verbo que determina o tipo do predicado, que pode ser predicado verbal, nominal ou verbo-nominal. O verbo pode designar ação, estado ou fenômeno da natureza.

  • Invariáveis

    1. Advérbio;

    2. Preposição;

    3. Conjunção;

    4. Interjeição.

    Bem como

  • Palavras de função (que modificam a melodia da frase), tais como pronomes, preposições, conjunções
  • Palavras de conteúdo e suas inflexões, derivações e composições

    Esta parte tem forte conexão com a prosódia, na medida em que a melodia correta para a frase depende da correta identificação dos papéis das palavras na frase.

    3. Separação das sílabas e cálculo da curva de prosódia

    A partir da marcação morfológica, é produzida a melodia da frase (prosódia). No Lianetts, esta melodia é definida como uma curva de frequências a serem reproduzidas ao longo do tempo. Para cada sílaba é associado o tempo de duração. Para cada palavra são associados 3 números, representando a frequência ao início da palavra, a frequência na sílaba tónica e a frequência ao fim da palavra.

    Nota:
    As frequências são aproximadas por números entre 1 e 9, cujos valores reais de frequência são fornecidos numa tabela de configuração.

    ex.: ... completar ...

    4. Transformação de letras para fonemas

    Nesta fase, o texto vai sendo lido, letra a letra, e as letras vão sendo modificadas segundo as regras básicas da escrita da língua.

    ex: a letra “s” entre vogais soa como z, caso contrário soa como s. Muitas regras na língua portuguesa. Durante esta transformação, é consultado também um dicionário de excessões, pois há muitas palavras que não seguem as regras de pronúncia habituais.

    ex.: ... completar ...

    5. Aplicação da prosodia

    Nesta fase os difones recebem a forma final do arquivo .PHO, que será enviado posteriormente para o sistema MBROLA.

    ex.: ... completar ...

    6. Concatenação dos difones e produção do som

    Os difones especificados após a aplicação da prosódia são buscados na base BR4 pelo sistema MBROLA, concatenados e exibidos na forma sonora.

    ex.: ... completar ...


  • Cartinha Envie carta para o projeto LianeTTS