Projeto CAP Detalhes sobre técnica original síntese de voz do DOSVOX


PATENTE DO SISTEMA DE FALA DO DOSVOX

Refere-se a presente invenção a um esquema para síntese de fala em língua portuguesa, que se utiliza de uma interface conversora, acoplavel à interface de impressora de microcomputadores, e que não se utiliza de fonte externa de energia para amplificação da fala. Atualmente os esquemas de síntese de fala em língua portuguesa se utilizam de elementos geradores de sons (sintetizadores) de preço relativamente alto, e que inibem sua utilização ampla em micro-computadores de propósito geral. A maior parte de tais sistemas se baseia em circuitos integrados conversores, preparados para a língua inglesa e que não conseguem sintetizar corretamente a fala em língua portuguesa. Existem também sistemas simples, baseados em placas conversoras geradoras de som, que tem suficiente generalidade para falar português, mas pelo fato de utilizarem placas internas ao microcomputador, inviabilizam que um programa executando num equipamento que não possua uma placa como esta, possa fazer uso de fala em língua portuguesa.

Com o intuito de solucionar estes problemas, foi desenvolvida a presente invenção, que se constitui numa interface que, controlada por rotinas convenientes de programação, é capaz de sintetizar a língua portuguesa com fidelidade, num microcomputador que utilize uma interface convencional de impressora. A saída sonora produzida pela presente invenção é produzida num fone de ouvido convencional, sendo facilmente acoplada um amplificador externo de áudio convencional.

A presente invenção deve ser entendida através de dois elementos principais: o subsistema de conversão e o subsistema de conversão e amplificação, mostrado na figura 1. O primeiro elemento toma uma palavra genérica em língua portuguêsa, realiza sua conversão através de um processo estilo "máquina de estados finitos" , gerando uma sequência de fonemas básicos. O segundo elemento toma a sequência de fonemas e os reproduz no fone de ouvido. Por questão de barateamento do método, a máquina de estados finitos não precisa ser realizada em circuito eletrônico, sendo implementada como como uma rotina do computador ao qual está acoplado o esquema de conversão e amplificação.

A partir de uma palavra genérica em língua portuguesa, a máquina de estados finitos, toma suas decisões baseadas na tabela de associação grafema-fonema, mostrada na tabela 1. O que a máquina realiza, em síntese, é identificar o grafema entre parênteses, dentro da palavra, e produzir como saída a lista de fonemas identificada à direita do sinal de igual. Os grafemas são testados pela sua vizinhança com outros grafemas, que podem ser letras específicas, vogais em geral, consoantes em geral, o início e o fim da palavra. Letras maiúsculas na tabela identificam que o fonema gerado será forte (sílaba tônica), substituindo a situação genérica de paroxitonicidade que é preferencial na língua portuguesa.

O método assim posto não produz uma tradução correta para todas as palavras da língua portuguesa. Para resolver as discrepâncias, as palavras que não se adequem ao método podem ser armazenadas numa tabela que é bastante pequena para ser armazenada numa memória de leitura exclusiva, que realize um "by-pass" da máquina de estados finitos. A tabela 1 constitui-se em item relevante de originalidade neste pedido de patente.

A partir da tradução fonética, a tradução para sons se realiza enviando os fonemas básicos, mostrados na tabela 2, para o esquema de conversão e amplificação. Os fonemas básicos são armazenados na memória convencional do computador. Os fonemas básicos podem ser sintetizados algoritmicamente, ou como no caso da implementação corrente do sistema, ter sido previamente adquiridos de um microfone através de uma interface convencional de aquisição de som por computador.

A etapa de conversão, mostrada na figura 1, basicamente se realiza através do uso de um conversor digital para analógico por divisor resistivo. A alimentação elétrica deste conversor é tomada dos próprios sinais do conector de impressora do microcomputador (strobe, autofeed XT, init, select in). Um capacitor realiza uma filtragem do sinal para melhorar o sinal audível. Uma resistência variável ajusta o nível de saída. A etapa de amplificação é o segredo da qualidade sonora: dois amplificadores operacionais realizam de forma independente a amplificação dos níveis positivos e negativos da onda, conseguindo desta forma um nível suficiente para acionar um fone de ouvido convencional. Capacitores estrategicamente colocados fornecem energia durante a fala a pontos críticos do sistema. Os valores usados são altamente críticos, e estão descritos nas tabelas 1 e 2.


REIVINDICAÇÕES

1o.) "SINTETIZADOR DE VOZ EM LÍNGUA PORTUGUESA PARA MICROCOMPUTADOR", caracterizado por um esquema de conversão grafemas-fonemas para português.

2o.) "SINTETIZADOR DE VOZ EM LÍNGUA PORTUGUESA PARA MICROCOMPUTADOR", caracterizado por utilizar interface acoplada a conector de impressora, que realiza a fala em fone de ouvido, sem necessidade de amplificador externo.


TABELA 1 - Conversão Fonética do Sintetizador, para FALA CARIOCA

( )= / / / (AM)%=a~/w (AM)[=a~ (A^M)%=A~/w
(AN)[=a~ (A^N)[=A~ (A)NH=a~ (A)M=a^
(A)N=a^ #(A')= /A (A')=A #(A^)= /A^
(A^)=A^ #(A~)= /A~ (A~)=A~ (A`)=a
(A)=a (B)*= /b/y (B)= /b (CH)= /x
(C)+= /s (C)*= /k/y (C)= /k (D)*= /dj/y
(D)I'= /dj (D)I= /dj (DE)\%= /dj/y (D)= /d
(E)LA%=E (E)CE%=E (E)GA%=E (E)RA%=E
(EX)O%=E/ks %(E)%=i (E)\%=y (E'M)[=E~
(E^M)[=E~ (EM)[=e~ (E'M)[=E~ (E^N)[=E~
(EN)[=e~ (E^)NH=E~ (E)NH=e~ U(E')=E
#(E')= /E (E')=E #(E^)= /E^ (E^)=E^
(E)=e^ (F)*= /f/y (F)= /f (GU)+= /g
(GU")= /g/w (GU)]= /g/w (G)+= /j (G)*= /g/y
(G)= /g (H)= (I'M)[=I~ (IM)[=i~
(I'N)[=I~ (IN)[=i~ (I')NH=I~ (I)NH=i~
GU(I)=i QU(I)=i #(I)RR=y #(I)&[=i
#(I')= /I #(I)=y (I')=I (I)=i
(J)= /j (K)=k (LH)= /lh (L)#= /l
_(L)#= /l (L)#=l (L)=w (M)N= /m/y
(M)= /m (NH)= /nh (N)= /n (O)RTA%=o/
(O)STA%=o/ (O)SA%=o/ (O)ZA%=o/ (O)LA%=o
(O)L%=o (O)X%=O (O)CA%=o (OM)%=o~
(O^M)[=O~ (OM)[=o~ (O^N)[=O~ (ON)[=o~
(O)VA=o #(O')= /O (O')=O #(O^)= /O^
(O^)=O^ #(O~)= /O~ (O~)=O~ %(O)%=w
#(O)%=w (O)\%=w (O)=o^ (P)*= /p/y
(P)= /p (QU)+= /k (QU")= /k/w (QU)= /k/w
(RR)= /rr %(R)= /rr S(R)= /rr N(R)= /rr
#(R)[=rr #(R)#= /r (R)=r (SS)= /s
%(S)= /s B(S)[=x B(S)= /s P(S)[=x
P(S)= /s N(S)[=x N(S)= /s R(S)= /s
(S)[=s (S)= /z (T)I'= /tch (T)I= /tch
(TE)\%= /tch/y (T)*= /tch/y (T)= /t (U'M)[=U~
(UM)[=u~ (U'N)[=U~ (UN)[=u~ (U')NH=U~
(U)NH=u~ #(U)RR=w #(U)&[=u #(U')= /U
(U')=U #(U)=w (U)=u (V)= /v
(W)=u (X)%=ks %E'(X)#= /z %E^(X)#= /z
%E(X)#= /z %](X)#= /ks AU(X)=s #(X)[=x
(X)= /x (Y)=i (Z)%=x (Z)= /z

TABELA 2 - Fonemas Básicos Usados no Sintetizador, para FALA CARIOCA

a e i o u
a^ e^ o^
a~ e~ i~ o~ ~u~
ay ey oy uy
a^y e^y o^y
aw ew iw ow
a^w e^w o^w
b k d dj f g j l m n p r rr s t tch v x ks z


Envie carta para Antonio Borges

Logotipo do NCE Gerado automaticamente pelo sistema InterCAP
Copyright (c) 2002 - Núcleo de Computação Eletrônica - Projeto DOSVOX
Universidade Federal do Rio de Janeiro
Fale com o Webmaster