Determinar se um frame do sinal é vozeado ou não é de extrema
importância para posteriormente se poder fazer a síntese
correctamente.
Como já foi referido anteriormente, os segmentos não vozeados
representam a pronúncia de letras como o 's' e o 'f' e têm amplitudes
pequenas comparadas com as amplitudes de um sinal de voz considerado
vozeado.
Estas diferenças criam a necessidade de usar dois tipos diferentes de
excitação para serem passados para o filtro LPC. O parâmetro
vozeado/não vozeado, dá então a informação de que tipo de excitação
deve ser passado ao filtro.
Não deviamos dizer aqui como se processa isto?
Uma das ideias para determinar se um frame é vozeado ou não vozeado é tirar
partido do facto que a auto-correlação de uma função periódica r(k) qualquer,
como um sinal de voz, tem um máximo quando o k é equivalente ao
periodo do pitch.
Cálculo do Pitch:
Computa-se a sequência:
onde
é a auto-correlação dos coeficientes LPC.
O pitch é igual ao máximo da sequência
(sequência anterior normalizada) no intervalo de tempo que corresponde
a 3 msec - 15 msec em frames de 20 msec.
Se o valor encontrado for maior ou igual que 0.25, o frame é
considerado vozeado com um pitch de periodo igual a n, onde
é um máximo.
Se for menor que 0.25, o frame é considerado não vozeado e o pitch é zero.