Pode-se então pensar nos pulmões como sendo a origem da voz (ou
fonte), e o tracto vocal como um filtro que produz os vários tipos de
som que compõem a fala (fonemas).
Esta ideia, baseada na separação da fonte do filtro, é o chamado
modelo fonte-filtro e é o modelo usado na análise e síntese do LPC,
em que o tracto vocal, representado como um tubo de diâmetro variável,
é aproximado matematicamente.
Note-se que os vocoders baseados em modelos não reproduzem o sinal de
voz original porque baseiam-se em encontrar, codificar e transmitir
parâmetros da produção de voz e não a voz em si.
Uma vez que os sinais de voz variam com o tempo, este processo é feito
em pequeno pedaços do sinal, designados de frames. Estes parâmetros
mudam sensivelmente a cada 20 msec, pelo que considera-se o sinal de
voz dividido em blocos/frames deste tamanho.
Sendo assim, existem 50 frames por segundo. (20 msec x 50 = 1 segundo).
A uma sampling rate de 8000 samples por segundo, 20 msec é equivalente a 160
samples, pelo que cada frame contêm 160 samples de 8 bits.