Para cada frame, são calculados os parâmetros da produção de voz que
são: os coeficientes do LPC, o pitch (frequência), a classificação
vozeado/não vozeado e o ganho (volume).
Historicamente, o sampling de sinais de voz é feito a 8000
samples/segundo. Cada sample é normalmente de 8 ou 16 bits.
Isto corresponde a uma taxa de transmissão sem compressão de 64 ou 128
kbps. Ao transmitir os parâmetros de produção de voz por cada frame em
vez das 160 samples, esta técnica de compressão, classificada de
compressão com perdas (lossy), consegue reduzir a taxa de transmissão para 8
kbps, teoricamente sem perda de qualidade perceptível ao ouvido
humano.
O compromisso da compressão é a qualidade de som. Quanto mais
compressão se quiser ter, mais qualidade de som se terá de abdicar. O
que se faz normalmente é tentar abdicar da qualidade de som que não é
perceptível ao ouvido humano.
Os vocoders baseados no Modelo LPC sacrificam então a qualidade de voz
por uma taxa de transmissão menor (e consequentemente mais rápida) e
como resultado disso apresentam uma voz que soa sintetizada (como um
robot a falar).