A voz produzida é captada por um microfone.
O microfone encarrega-se de transformar as vibrações do ar criadas
pelas ondas de som (movimentos acústicos) em vibrações
eléctricas (ou corrente eléctrica). Esta conversão é relativamente
directa e as vibrações eléctricas podem então ser amplificadas,
gravadas ou transmitidas.
Ao serem gravadas, transforma-se a voz da forma de sinal
analógico (de natureza continua) para a forma digital (sinal baseado
em impulsos, discreto).
Para converter um sinal analógico para a forma digital, primeiro tem
de se passar o sinal para um que tenha largura de banda limitada e
depois fazer a amostragem do mesmo.
Um sinal diz-se que tem largura de banda limitada se é composto por
sinusóides com frequências que vão até uma dada frequência máxima
Fmax, i.e., não tem sinusóides de frequência maior que Fmax.
O teorema de Nyquist (também conhecido como teorema da amostragem) diz
que se amostrarmos um sinal contínuo com largura de banda Fmax a uma
frequência maior ou igual a duas vezes Fmax, então o sinal amostrado
contém toda a informação do sinal contínuo e consegue-se recuperar
exactamente o sinal original a partir das amostras.
Isto significa que se for usada uma frequência de amostragem de 8000 Hz
consegue-se ter toda a informação de um sinal que tenha largura de
banda 4000 Hz.
Como o sinal de fala está praticamente todo até aos 4 KHz, pode
usar-se em aplicações telefónicas (como esta) frequências de
amostragem de 8000 Hz.
Os parâmetros de gravação são importantes: 8/16 bits (tamanho de cada
amostra/sample), 11/22/44 KHz (frequência de amostragem/sampling
rate). Em particular, a frequência de amostragem vai influenciar a
qualidade de som e consequentemente o tamanho.
O que fica gravado em suporte digital são as amostras e normalmente os
parâmetros da gravação (que especificam como a gravação foi feita).