Sendo assim, é necessário uma medida para distinguir o silêncio do
sinal de voz.
O ganho é o volume e este não é constante num sinal de voz.
Como tal, sobre cada frame calcula-se uma função de ``energia'' que dá a
intensidade de som existente nessa frame, cujo valor é o ganho.
Se estiver acima de um dado valor é falado caso contrário é
considerado silêncio, ou seja, energia baixa implica silêncio ou ruído
de fundo e uma energia alta som ou fala.
Convém no entanto ajustar um ganho para que quando se comuta entre
sons vozeados ou não vozeados haja um salto grande no volume de som.
Como cada frame é uma váriavel aleatória contínua uniforme que está entre -1 e 1, podemos escrever a função de energia como:
em que E é o valor esperado e
representa a variância.