Sítio do Piropo

B. Piropo

< Coluna em Fórum PCs >
Volte
08/08/2005

< Computadores VII: >
<
Digitalizando sons - Final
>


Semana passada vimos as características do som e concluímos lembrando que, seja qual for seu grau de complexidade, todo e qualquer som pode ser fielmente representado por uma onda sonora. E vimos ainda que o “desenho” da onda reflete as duas características principais do som: intensidade e freqüência (também chamada de “altura”). Vamos esclarecer melhor isso usando como exemplo o tipo de onda mais comum, a onda senoidal (que tem esse nome porque representa a variação do valor do seno de um ângulo, ou seja, é a representação gráfica da função “y = sen x”) como a representada na Figura 1.

Figura 1: Onda senoidal

Interprete a Figura 1 como a representação gráfica da variação da intensidade do som instante a instante ao longo do tempo. Como se vê, nesse exemplo, a intensidade parte de zero, sobe até o valor máximo (crista ou pico da onda) e em seguida começa a declinar, caindo novamente até zero (quando atravessa a linha horizontal que representa o eixo do tempo), continua diminuindo de intensidade (assumindo, portanto, valores negativos) até o ponto mínimo (vale da onda), quando volta a crescer até nova crista e assim por diante.

A amplitude da onda, que reflete sua intensidade, corresponde à distância vertical entre um pico e um vale sucessivos. Na Figura 1 a amplitude corresponde à distância entre os pontos “c” e “d”. Quanto maior essa distância, mais intenso (ou seja, mais “barulhento”) é o som.

Já a freqüência da onda é definida pelo número de ciclos que ocorrem em uma unidade de tempo. Explicando melhor: o “ciclo” da onda é o trecho que contém uma crista e um vale completos. Na Figura 1 ele corresponde ao trecho compreendido entre os pontos “a” e “b”. Pois bem: a freqüência é o número de ciclos que ocorrem em cada segundo. Sua unidade denomina-se Hertz e corresponde a uma onda que executa um ciclo por segundo e cujo som é inaudível, pois nosso ouvido não é capaz de percebê-lo (mas nem por isso deixa de ser um som...) Embora as pessoas de ouvidos mais sensíveis possam apenas identificar sons cujas freqüências variam na faixa de 20 Hz a 20.000 Hz (ou 20 KHz, quilohertz), vibrações com freqüências superiores ou inferiores continuam sendo sons, apenas não conseguimos ouvi-los (quem conhece os “apitos para cães” pode entender melhor a questão; como o ouvido dos cães é muito mais sensível que o nosso, eles conseguem perceber claramente sons de freqüências muito mais elevadas que 20 KHz; soprar um apito desses junto a um cachorro, embora você não ouça absolutamente nada, faz o cão imediatamente dar mostras de ter ouvido o som produzido pelo apito em uma freqüência que ele percebe mas você não).

Resumindo: a forma, ou “desenho” da onda, contém as duas informações básicas que definem o som: sua intensidade, medida em cada instante pela amplitude, e sua freqüência, proporcional ao número de vezes que a linha que define a onda corta o eixo horizontal a cada segundo (na verdade, igual á metade desse número, já que em cada ciclo a onda corta o eixo duas vezes, ao subir e ao descer). Agora, com esses conceitos em mente, examine novamente as ondas representadas nas Figuras 3 e 4 da coluna anterior e perceba como a complexidade do som se reflete no formato da onda que o define.

Então, para digitalizar o som, tudo o que precisamos é uma forma de representar o formato da onda usando apenas números. Uma coisa tão fácil como uma brincadeira de criança. E não estou usando uma figura de linguagem, estou me referindo efetivamente a uma brincadeira de criança, aquela que consiste em desenhar uma figura unindo com um traço contínuo pontos numerados.

A essência do problema consiste no fato de que a onda sonora é representada por uma linha contínua, que apresenta variações infinitesimais ao longo do tempo. Em outras palavras: é “analógica”. Computadores lidam mal com grandezas analógicas. A solução é decompor a grandeza em uma enorme quantidade de pequenos   componentes e representar cada um deles por um número (ou seja, “digitalizar” a grandeza). Quanto maior a quantidade desses componentes, melhor será representada a grandeza. Por exemplo: o espectro luminoso contínuo que compõe o arco-íris uma grandeza analógica. Mas, como vimos ao discutirmos a digitalização de imagens, ele pode ser decomposto em pequenos segmentos, cada um deles representando uma cor e correspondendo a um número. Quando este número de segmentos é pequeno (por exemplo, 256) o conjunto de cores fica mal representado. Se aumentarmos para 65.536 (64K), teremos uma imagem muito mais suave. E se aumentarmos para mais de 16 milhões de segmentos, teremos uma representação absolutamente fiel das cores. Nosso problema consiste em fazer algo parecido com os sons: representar a forma de uma onda sonora com números.

Primeiro, vamos tomar o gráfico sobre o qual desenhamos a onda e dividi-lo na forma de uma grade formada por linhas verticais. Veja isto representado na Figura 2.

Figura 2: Gráfico onde será representada a onda

Nesse gráfico, o eixo vertical representa o valor da intensidade do som e o eixo horizontal representa o tempo decorrido. A distância entre duas linhas verticais que formam a grade representa, portanto, um intervalo de tempo. Digamos que, no gráfico acima, esse intervalo seja da ordem de um décimo milésimo de segundos. Portanto, na distância horizontal correspondente a um segundo, teríamos dez mil dessas linhas verticais, cada uma representando um instante. Em cada um desses instantes colheremos uma “amostra” de nosso som.

Agora vamos captar o som. A forma mais simples de fazer isso é usando um microfone. Mas o que é um microfone?

Um microfone é um “transdutor”. Ele capta as vibrações da onda sonora através da variação da pressão do ar que o som provoca ao se propagar. Essa variação de pressão é convertida por um circuito eletrônico interno em variações de intensidade de corrente elétrica (por exemplo com o uso de cristais piezoelétricos; se quiser saber mais sobre a tecnologia pizoelétrica, que converte variações de pressão em tensões elétricas e vice-versa, vá até a seção “Pesquisar” de meu sítio em < www.bpiropo.com.br > e efetue uma busca com o temo “piezoelétrica”). Note que o microfone não digitaliza: ele apenas converte uma onda sonora, analógica, em um “sinal” (variações contínuas de tensão ou intensidade de corrente elétrica), também analógico. Ou seja: um microfone transforma uma onda sonora em um sinal elétrico cujas variações correspondem às variações da onda sonora, um sinal que representa fielmente a onda sonora (quão “fielmente” depende, naturalmente, da qualidade do microfone, de sua sensibilidade e precisão). Este sinal é enviado ao computador, mais precisamente à controladora (ou “placa”) de som.

Agora sim: circuitos eletrônicos não sabem lidar com variações de pressão mas se entendem perfeitamente com sinais elétricos. O sinal gerado pelo microfone, ao entrar na placa de som, é encaminhado a um circuito denominado ADC (Analog/Digital Converter, ou conversor analógico/digital) cuja função é efetuar uma amostragem (em inglês, “sampling”) do sinal sonoro, colhendo amostras (ou seja, medindo sua intensidade) em intervalos muito curtos e registrando essas intensidades sob a forma de números. Se voltarmos à Figura 2 veremos que os pontos de amostragem estão ali representados pelas retas verticais, dez mil delas em cada segundo. Colher amostras significa medir a intensidade do sinal exatamente no instante representado por cada reta e anotar esta intensidade sob a forma de um segmento de reta cujo comprimento é proporcional a ela. O resultado será algo parecido com o mostrado na Figura 3.

Figura 3: Valores instantâneos da intensidade do sinal

Pronto, agora temos uma coleção de amostras em formato de números, cada um representando o comprimento de um dos segmentos de reta vertical mostrados na Figura 3. Os segmentos situados acima do eixo horizontal são representados por números positivos, os situados abaixo por números negativos. Essa sucessão de números expressos no sistema binário pode ser armazenada em um arquivo. Ela contém todas as informações necessárias para caracterizar uma onda sonora e é, portanto, um arquivo de som digitalizado.

É assim que se digitaliza sons.

Mas não adianta digitalizar um som se ele não puder ser reconstituído para ser ouvido. E essa tarefa também é cumprida por um dos circuitos eletrônicos da controladora (placa) de som, desta vez o DAC (Digital/Analog Converter, ou conversor analógico digital), que cumpre a função inversa do CAD. Essa função corresponde a “unir os pontos” formados pelas extremidades das linhas verticais da Figura 3 reconstituindo a onda que forma o sinal elétrico. Sua função pode ser melhor compreendida examinando-se a Figura 4.

Figura 4: Reconstituição do sinal

Para se reproduzir (“tocar”) um som armazenado em um arquivo, este arquivo é lido no disco e seu conteúdo enviado ao DAC da controladora de som sob a forma de uma sucessão de números. O DAC recebe cada um desses números e gera um sinal elétrico cuja intensidade de corrente é, em cada instante, proporcional aos números recebidos sucessivamente. Esse sinal é uma grandeza analógica, o que justifica o nome do DAC. A variação de sua intensidade de corrente é representada pela linha azul na Figura 4. Este sinal é então amplificado (ou seja, tem sua intensidade reforçada) e enviado ao alto-falante das “caixas de som” do computador.

Um alto-falante é também um “transdutor”. Ele executa uma função inversa à do microfone, ou seja, converte o sinal elétrico em som. Isso nada tem a ver com digitalização (tanto o sinal elétrico quanto a onda sonora gerada pelo alto-falante são sinais analógicos), portanto não cabe aqui uma explicação muito detalhada. Basta dizer que isso é feito fazendo o sinal atravessar uma bobina enrolada em torno de um ímã. A variação da corrente elétrica do sinal que atravessa a bobina gera um campo magnético cuja intensidade varia proporcionalmente à do sinal, fazendo o ímã vibrar em consonância com essa variação de intensidade. Este ímã está preso no vértice de um cone de material ligeiramente flexível (uma espécie de papelão) que vibra com o ímã, fazendo o ar vibrar e, assim, reconstituindo o som que foi capturado pelo microfone e digitalizado.

Figura 5: Transformação do sinal em som

A fidelidade do som reproduzido, ou seja, o quanto suas qualidades se aproximam das do som original, depende de diversos fatores. Um deles é o equipamento de som propriamente dito, ou seja, o microfone usado para capturar o som, o amplificador (analógico) do sinal e os alto-falantes, fatores responsáveis pela diferença entre o som reproduzido em um radinho de pilha e em um sistema de som de alta qualidade. Mas esse é apenas um dos fatores. Há outros que dependem do processo de digitalização.

Desses, dois são especialmente importantes: a quantização e a taxa de amostragem (“quantization” e “sampling rate”).

A taxa de amostragem representa o número de amostras de som colhidas na unidade de tempo, ou o número de vezes que a amplitude da onda sonora é medida em cada segundo. Ela corresponde à “densidade” das linhas verticais da Figura 2, ou seja, ao número de linhas contidas em cada segundo. Nós usamos em nosso exemplo a taxa fictícia de 10.000 amostras por segundo (ou 10 KHz). Nos sistemas reais, as taxas variam de 8 KHz (telefone que transmite voz digitalizada) até 96 KHz (utilizada no áudio em DVD, discos padrão Blue-Ray e trilhas sonoras de TV de alta definição, ou HDTV). Os sistemas que usam as controladoras de som mais simples usam uma taxa de amostragem de 11,025 KHz enquanto os mais sofisticados (classificados como “CD quality”, ou qualidade de CD) usam taxas de amostragem quatro vezes maiores, ou 44,1 KHz (também usada nos CDs de áudio). Quanto maior a taxa de amostragem maior a fidelidade do som digitalizado.

Já quantização tem a ver com o número possível de níveis sonoros que cada amostra pode registrar. Para entender, examine novamente a Figura 3. Veja que ela consiste em uma sucessão de linhas verticais, cada uma correspondendo a uma “amostra” do som. O comprimento de cada linha, que representa o nível da intensidade do som naquele momento, corresponde a um número. Vamos supor que eu use um número binário de um byte (8 bits) para armazenar o valor máximo dessa grandeza (que, como você já deve ter percebido, corresponde à maior amplitude de onda que pode ser armazenada). Nesse caso eu só poderia armazenar 256 níveis diferentes de intensidade (zero e mais os 255 números decimais que podem ser representados com oito bits). Mas se eu usar dois bytes (16 bits) para representar o nível de intensidade, poderei optar por 65.536 níveis diferentes (zero e mais os 65.535 números decimais que podem ser representados com 16 bits). Isso faz com que o som digitalizado possa representar variações muito mais suaves de intensidade. Portanto quanto maior o número de bits usados para quantizar cada amostra, melhor a qualidade do som. Computadores usam quantizações de oito, doze e dezesseis bits. O som de “qualidade de CD” usa uma quantização de 16 bits para cada um de seus dois canais (o som “estereofônico” digitaliza dois canais, cada canal usando um microfone para capturar o som e um alto-falante para reproduzi-lo; isso dá uma sensação “espacial” ao som percebido por nossos dois ouvidos).

Basicamente, é isso. A única observação que ainda cabe aqui tem a ver com o tamanho do arquivo do som digitalizado. Vimos que, no que diz respeito à digitalização (e não à qualidade do equipamento utilizado para gravar e reproduzir), a qualidade do som depende de dois fatores: taxa de amostragem e quantização. No que toca à taxa de amostragem, quanto maior for ela, melhor será   a qualidade do som, porém igualmente maior será o número de amostras colhidas por segundo. Portanto, maior o tamanho do arquivo necessário para armazená-las. Já no que diz respeito à quantização, quanto maior o número de bits usados para quantizar cada amostra, melhor a qualidade do som. Porém, da mesma forma, maior será o tamanho do arquivo usado para armazenar o som digitalizado. Se levarmos em conta que um som de excelente qualidade deverá ter efeito estereofônico, ou seja, ser digitalizado em dois canais, o que dobra o tamanho do arquivo de som, poderemos traçar uma relação direta entre qualidade de som e tamanho do arquivo de áudio.

O que poderia nos levar à discussão dos chamados “esquemas de compressão de áudio”, ou o uso de tecnologias capazes de reduzir o tamanho do arquivo sem deteriorar a qualidade do som, como por exemplo a usada no padrão MP3.

Mas isso tem mais a ver com técnicas de programação que com digitalização de som e está muito, muito longe do escopo dessa coluna.

Que, aliás, foi muito além do que eu tinha planejado. Mas se você chegou até aqui, quem sabe achou que valeu a pena...

 

B. Piropo