Sítio do Piropo

B. Piropo

< Trilha Zero >
Volte de onde veio
30/10/2000

< Tipos e Formatos >


Recordando: extensões são conjuntos de caracteres (até três, no caso do DOS, mais que isso no caso de Windows) acrescentados ao nome do arquivo e dele separados por um ponto, com o objetivo de identificar seu tipo. Mas o que é “tipo” de arquivo?

Bem, arquivos são conjuntos de bytes (um byte é um numero de zero a 255 expresso na base dois). De forma semelhante ao velho patriarca que garantia que a filha podia casar-se com qualquer um desde que fosse com o genro por ele escolhido, arquivos podem conter qualquer coisa, desde que sejam bytes. Mas, no caso dos arquivos, a liberdade realmente existe, já que todo tipo de grandeza ou informação pode ser “digitalizada”, ou seja, codificada sob a forma de bytes (é por isso que nossos computadores são capazes de “tocar” música, “passar” filmes e exibir imagens, textos e tudo o mais que pode ser digitalizado). Para serem recuperadas e consultadas, as informações digitalizadas devem ser armazenadas. E a forma mais comum de armazená-las é agrupar seus bytes e gravá-los, geralmente em meios magnéticos ou óticos. O resultado é um arquivo. Portanto, arquivos podem conter cartas de amor, músicas, filmes, imagens ou qualquer outro tipo de informação que possa ser digitalizada. Mas sempre sob a forma de um conjunto de bytes.

Enquanto no disco, o arquivo é uma coisa inerte, morta. Para dar-lhe vida, ou seja, para reconstituir a informação armazenada, é necessário carregá-lo em um programa que refaça a informação original (a isso se chama “abrir” o arquivo). Por exemplo: para ler a carta armazenada em um arquivo, é necessário abri-lo em um editor de texto. Ou em um programa gráfico, se o arquivo contiver uma foto ou gravura. Ou ainda em um programa “multimídia” no caso de arquivos de sons e imagens. Na maior parte das vezes esses programas não apenas são capazes de reconstituir a informação armazenada como também de alterá-la. Ou podem ainda ser usados para criar novos arquivos com o mesmo tipo de informação (escrever cartas, gerar imagens, criar músicas, etc.).

Ora, se tanto os sons quanto as imagens e caracteres são armazenados sob a forma de bytes, um byte pode representar tanto uma letra em uma carta quanto uma nota em uma canção ou um ponto em uma imagem. Agora, imagine que fosse possível “abrir” o arquivo que contém uma música, digamos: um funk, em um editor de texto. O resultado seria um conjunto de caracteres sem nenhum sentido (mau exemplo, admito: no caso do funk, o resultado não faria sentido mesmo usando o programa certo). Isso ocorre porque o arquivo musical é de um tipo e tem um determinado formato, enquanto o que contém a carta é de tipo diferente e usa um formato diverso.

Em princípio, os programas devem ser capazes de reconhecer os tipos e formatos, abrindo apenas os arquivos que “sabem” interpretar. Por isso, além das informações que visam armazenar, arquivos contêm dados adicionais que identificam seu tipo e formato. Experimente: carregue o Word, escreva apenas a palavra “teste” e grave o arquivo com o nome de Teste. Carregue o Windows Explorer, procure pelo ícone do arquivo recém gravado (e note que a extensão Doc foi acrescentada ao nome para identificar o tipo) e verifique o tamanho. Fi-lo agora mesmo no Word 2000 e resultado foi um arquivo com 19.456 bytes. Agora, volte ao Word, carregue novamente o arquivo, acione a opção “Salvar como” do menu “Arquivos” e na caixa “Salvar como tipo” escolha o tipo “Somente texto”. O resultado é o arquivo “Teste.Txt” com apenas sete bytes (porque sete, se só contém uma palavra de cinco letras? Porque mesmo em um arquivo simples como esse foram acrescentados dois bytes: um para indicar o final do parágrafo, outro o final do arquivo). Mas do ponto de vista do usuário, o conteúdo é o mesmo: apenas a palavra “teste”.

Em geral os dados para identificar o tipo são adicionados no início do arquivo, constituindo aquilo que se convencionou chamar de “cabeçalho”. Sua quantidade e  natureza variam com o formato do arquivo, mas a finalidade é sempre a mesma: informar tipo e formato ao programa que abrirá o arquivo. E, no caso de aplicativos complexos como o Word, cujos arquivos podem conter um mundo de “objetos” (imagens, gráficos, tabelas e até sons e vídeo), há ainda uma enorme quantidade de informações sobre a localização e forma desses objetos. Mesmo quando o arquivo não contém objeto algum, como no caso de nosso arquivo Teste.Doc, tais informações são incluídas.

Os programas podem reconhecer o tipo do arquivo examinando seu cabeçalho. E os usuários?

Bem, para nós sobraram apenas as extensões. Pois é justamente para isso que elas servem.

B. Piropo