Skip to main content

O que é um arquivo de texto?

Um arquivo de texto é um arquivo de computador que armazena um documento digitado como uma série de caracteres alfanuméricos, geralmente sem informações de formatação visual. O conteúdo pode ser uma nota ou lista pessoal, um artigo de periódico ou jornal, um livro ou qualquer outro texto que possa ser renderizado com precisão, de forma datilografada. Os arquivos de texto são semelhantes aos arquivos de processamento de texto, pois o conteúdo de ambos é principalmente textual; eles diferem porque os arquivos de texto geralmente não registram informações como estilo e tamanho dos caracteres, paginação ou outros detalhes que especificariam a aparência de um documento finalizado. Alguns sistemas operacionais de computador fazem uma distinção básica entre um arquivo de texto, que deve ser traduzido diretamente em texto legível por humanos, e um arquivo binário, que é interpretado diretamente pelo computador.

Na maioria dos esquemas usados ​​para codificar texto, cada caractere recebe um valor numérico, com o texto gravado como uma sequência de números binários. Uma família de esquemas de codificação, denominada ASCII (American Standard Code for Information Interchange), tornou-se um padrão amplamente utilizado no início da história da computação, apesar de seu fraco suporte a outros idiomas além do inglês. A família de códigos ISO 8859 forneceu um suporte muito melhor a idiomas baseados no alfabeto latino e em alfabetos semelhantes, mas não conseguiu codificar os caracteres de idiomas do leste asiático como o japonês, levando a uma proliferação de padrões incompatíveis.

Mais recentemente, o Unicode® Consortium vem desenvolvendo um sistema de codificação chamado Unicode® que tem como objetivo atribuir um número único a cada caractere usado em todos os idiomas do mundo. Isso permitirá que um único código seja usado para todos os idiomas e permitirá que textos de vários idiomas apareçam em um único arquivo. A primeira parte do Unicode é baseada na ISO 8859, que é baseada em ASCII. O uso do Unicode® pode ter vantagens, mesmo em países de língua inglesa, pois o texto codificado usando esquemas mais antigos pode exibir pequenas inconsistências quando movido de sistema para sistema.

As vantagens dos arquivos de texto incluem tamanho pequeno e versatilidade. Kilobytes ou megabytes menores que os mesmos dados armazenados em outros formatos, eles podem ser trocados rápida e massivamente por email ou disco. A maioria pode ser aberta em computadores executando sistemas operacionais diversos, usando software muito básico. A principal desvantagem é a falta de formatação. Um arquivo de texto pode ser uma má escolha para representar um documento que contém imagens ou que se baseia em elementos de design para comunicar seu significado - um arquivo que contém dados tabulares, fórmulas matemáticas ou poesia concreta, por exemplo.

Geralmente, os arquivos de texto devem ser lidos e editados por seres humanos, mas nem todos contêm conteúdo destinado principalmente ao consumo humano. A maioria dos códigos de programação é armazenada em um arquivo de texto antes de ser compilado - ou seja, convertido em um arquivo binário legível por máquina. Os arquivos também podem conter tags de texto legíveis por máquina que fornecem informações de formatação, além de texto sem formatação. Por exemplo, um arquivo HTML (Hypertext Markup Language) pode ser aberto como um arquivo de texto sem formatação em um editor de texto ou exibido como uma página da Web formatada após ser interpretado por um navegador da Web. Esquemas semelhantes incluem o LaTeX, usado para a apresentação de artigos científicos, e a Extensible Markup Language (XML), usada para estruturar dados.