O que é a codificação do personagem?
A codificação de caracteres, na programação do computador, é um método ou algoritmo usado para encontrar uma representação geralmente numérica de um caractere, glifo ou símbolo. O uso da codificação de caracteres em computadores é necessário porque as informações na memória do computador e na mídia legível por computador são armazenadas como sequências de bits ou números. Isso requer o uso da codificação para traduzir caracteres não numéricos que são usados para exibição ou saída legível por humanos em um formulário que um computador pode manipular. Em um aplicativo mais específico, os documentos HTML (Hypertext Markup Language) que são lidos pelos navegadores da Web podem definir que tipo de codificação de caracteres está usando para informar ao navegador qual conjunto de caracteres específico para usar ao exibir as informações no documento. Existem vários esquemas de codificação em uso, embora muitos desses conjuntos de proprietários e legados estejam lentamente sendo substituídos pelo padrão de codificação Unicode®.
Nos primeiros dias dos computadores, quando havia espaço limitado de memória, os caracteres básicos do alfabeto inglês-incluindo pontuação e números-foram armazenados em sequências de 7 bits, permitindo 128 caracteres diferentes. Nesse esquema original, cada byte de 7 bits representava um caractere do alfabeto inglês, numerado em sequência. Essa codificação de caracteres foi eficiente e acabou sendo padronizada e usada na maioria dos computadores que foram produzidos. Embora o sistema de codificação tenha evoluído para o padrão de codificação Unicode®, o conceito permaneceu o mesmo. Ou seja, cada caractere único em um idioma está diretamente relacionado a um único número dentro de um grande conjunto de caracteres padrão, e esse número é o que um computador usa para armazenar, processar e indexar o caractere.
Outros tipos de codificação de caracteres foram desenvolvidos por diferentes razões. Alguns que foram voltados especificamente para o alfabeto inglês e destinados a serem usados para texto apenas mapearam seu caractoers em sequências de 7 bits e depois as espalham por bytes de 8 bits ou octetos. Isso teve o efeito de economizar 1 bit por octeto, usando efetivamente a codificação de caracteres como um tipo de compactação. Outros esquemas de codificação tentaram fornecer informações básicas sobre um personagem e, em seguida, caracteres adicionais para representar sotaques especiais que poderiam ser usados ao escrever em um idioma diferente, embora estes tenham sido amplamente abandonados para os métodos de codificação individuais mais simples.
Nos documentos HTML, a codificação de caracteres é aproximadamente a mesma que o conceito mais amplo, exceto a codificação que está sendo definida abrange todo um conjunto de caracteres. Isso pode ser importante não apenas para idiomas estrangeiros, mas para documentos que usam símbolos específicos para ciência ou matemática que não estão presentes em todos os conjuntos de personagens. Também pode ser útil para usar pontuação e outros glifos que podem não estar presentes ou mapeados de maneira diferente nos esquemas de codificação. Documentos que não definem adequadamente um personagem não padrãoA codificação pode ser exibida incorretamente ou ser preenchida com caracteres sem sentido e espaço reservado em vez de informações legíveis.