Qu'est-ce que l'encodage de personnage?
Le codage de caractères, en programmation informatique, est une méthode ou un algorithme utilisé pour trouver une représentation généralement numérique d'un caractère, d'un glyphe ou d'un symbole. L'utilisation du codage de caractères dans les ordinateurs est nécessaire car les informations contenues dans la mémoire de l'ordinateur et sur des supports lisibles par ordinateur sont stockées sous forme de séquences de bits ou de nombres. Cela nécessite l'utilisation d'un codage pour traduire les caractères non numériques utilisés pour l'affichage ou la sortie lisible par l'homme dans une forme pouvant être manipulée par un ordinateur. Dans une application plus spécifique, les documents HTML lus par les navigateurs Web peuvent définir le type de codage de caractères utilisé pour indiquer au navigateur le jeu de caractères à utiliser lors de l’affichage des informations contenues dans le document. Plusieurs schémas de codage sont utilisés, bien que bon nombre de ces ensembles propriétaires et hérités soient progressivement remplacés par la norme de codage Unicode®.
Aux débuts de l’informatique, lorsque l’espace mémoire était limité, les caractères de base de l’alphabet anglais, y compris la ponctuation et les chiffres, étaient stockés sous forme de séquences de 7 bits permettant la création de 128 caractères différents. Dans ce schéma original, chaque octet de 7 bits représentait un caractère de l'alphabet anglais, numéroté dans l'ordre. Ce codage de caractères était efficace et a finalement été normalisé et utilisé dans la plupart des ordinateurs produits. Bien que le système de codage ait évolué pour devenir la norme de codage Unicode®, le concept est resté le même. A savoir, chaque caractère d'une langue est directement lié à un numéro unique dans un grand jeu de caractères standard, et ce numéro est ce qu'un ordinateur utilise pour stocker, traiter et indexer le caractère.
D'autres types de codage de caractères ont été développés pour différentes raisons. Certaines, spécifiquement adaptées à l'alphabet anglais et destinées à être utilisées pour du texte, ont mappé leurs caractères sur des séquences de 7 bits, puis répartis sur des octets ou des octets de 8 bits. Cela a pour effet de sauvegarder 1 bit par octet, en utilisant efficacement le codage de caractères comme type de compression. D'autres systèmes de codage ont tenté de fournir des informations de base sur un caractère, puis des caractères supplémentaires pour représenter des accents spéciaux pouvant être utilisés lors de l'écriture dans une langue différente, bien qu'ils aient été en grande partie abandonnés pour les méthodes de codage un à un plus simples.
Dans les documents HTML, le codage de caractères est à peu près identique au concept plus large, à la différence que le codage en cours de définition englobe un ensemble complet de caractères. Cela peut être important non seulement pour les langues étrangères, mais également pour les documents qui utilisent des symboles spécifiques à la science ou aux mathématiques qui ne figurent pas dans tous les jeux de caractères. Cela peut également être utile pour utiliser la ponctuation et d'autres glyphes qui pourraient ne pas être présents ou qui sont mappés différemment selon les schémas de codage. Les documents qui ne définissent pas correctement un codage de caractères non standard risquent de ne pas s'afficher correctement ou d'être remplis de caractères non-sensuels et d'espaces réservés au lieu d'informations lisibles.