Co to jest kodowanie postaci?
Kodowanie znaków w programowaniu komputerowym jest metodą lub algorytmem używanym do znalezienia zwykle numerycznej reprezentacji znaku, glifu lub symbolu. Zastosowanie kodowania znaków w komputerach jest konieczne, ponieważ informacje w pamięci komputera i na mediach czytnych komputerowych są przechowywane jako sekwencje bitów lub liczb. Wymaga to użycia kodowania do tłumaczenia znaków nie-numerycznych, które są używane do wyświetlania lub wyjścia z czytania człowieka na formę, którą komputer może manipulować. W bardziej konkretnej aplikacji dokumenty hipertext znaczników (HTML), które są odczytywane przez przeglądarki internetowe, mogą zdefiniować, jakiego typu kodowania znaków używają, aby poinformować przeglądarkę, z której konkretnych znaków ustawia się podczas wyświetlania informacji w dokumencie. Istnieje kilka używanych schematów kodowania, chociaż wiele z tych zastrzeżonych i starszych zestawów jest powoli zastępowanych przez standard kodowania Unicode®.
We wczesnych dniach komputerów, kiedy istniała ograniczona przestrzeń pamięci, podstawowe znaki alfabetu angielskiego-w tym interpunkcja i liczby-były przechowywane w 7-bitowych sekwencjach, umożliwiając 128 różnych znaków. W tym oryginalnym schemacie każdy 7-bitowy bajt reprezentował jeden charakter angielskiego alfabetu, ponumerowany w sekwencji. To kodowanie postaci było wydajne i ostatecznie zostało znormalizowane i wykorzystane w większości wyprodukowanych komputerów. Chociaż system kodowania ewoluował w standard kodowania Unicode®, koncepcja pozostała taka sama. Mianowicie, każdy pojedynczy znak w języku jest bezpośrednio związany z pojedynczą liczbą w dużym standardowym zestawie znaków, a ten numer jest tym, czego komputer używa do przechowywania, przetwarzania i indeksowania znaku.
Inne rodzaje kodowania znaków opracowano z różnych powodów. Niektóre, które były skierowane specjalnie do angielskiego alfabetu i przeznaczone do użycia do tekstu tylko zmapowało ich charakterER na 7-bitowe sekwencje, a następnie rozłóż je na 8-bitowych bajtach lub oktetach. Miało to wpływ na oszczędzanie 1 bitu na okT, skutecznie wykorzystując kodowanie znaków jako rodzaj kompresji. Inne schematy kodowania próbowały dostarczyć podstawowych informacji o postaci, a następnie dodatkowe znaki reprezentujące specjalne akcenty, które można było użyć podczas pisania w innym języku, chociaż zostały one w dużej mierze porzucone dla prostszych metod kodowania jednego do jednego.
W dokumentach HTML kodowanie znaków jest mniej więcej takie same jak szersza koncepcja, z wyjątkiem zdefiniowania kodowania obejmuje cały zestaw znaków. Może to być ważne nie tylko dla języków obcych, ale dla dokumentów używających określonych symboli naukowych lub matematyki, które nie są obecne we wszystkich zestawach znaków. Może być również przydatny do stosowania interpunkcji i innych glifów, które mogą nie być obecne lub są odwzorowane inaczej w różnych schematach kodowania. Dokumenty, które nie określają właściwie niestandardowego charakteruKodowanie może wyświetlać niepoprawnie lub być wypełnione nonsensownymi znakami i symbolikami zastępczymi zamiast czytelnych informacji.