Co je kódování znaků?
Kódování znaků v počítačovém programování je metoda nebo algoritmus používaný k nalezení obvykle numerického znázornění znaku, glyfu nebo symbolu. Použití kódování znaků v počítačích je nezbytné, protože informace v počítačové paměti a na počítači čitelném médiu jsou uloženy jako sekvence bitů nebo čísel. To vyžaduje použití kódování k překladu nečíselných znaků, které se používají pro zobrazení nebo výstup čitelný člověkem, do formy, kterou může počítač manipulovat. Ve specifičtější aplikaci mohou dokumenty HyperText Markup Language (HTML), které jsou čteny webovými prohlížeči, definovat, jaký typ kódování znaků používají, aby umožnily prohlížeči vědět, kterou konkrétní znakovou sadu použít při zobrazování informací v dokumentu. Používá se několik schémat kódování, i když mnoho z těchto proprietárních a starších sad je pomalu nahrazováno standardem kódování Unicode®.
V počátečních dnech počítačů, kdy byl omezený paměťový prostor, byly základní znaky anglické abecedy - včetně interpunkce a čísel - uloženy v 7bitových sekvencích umožňujících 128 různých znaků. V tomto původním schématu představoval každý 7bitový bajt jeden znak anglické abecedy, očíslovaných postupně. Toto kódování znaků bylo efektivní a nakonec bylo standardizováno a použito ve většině produkovaných počítačů. Přestože se kódovací systém vyvinul v kódovací standard Unicode®, koncept zůstal stejný. Konkrétně každý jednotlivý znak v jazyce přímo souvisí s jedním číslem v rámci velké standardní znakové sady a toto číslo je to, co počítač používá k ukládání, zpracování a indexování znaku.
Jiné typy kódování znaků byly vyvinuty z různých důvodů. Některé, které byly zaměřeny konkrétně na anglickou abecedu a které měly být použity pro text, namapovaly pouze své znaky na 7bitové sekvence a poté je rozložily do 8bitových bytů nebo oktetů. To mělo za následek úsporu 1 bitu na oktet, efektivního použití kódování znaků jako typu komprese. Jiná schémata kódování se pokusila poskytnout základní informace o znaku a poté další znaky představující zvláštní akcenty, které by mohly být použity při psaní v jiném jazyce, ačkoli tyto postupy byly z velké části opuštěny pro jednodušší metody kódování jeden na jednoho.
V HTML dokumentech je kódování znaků zhruba stejné jako širší koncepce, s výjimkou toho, že definované kódování zahrnuje celou sadu znaků. To může být důležité nejen pro cizí jazyky, ale pro dokumenty, které používají specifické symboly pro vědu nebo matematiku, které nejsou přítomny ve všech znakových sadách. Může být také užitečné pro použití interpunkčních znamének a dalších glyfů, které nemusí být přítomny nebo jsou mapovány různě napříč kódovacími schématy. Dokumenty, které správně nedefinují nestandardní kódování znaků, se mohou místo čitelných informací zobrazovat nesprávně nebo mohou být vyplněny nesmyslnými znaky a zástupnými symboly.