Vad är teckenkodning?
Teckenkodning, i datorprogrammering, är en metod eller algoritm som används för att hitta en vanligtvis numerisk representation av ett tecken, glyph eller symbol. Användning av teckenkodning i datorer är nödvändig eftersom information i datorminne och på datorläsbart media lagras som sekvenser av bitar eller nummer. Detta kräver kodning för att översätta icke-numeriska tecken som används för visning eller mänsklig läsbar utgång till en form som en dator kan manipulera. I en mer specifik applikation kan HyperText Markup Language (HTML) -dokument som läses av webbläsare definiera vilken typ av teckenkodning de använder för att låta webbläsaren veta vilket specifikt teckenuppsättning de ska använda när informationen visas i dokumentet. Det finns flera kodningsscheman som används, även om många av dessa egna och äldre uppsättningar långsamt ersätts av Unicode®-kodningsstandarden.
Under de första dagarna av datorer, när det fanns ett begränsat minneutrymme, lagrades de grundläggande tecknen i det engelska alfabetet - inklusive skiljetecken och siffror - i 7-bitars sekvenser vilket möjliggjorde 128 olika tecken. I detta ursprungliga schema representerade varje 7-bitarsbyte ett tecken i det engelska alfabetet, numrerade i följd. Den här teckenkodningen var effektiv och standardiserades och användes så småningom i de flesta datorer som producerades. Även om kodningssystemet utvecklades till Unicode®-kodningsstandarden förblev konceptet detsamma. Nämligen är varje enskilt tecken på ett språk direkt relaterat till ett enda nummer i en stor standardteckenuppsättning, och det numret är vad en dator använder för att lagra, bearbeta och indexera tecknet.
Andra typer av teckenkodning utvecklades av olika skäl. Vissa som var specifikt inriktade på det engelska alfabetet och avsedda att användas för text mappade bara sina karaktärer på 7-bitarssekvenser och spridade dem sedan över 8-bitarsbyte eller oktet. Detta hade effekten att spara 1 bit per oktett, effektivt använda teckenkodning som en typ av komprimering. Andra kodningsscheman försökte tillhandahålla basinformation om ett tecken och sedan ytterligare tecken för att representera speciella accenter som kan användas när man skriver på ett annat språk, även om dessa till stor del övergavs för de enklare kodningsmetoderna en-till-en.
I HTML-dokument är teckenkodning ungefär samma som det bredare konceptet, förutom att kodningen som definieras omfattar en hel uppsättning tecken. Detta kan vara viktigt, inte bara för främmande språk, utan för dokument som använder specifika symboler för vetenskap eller matematik som inte finns i alla teckenuppsättningar. Det kan också vara användbart för att använda skiljetecken och andra glyfer som kanske inte finns eller som mappas annorlunda över kodningsscheman. Dokument som inte korrekt definierar en icke-standardteckenkodning kan visas felaktigt eller fyllas med nonsensiska tecken och platshållare istället för läsbar information.