Vad är karaktärskodning?

karaktärkodning, i datorprogrammering, är en metod eller algoritm som används för att hitta en vanligtvis numerisk representation av en karaktär, glyph eller symbol. Användningen av teckenkodning i datorer är nödvändig eftersom information inom datorminne och på datorläsbara media lagras som sekvenser av bitar eller siffror. Detta kräver användning av kodning för att översätta icke-numeriska tecken som används för visning eller mänsklig läsbar utgång till en form som en dator kan manipulera. I en mer specifik applikation kan HyperText Markup Language (HTML) -dokument som läses av webbläsare definiera vilken typ av teckenkodning de använder för att låta webbläsaren veta vilket specifikt tecken som ska användas när du visar informationen i dokumentet. Det finns flera kodningsscheman som används, även om många av dessa proprietära och arvuppsättningar långsamt ersätts av Unicode® -kodningsstandarden.

Under de tidiga dagarna av datorer, när det fanns ett begränsat minnesutrymme, lagrades grundläggande karaktärer i det engelska alfabetet-inklusive skiljetecken och siffror-i 7-bitars sekvenser som möjliggjorde 128 olika tecken. I detta ursprungliga schema representerade varje 7-bitars byte ett tecken i det engelska alfabetet, numrerat i följd. Denna teckenkodning var effektiv och standardiserades så småningom och användes i de flesta datorer som producerades. Även om kodningssystemet utvecklades till Unicode® -kodningsstandarden förblev konceptet detsamma. Nämligen är varje enskilt tecken på ett språk direkt relaterat till ett enda nummer inom en stor standardteckenuppsättning, och det numret är vad en dator använder för att lagra, bearbeta och indexera karaktären.

Andra typer av karaktärskodning utvecklades av olika skäl. Några som var inriktade på det engelska alfabetet och avsedda att användas för text mappade bara sin characters på 7-bitars sekvenser och sprid dem sedan över 8-bitars byte eller oktetter. Detta hade effekten av att spara 1 bit per oktett, effektivt med karaktärkodning som en typ av komprimering. Andra kodningsscheman försökte tillhandahålla basinformation om en karaktär, och sedan ytterligare tecken för att representera speciella accenter som kunde användas vid skrivning på ett annat språk, även om dessa till stor del övergavs för de enklare en-till-en-kodningsmetoderna.

I HTML -dokument är teckenkodning ungefär detsamma som det bredare konceptet, förutom att kodningen som definieras omfattar en hel uppsättning tecken. Detta kan vara viktigt inte bara för främmande språk, utan för dokument som använder specifika symboler för vetenskap eller matematik som inte finns i alla karaktärsuppsättningar. Det kan också vara användbart för att använda skiljetecken och andra glyfer som kanske inte är närvarande eller mappas annorlunda mellan kodningsscheman. Dokument som inte korrekt definierar en icke-standard karaktärKodning kan visas felaktigt eller fyllas med nonsensiska tecken och platshållare istället för läsbar information.

Vad är karaktärskodning?

ANDRA SPRÅK

RELATERADE ARTIKLAR

Hur kan vi hjälpa?