Hva er karakterkoding?
Karakterkoding, i dataprogrammering, er en metode eller algoritme som brukes til å finne en vanligvis numerisk fremstilling av et tegn, glyph eller symbol. Bruk av karakterkoding i datamaskiner er nødvendig fordi informasjon i datamaskinens minne og på datamaskinlesbare medier er lagret som sekvenser av biter eller tall. Dette krever bruk av koding for å oversette ikke-numeriske tegn som brukes til visning eller menneskelig lesbar utgang til en form som en datamaskin kan manipulere. I et mer spesifikt program kan HyperText Markup Language (HTML) -dokumenter som leses av nettlesere, definere hvilken type karakterkoding de bruker for å la nettleseren få vite hvilket spesifikt tegnsett som skal brukes når informasjonen vises i dokumentet. Det er flere kodingsordninger som er i bruk, selv om mange av disse proprietære og eldre artene sakte blir erstattet av Unicode®-kodingsstandarden.
I de første dagene av datamaskiner, da det var begrenset minneplass, ble grunntegnene i det engelske alfabetet - inkludert tegnsetting og tall - lagret i 7-bits sekvenser som ga 128 forskjellige tegn. I dette originale skjemaet representerte hver 7-bitbyte ett tegn i det engelske alfabetet, nummerert i rekkefølge. Denne karakterkodingen var effektiv og ble etter hvert standardisert og brukt i de fleste datamaskiner som ble produsert. Selv om kodingssystemet utviklet seg til Unicode®-kodingsstandarden, forble konseptet det samme. Nemlig at hvert enkelt tegn på et språk er direkte relatert til et enkelt nummer i et stort standard tegnsett, og det tallet er det en datamaskin bruker for å lagre, behandle og indeksere tegnet.
Andre typer karakterkoding ble utviklet av forskjellige grunner. Noen som var spesifikt rettet mot det engelske alfabetet og som skulle brukes til tekst, kartla bare tegnene deres på 7-bits sekvenser og spredte dem deretter over 8-bit byte eller oktetter. Dette hadde effekten av å lagre 1 bit per oktett, effektivt bruke karakterkoding som en type komprimering. Andre kodingsskjemaer forsøkte å gi grunnleggende informasjon om et tegn, og deretter tilleggstegn for å representere spesielle aksenter som kan brukes når du skriver på et annet språk, selv om disse i stor grad ble forlatt for de enklere en-til-en-kodingsmetodene.
I HTML-dokumenter er tegnkoding omtrent det samme som det bredere konseptet, bortsett fra at kodingen som er definert omfatter et helt sett med tegn. Dette kan være viktig ikke bare for fremmedspråk, men for dokumenter som bruker spesifikke symboler for naturfag eller matematikk som ikke er til stede i alle tegnsett. Det kan også være nyttig for bruk av tegnsetting og andre gifter som kanskje ikke er til stede eller er kartlagt annerledes på tvers av kodingsordninger. Dokumenter som ikke definerer en ikke-standard tegnkoding, kan vises feil eller være fylt med nonsensiske tegn og plassholdere i stedet for lesbar informasjon.