Hvad er karakterkodning?
tegnkodning i computerprogrammering er en metode eller algoritme, der bruges til at finde en normalt numerisk repræsentation af en karakter, glyph eller symbol. Brug af karakterkodning i computere er nødvendig, fordi information inden for computerhukommelse og på computerlæsbare medier gemmes som sekvenser af bits eller tal. Dette kræver brug af kodning til at oversætte ikke-numeriske tegn, der bruges til visning eller menneskelig læsbar output til en formular, som en computer kan manipulere. I en mere specifik applikation kan Hypertext Markup Language (HTML) -dokumenter, der læses af webbrowsere, definere, hvilken type karakterkodning de bruger til at lade browseren vide, hvilket specifikt tegn, der skal bruges, når de viser oplysningerne i dokumentet. Der er flere kodningsordninger, der er i brug, skønt mange af disse proprietære og ældre sæt langsomt erstattes af Unicode® -kodningsstandarden.
I de tidlige dage af computere, da der var begrænset hukommelsesplads, blev de grundlæggende tegn i det engelske alfabet-inklusive tegnsætning og tal-gemt i 7-bit sekvenser, der muliggjorde 128 forskellige tegn. I dette originale skema repræsenterede hver 7-bit byte en karakter af det engelske alfabet, nummereret i rækkefølge. Denne karakterkodning var effektiv og blev til sidst standardiseret og brugt i de fleste computere, der blev produceret. Selvom kodningssystemet udviklede sig til Unicode® -kodningsstandarden, forblev konceptet det samme. Nemlig er hver enkelt karakter på et sprog direkte relateret til et enkelt tal inden for et stort standardtegn, og det nummer er, hvad en computer bruger til at gemme, behandle og indeksere karakteren.
Andre typer karakterkodning blev udviklet af forskellige grunde. Nogle, der var gearet specifikt til det engelske alfabet og beregnet til at blive brugt til tekst, der kun kortlagde deres karakterers på 7-bit sekvenser og spreder dem derefter over 8-bit bytes eller oktetter. Dette havde effekten af at spare 1 bit pr. Octet, effektivt ved hjælp af karakterkodning som en type komprimering. Andre kodningsordninger forsøgte at give basisoplysninger om en karakter og derefter yderligere tegn til at repræsentere specielle accenter, der kunne bruges, når de skriver på et andet sprog, skønt disse stort set blev forladt for de enklere en-til-en-kodningsmetoder.
I HTML -dokumenter er karakterkodning omtrent det samme som det bredere koncept, bortset fra at kodningen, der defineres, omfatter et helt sæt tegn. Dette kan være vigtigt ikke kun for fremmedsprog, men for dokumenter, der bruger specifikke symboler til videnskab eller matematik, der ikke er til stede i alle karaktersæt. Det kan også være nyttigt til at bruge tegnsætning og andre glyfer, der muligvis ikke er til stede eller kortlægges forskelligt på tværs af kodningsordninger. Dokumenter, der ikke definerer en ikke-standard karakter korrektKodning kan vise forkert eller blive fyldt med nonsensiske tegn og pladsholdere i stedet for læsbare oplysninger.