Was ist Zeichenkodierung?
Die Zeichencodierung in der Computerprogrammierung ist ein Verfahren oder ein Algorithmus, mit dem eine normalerweise numerische Darstellung eines Zeichens, einer Glyphe oder eines Symbols gefunden wird. Die Verwendung der Zeichencodierung in Computern ist erforderlich, da Informationen im Computerspeicher und auf computerlesbaren Medien als Folgen von Bits oder Zahlen gespeichert werden. Dies erfordert die Verwendung einer Codierung, um nicht numerische Zeichen, die für die Anzeige oder für die von Menschen lesbare Ausgabe verwendet werden, in eine Form zu übersetzen, die ein Computer bearbeiten kann. In einer spezifischeren Anwendung können HyperText Markup Language (HTML) -Dokumente, die von Webbrowsern gelesen werden, definieren, welche Art von Zeichencodierung sie verwenden, um dem Browser mitzuteilen, welcher bestimmte Zeichensatz beim Anzeigen der Informationen im Dokument verwendet werden soll. Es werden mehrere Codierungsschemata verwendet, obwohl viele dieser proprietären und älteren Sets langsam durch den Unicode®-Codierungsstandard ersetzt werden.
In den Anfängen von Computern, als der Speicherplatz begrenzt war, wurden die Grundzeichen des englischen Alphabets - einschließlich Interpunktion und Zahlen - in 7-Bit-Sequenzen gespeichert, die 128 verschiedene Zeichen zuließen. In diesem ursprünglichen Schema stellte jedes 7-Bit-Byte ein Zeichen des englischen Alphabets dar, das der Reihe nach nummeriert ist. Diese Zeichenkodierung war effizient und wurde schließlich standardisiert und in den meisten produzierten Computern verwendet. Obwohl sich das Codierungssystem zum Unicode®-Codierungsstandard entwickelte, blieb das Konzept dasselbe. Jedes einzelne Zeichen in einer Sprache steht nämlich in direkter Beziehung zu einer einzelnen Zahl in einem großen Standardzeichensatz, und diese Zahl wird von einem Computer zum Speichern, Verarbeiten und Indizieren des Zeichens verwendet.
Andere Arten der Zeichenkodierung wurden aus unterschiedlichen Gründen entwickelt. Einige, die speziell auf das englische Alphabet ausgerichtet waren und für Text gedacht waren, haben ihre Zeichen nur auf 7-Bit-Sequenzen abgebildet und sie dann auf 8-Bit-Bytes oder Oktetts verteilt. Dadurch wurde 1 Bit pro Oktett gespart und die Zeichencodierung effektiv als Komprimierungsart verwendet. Andere Codierungsschemata versuchten, Basisinformationen über ein Zeichen und dann zusätzliche Zeichen bereitzustellen, um spezielle Akzente darzustellen, die beim Schreiben in einer anderen Sprache verwendet werden könnten, obwohl diese für die einfacheren Eins-zu-Eins-Codierungsmethoden größtenteils aufgegeben wurden.
In HTML-Dokumenten entspricht die Zeichenkodierung in etwa dem allgemeinen Konzept, mit der Ausnahme, dass die zu definierende Kodierung eine ganze Reihe von Zeichen umfasst. Dies kann nicht nur für Fremdsprachen wichtig sein, sondern auch für Dokumente, in denen bestimmte Symbole für Naturwissenschaften oder Mathematik verwendet werden und die nicht in allen Zeichensätzen vorhanden sind. Es kann auch nützlich sein, um Satzzeichen und andere Glyphen zu verwenden, die möglicherweise nicht vorhanden sind oder in verschiedenen Codierungsschemata unterschiedlich zugeordnet sind. Dokumente, die eine nicht standardmäßige Zeichenkodierung nicht ordnungsgemäß definieren, werden möglicherweise falsch angezeigt oder mit unsinnigen Zeichen und Platzhaltern anstelle von lesbaren Informationen gefüllt.