Skip to main content

Что такое кодировка символов?

Кодирование символов в компьютерном программировании - это метод или алгоритм, используемый для нахождения обычно числового представления символа, глифа или символа. Использование кодировки символов в компьютерах необходимо, потому что информация в памяти компьютера и на машиночитаемых носителях хранится в виде последовательностей битов или чисел. Это требует использования кодировки для перевода нечисловых символов, которые используются для отображения или для чтения человеком, в форму, которой может манипулировать компьютер. В более конкретном приложении документы на языке гипертекстовой разметки (HTML), которые читаются веб-браузерами, могут определять, какой тип кодировки символов они используют, чтобы сообщить браузеру, какой конкретный набор символов следует использовать при отображении информации в документе. Существует несколько используемых схем кодирования, хотя многие из этих проприетарных и устаревших наборов постепенно заменяются стандартом кодирования Unicode®.

В первые дни компьютеров, когда было ограниченное пространство памяти, основные символы английского алфавита - включая знаки препинания и цифры - хранились в 7-битных последовательностях, допускающих 128 различных символов. В этой оригинальной схеме каждый 7-битный байт представлял один символ английского алфавита, пронумерованный в последовательности. Эта кодировка символов была эффективной и в конечном итоге была стандартизирована и использовалась на большинстве производимых компьютеров. Хотя система кодирования превратилась в стандарт кодирования Unicode®, концепция осталась прежней. А именно, каждый отдельный символ в языке напрямую связан с одним номером в большом стандартном наборе символов, и этот номер используется компьютером для хранения, обработки и индексации символа.

Другие типы кодировки символов были разработаны по разным причинам. Некоторые из них были предназначены специально для английского алфавита и предназначались для использования только для текста, отображали свои символы только на 7-битные последовательности и затем распределяли их по 8-битным байтам или октетам. Это позволило сэкономить 1 бит на октет, эффективно используя кодирование символов в качестве типа сжатия. Другие схемы кодирования пытались предоставить базовую информацию о символе, а затем дополнительные символы для представления специальных акцентов, которые можно было бы использовать при написании на другом языке, хотя они были в значительной степени отброшены для более простых методов кодирования «один к одному».

В документах HTML кодировка символов примерно такая же, как и в более широком понятии, за исключением того, что определяемая кодировка охватывает весь набор символов. Это может быть важно не только для иностранных языков, но и для документов, которые используют специальные символы для науки или математики, которые присутствуют не во всех наборах символов. Это также может быть полезно для использования знаков препинания и других символов, которые могут отсутствовать или по-разному отображаться в схемах кодирования. Документы, которые неправильно определяют нестандартную кодировку символов, могут отображаться неправильно или заполняться бессмысленными символами и заполнителями вместо читаемой информации.