문자 인코딩이란 무엇입니까?
컴퓨터 프로그래밍에서 문자 인코딩은 일반적으로 문자, 글리프 또는 기호의 숫자 표현을 찾는 데 사용되는 방법 또는 알고리즘입니다. 컴퓨터 메모리와 컴퓨터 판독 가능 매체에있는 정보는 일련의 비트 또는 숫자로 저장되므로 컴퓨터에서 문자 인코딩을 사용해야합니다. 디스플레이 또는 사람이 읽을 수있는 출력에 사용되는 숫자가 아닌 문자를 컴퓨터가 조작 할 수있는 형식으로 변환하려면 인코딩을 사용해야합니다. 보다 구체적인 응용 프로그램에서 웹 브라우저가 읽는 HTML (HyperText Markup Language) 문서는 문서에 정보를 표시 할 때 사용할 특정 문자 집합을 브라우저에 알리기 위해 사용중인 문자 인코딩 유형을 정의 할 수 있습니다. 사용중인 몇 가지 인코딩 체계가 있지만 이러한 독점 및 레거시 세트 중 많은 부분이 유니 코드 ® 인코딩 표준으로 천천히 대체되고 있습니다.
컴퓨터 초기에는 메모리 공간이 제한되어있을 때 구두점 및 숫자를 포함한 영어 알파벳의 기본 문자가 128 비트 문자를 허용하는 7 비트 시퀀스로 저장되었습니다. 이 원래 체계에서 각 7 비트 바이트는 순서대로 번호가 매겨진 영어 알파벳의 한 문자를 나타냅니다. 이 문자 인코딩은 효율적이었으며 결국 표준화되어 제작 된 대부분의 컴퓨터에서 사용되었습니다. 인코딩 시스템이 Unicode® 인코딩 표준으로 발전했지만 개념은 동일하게 유지되었습니다. 즉, 언어의 각 단일 문자는 큰 표준 문자 집합 내의 단일 숫자와 직접 관련되며 해당 숫자는 컴퓨터가 문자를 저장, 처리 및 색인화하는 데 사용하는 숫자입니다.
다른 유형의 문자 인코딩은 다른 이유로 개발되었습니다. 특별히 영어 알파벳에 맞춰져 있으며 일부 문자는 7 비트 시퀀스에 문자를 매핑 한 다음 8 비트 바이트 또는 옥텟에 분산시킵니다. 이는 문자 인코딩을 압축 유형으로 효과적으로 사용하여 옥텟 당 1 비트를 절약하는 효과가있었습니다. 다른 인코딩 체계는 문자에 대한 기본 정보를 제공 한 다음 다른 언어로 쓸 때 사용할 수있는 특수 악센트를 나타 내기 위해 추가 문자를 제공하려고 시도했지만 단순한 일대일 인코딩 방법에서는 크게 버려졌습니다.
HTML 문서에서 문자 인코딩은 정의 된 인코딩이 전체 문자 세트를 포함한다는 점을 제외하면보다 넓은 개념과 거의 동일합니다. 이것은 외국어뿐만 아니라 모든 문자 집합에 포함되지 않은 과학 또는 수학에 특정 기호를 사용하는 문서의 경우 중요 할 수 있습니다. 또한 구두점 및 다른 글리프를 사용하여 인코딩 체계간에 존재하지 않거나 다르게 매핑되는 데 유용 할 수 있습니다. 비표준 문자 인코딩을 올바르게 정의하지 않은 문서는 읽을 수있는 정보 대신 잘못 표시되거나 중요하지 않은 문자 및 자리 표시 자로 채워질 수 있습니다.