コードポイントとは
コードポイントは、文字セット内の個々の文字を示す特定の数値を指します。 エンドユーザーの観点からは、コンピューターでの入力はかなり簡単です。 キーボードのラベル付きキーを押すと、対応する文字が画面に作成されます。 ただし、コンピューターの観点からは、タイピングははるかに困難です。 特定の選択された文字を生成するには、キーボードからの入力を数回翻訳する必要があります。 特定の文字のコードポイントは、翻訳チェーンの1ステップにすぎず、特定の文字セット内に画面上のテキストが表示されます。
文字セットは、どの数字がどの文字に対応するかをコンピューターに説明する多言語辞書のようなものです。 コードポイントは、その文字セット内の特定の文字に対応する番号です。 コンピューターで一般的に使用される文字セットの例には、情報交換用の米国標準コード(ASCII)およびユニコードが含まれます。 これらのセットにはそれぞれ異なるコードポイントのセットがあるため、たとえば、ASCIIのコードポイント400は「!」 文字、Unicodeでは「&」を参照する場合があります。
エンドユーザーがキーボードのボタンを押すと、ハードウェアは、コンピューターがバイナリに変換するように動作する特定の電子インパルスセットを生成します。 バイナリはコンピューターの言語であり、「1」と「0」の文字のみで構成されています。 これから、コンピューターは特定の数値を計算し、その数値は、目的の文字を生成するために文字セットのコードポイントと一致する必要があります。 これがすべて完了して初めて、コンピューターは選択したキャラクターを画面に表示します。
コードポイントは、コンピューターの1〜4バイトのスペースに保存されます。 これは非常に小さなメモリチャンクです。つまり、数百または数千のコードポイントを保存することは、現代のコンピューターにとっては大きな課題ではありません。 その結果、文字セットのメーカーは、不特定のコードポイント割り当てのために多くのスペースを空けておくことが多く、プログラマーはコードを大幅に修正することなく、必要に応じて追加の文字をセットに追加できます。
注目に値するもう1つの点は、コードポイントは、文字セット内の抽象文字または非標準文字に最もよく使用されることです。 これらの抽象文字の例を見るには、Windowsベースのマシンを使用している場合はコンピューターの[スタート]メニューを開き、[検索の開始]ボックスに「Charmap」と入力します。 「Enter」を押して、選択した文字セットで使用可能な抽象文字のリストを表示します。