テキストファイルとは
テキストファイルは、通常は視覚的な書式情報なしで、入力されたドキュメントを一連の英数字として保存するコンピューターファイルです。 コンテンツは、個人的なメモまたはリスト、ジャーナルまたは新聞記事、書籍、またはタイプライター形式で正確にレンダリングできるその他のテキストです。 テキストファイルは、両方のコンテンツが主にテキスト形式であるという点で、ワープロファイルに似ています。 テキストファイルは、通常、文字スタイルとサイズ、ページネーション、または完成したドキュメントの外観を指定するその他の詳細などの情報を記録しないという点で異なります。 一部のコンピューターオペレーティングシステムは、人間が読み取れるテキストに直接変換されるテキストファイルと、コンピューターによって直接解釈されるバイナリファイルを基本的に区別します。
テキストのエンコードに使用されるほとんどのスキームでは、各文字に数値が割り当てられ、テキストは2進数の文字列として書き込まれます。 情報交換用の米国標準コード(ASCII)と呼ばれるエンコード方式の1つのファミリは、英語以外の言語のサポートが不十分であるにもかかわらず、コンピューティングの歴史の初期に広く使用される標準になりました。 ISO 8859ファミリのコードは、ラテンアルファベットおよび類似のアルファベットに基づく言語のサポートを大幅に向上させましたが、日本語などの東アジア言語の文字をエンコードできなかったため、互換性のない規格が急増しました。
最近では、Unicode®コンソーシアムは、Unicode®と呼ばれるエンコードシステムを開発しており、地球上のすべての言語で使用されるすべての文字に一意の番号を割り当てることを目標としています。 これにより、すべての言語で単一のコードを使用でき、単一のファイルに複数の言語のテキストを表示できます。 Unicodeの最初の部分はISO 8859に基づいており、それ自体はASCIIに基づいています。 Unicode®を使用すると、英語圏の国でも利点があります。古いスキームを使用してエンコードされたテキストは、システムからシステムに移動したときに軽微な不整合を示す場合があるためです。
テキストファイルの利点には、小さいサイズと汎用性が含まれます。 他の形式で保存されている同じデータよりも小さいキロバイトまたはメガバイトで、電子メールまたはディスクを介して迅速かつ大量に交換できます。 ほとんどは、非常に基本的なソフトウェアを使用して、さまざまなオペレーティングシステムを実行しているコンピューターで開くことができます。 主な欠点は、書式設定がないことです。 テキストファイルは、画像を含むドキュメントや、その意味を伝えるためにデザイン要素に依存するドキュメントを表現するための適切な選択ではない場合があります。
テキストファイルは一般に人間が読み取って編集することを目的としていますが、すべてのファイルに主に人間が消費するコンテンツが含まれているわけではありません。 ほとんどのプログラミングコードは、コンパイルされる前にテキストファイルに格納されます。つまり、機械可読バイナリファイルに変換されます。 ファイルには、プレーンテキストに加えてフォーマット情報を提供する機械可読テキストタグも含まれる場合があります。 たとえば、HTML(Hypertext Markup Language)ファイルは、テキストエディターでプレーンテキストファイルとして開いたり、Webブラウザーで解釈された後、フォーマットされたWebページとして表示したりできます。 同様のスキームには、科学論文のレイアウトに使用されるLaTeXや、データの構造化に使用されるExtensible Markup Language(XML)が含まれます。