Co je textový soubor?
Textový soubor je počítačový soubor, který ukládá typovaný dokument jako řadu alfanumerických znaků, obvykle bez informací o vizuálním formátování. Obsahem může být osobní poznámka nebo seznam, deník nebo novinový článek, kniha nebo jakýkoli jiný text, který lze přesně vykreslit psacím strojem. Textové soubory jsou podobné souborům pro zpracování textu v tom, že obsah obou je primárně textový; liší se v tom, že textové soubory obvykle nezaznamenávají informace, jako je styl a velikost znaku, stránkování nebo jiné podrobnosti, které by specifikovaly vzhled hotového dokumentu. Některé počítačové operační systémy dělají základní rozlišení mezi textovým souborem, který má být přeložen přímo do textu čitelného člověkem, a binárním souborem, který je počítačem interpretován přímo.
Ve většině schémat používaných pro kódování textu je každému znaku přiřazena číselná hodnota, přičemž text je poté zapsán jako řetězec binárních čísel. Jedna rodina kódovacích schémat, nazývaná americký standardní kód pro výměnu informací (ASCII), se stala široce používaným standardem na počátku historie výpočetní techniky, a to i přes její špatnou podporu jiných jazyků než angličtiny. Rodina kódů ISO 8859 poskytuje mnohem lepší podporu jazyků založených na latinské abecedě a podobných abecedách, ale nebyla schopna zakódovat znaky z východoasijských jazyků, jako je japonština, což vede k šíření nekompatibilních standardů.
Nedávno konsorcium Unicode® vyvíjí kódovací systém s názvem Unicode® , jehož cílem je přiřadit jedinečné číslo každé postavě používané ve všech jazycích na Zemi. To umožní použít jeden kód pro každý jazyk a umožní textům z více jazyků, aby se objevily v jediném souboru. První část Unicode je založena na ISO 8859, která je sama založena na ASCII. Používání Unicode® může mít výhody i v anglicky mluvících zemích, protože text kódovaný pomocí starších schémat může při přechodu ze systému do systému vykazovat drobné nesrovnalosti.
Mezi výhody textových souborů patří malá velikost a univerzálnost. Kilobajty nebo megabajty menší než stejná data uložená v jiných formátech, lze je rychle a masivně vyměňovat prostřednictvím e-mailu nebo disku. Většinu lze otevřít na počítačích s různými operačními systémy pomocí velmi základního softwaru. Hlavní nevýhodou je nedostatek formátování. Textový soubor může být špatnou volbou pro reprezentaci dokumentu, který obsahuje obrázky nebo který se spoléhá na konstrukční prvky, aby sdělil svůj význam - například soubor obsahující tabulková data, matematické vzorce nebo konkrétní poezii.
Textové soubory jsou obecně určeny pro čtení a úpravy lidmi, ale ne všechny obsahují obsah, který je primárně určen k lidské spotřebě. Většina programovacího kódu je před kompilací uložena v textovém souboru, tj. Přeložena do strojově čitelného binárního souboru. Soubory mohou také obsahovat strojově čitelné textové štítky, které kromě prostého textu poskytují informace o formátování. Například soubor HTML (Hypertext Markup Language) může být otevřen jako textový soubor v textovém editoru nebo se může zobrazit jako formátovaná webová stránka poté, co je interpretován webovým prohlížečem. Podobná schémata zahrnují LaTeX, používaný pro rozložení vědeckých prací, a Extensible Markup Language (XML), používaný pro strukturování dat.