Wat is een tekstbestand?
Een tekstbestand is een computerbestand waarin een getypt document wordt opgeslagen als een reeks alfanumerieke tekens, meestal zonder visuele opmaakinformatie. De inhoud kan een persoonlijke notitie of lijst, een tijdschrift of krantenartikel, een boek of elke andere tekst zijn die nauwkeurig in getypte vorm kan worden weergegeven. Tekstbestanden zijn vergelijkbaar met tekstverwerkingsbestanden omdat de inhoud van beide hoofdzakelijk tekstueel is; ze verschillen in die zin dat tekstbestanden meestal geen informatie vastleggen zoals tekenstijl en -grootte, paginering of andere details die het uiterlijk van een voltooid document zouden specificeren. Sommige computerbesturingssystemen maken een fundamenteel onderscheid tussen een tekstbestand, dat is bedoeld om direct in door mensen leesbare tekst te worden vertaald, en een binair bestand, dat rechtstreeks door de computer wordt geïnterpreteerd.
In de meeste schema's die worden gebruikt voor het coderen van tekst, krijgt elk teken een numerieke waarde, waarbij de tekst vervolgens wordt geschreven als een reeks binaire getallen. Eén familie van coderingsschema's, de Amerikaanse standaardcode voor informatie-uitwisseling (ASCII) genoemd, werd in het begin van de computergeschiedenis een veelgebruikte standaard, ondanks de slechte ondersteuning voor andere talen dan het Engels. De ISO 8859-codefamilie biedt veel betere ondersteuning voor talen op basis van het Latijnse alfabet en vergelijkbare alfabetten, maar heeft de tekens uit Oost-Aziatische talen zoals Japans niet kunnen coderen, wat heeft geleid tot een toename van incompatibele normen.
Meer recent heeft het Unicode® Consortium een coderingssysteem ontwikkeld met de naam Unicode® dat tot doel heeft een uniek nummer toe te kennen aan elk karakter dat in elke taal op aarde wordt gebruikt. Hierdoor kan voor elke taal een enkele code worden gebruikt en kunnen teksten uit meerdere talen in één bestand worden weergegeven. Het eerste deel van Unicode is gebaseerd op ISO 8859, dat zelf is gebaseerd op ASCII. Het gebruik van Unicode® kan zelfs in Engelstalige landen voordelen hebben, omdat tekst die met oudere schema's is gecodeerd, kleine inconsistenties kan vertonen wanneer deze van systeem naar systeem wordt verplaatst.
Voordelen van tekstbestanden zijn onder andere een kleine omvang en veelzijdigheid. Kilobytes of megabytes kleiner dan dezelfde gegevens die in andere formaten zijn opgeslagen, ze kunnen snel en massaal worden uitgewisseld via e-mail of schijf. De meeste kunnen worden geopend op computers met verschillende besturingssystemen, met behulp van zeer eenvoudige software. Het belangrijkste nadeel is het gebrek aan opmaak. Een tekstbestand kan een slechte keuze zijn om een document weer te geven dat afbeeldingen bevat of die afhankelijk zijn van ontwerpelementen om de betekenis ervan te communiceren - een bestand met tabelgegevens, wiskundige formules of concrete poëzie bijvoorbeeld.
Tekstbestanden zijn over het algemeen bedoeld om te worden gelezen en bewerkt door mensen, maar ze bevatten niet allemaal inhoud die primair voor menselijke consumptie is. De meeste programmeercode wordt voorafgaand aan het compileren opgeslagen in een tekstbestand, dat wil zeggen vertaald in een machinaal leesbaar binair bestand. Bestanden kunnen ook machineleesbare tekstuele tags bevatten die naast gewone tekst opmaakinformatie geven. Een HTML-bestand (Hypertext Markup Language) kan bijvoorbeeld worden geopend als tekstbestand in een teksteditor of worden weergegeven als een opgemaakte webpagina nadat deze is geïnterpreteerd door een webbrowser. Vergelijkbare schema's zijn LaTeX, gebruikt voor het opmaken van wetenschappelijke artikelen, en Extensible Markup Language (XML), gebruikt voor het structureren van gegevens.