Che cos'è un corpus testuale?
Un corpus testuale è una raccolta di testi, parlati o scritti, che è la base per la ricerca linguistica del corpus. La memorizzazione di queste grandi banche di testi consente ai ricercatori di analizzare vari aspetti di qualsiasi lingua. Un corpus testuale è un modo efficace per condurre ricerche perché, una volta raccolto il materiale, può essere utilizzato per studiare una varietà di questioni relative alla lingua, tra cui morfologia, sintassi, vocabolario e pragmatica. A differenza dei vecchi metodi di conduzione della ricerca linguistica, un corpus testuale consente ai ricercatori di guardare la lingua in base a come viene effettivamente utilizzata nel contesto, piuttosto che a come ipoteticamente potrebbe essere usata. I linguisti in genere hanno accesso a campioni di dati molto più grandi di quando dovevano limitarsi ai dati che potevano raccogliere in un periodo di tempo limitato con risorse finanziarie limitate.
I corpora sono in genere memorizzati in un computer, quindi è possibile creare programmi software per facilitare la ricerca. Un modo comune di usare un corpus di testo è contare il numero totale di parole nei testi, quindi contare e classificare il numero di volte in cui sono apparse determinate parole. Il rapporto che viene creato tra il numero di parole totali e parole specifiche è noto come Legge di Zipf. Questo rapporto aiuta a spiegare la frequenza delle parole in una lingua. Comprendere la legge di Zipf aiuta i programmatori di computer a progettare software che soddisfi le esigenze di una determinata lingua. Possono contare e prevedere la frequenza con cui determinate parole e frasi verranno utilizzate come input.
Un altro modo di usare un corpus testuale è quello di taggare in esso elementi specifici che il ricercatore vuole studiare. Un esempio di come questo sarebbe usato è contare quante volte la voce passiva appare in diversi generi di testo. Il tagging è stato anche utile nella creazione di programmi per computer che aiutano le persone nella loro vita quotidiana. L'etichettatura parziale è stata fondamentale per lo sviluppo del software di riconoscimento vocale. In inglese, ad esempio, la stessa parola potrebbe contenere più di una parte del discorso. Le parole multisillabiche sono spesso sottolineate in modo diverso per segnalare quale parte del discorso viene utilizzata. Il sostantivo "oggetto" porta la sua sollecitazione sulla prima sillaba, ma il verbo "oggetto" è sottolineato sulla seconda sillaba. Contrassegnare la forma del nome di "oggetto" aiuta il programma per computer a leggerlo ad alta voce in modo corretto e a riconoscerlo quando un "oggetto" viene detto da un essere umano.
I corpora di testo sono utili sia alla linguistica umana che alla linguistica computazionale. Consentono di condurre ricerche che aiutino le persone a comprendere meglio la lingua che gli umani usano e che a loro volta aiutano a sviluppare la lingua usata dai computer. Sono stati fatti grandi passi avanti nella tecnologia di riconoscimento vocale, che consente ai consumatori di controllare verbalmente i computer nei loro uffici, case e veicoli. I continui progressi consentiranno agli umani di comunicare con i computer in modo naturale come fanno gli uni con gli altri.