¿Qué es un corpus de texto?

Un Corpus de texto es una colección de textos, hablados o escritos, que es la base de la investigación de lingüística del corpus. El almacenamiento de estos grandes bancos de textos permite a los investigadores analizar varios aspectos de cualquier idioma. Un corpus de texto es una forma eficiente de realizar investigaciones porque una vez que se recopila el material, se puede utilizar para investigar una variedad de problemas relacionados con el lenguaje, incluida la morfología, la sintaxis, el vocabulario y la pragmática. A diferencia de los métodos más antiguos para realizar investigaciones lingüísticas, un corpus de texto permite a los investigadores mirar el lenguaje de acuerdo con cómo se usa realmente en contexto, en lugar de cómo se podría usar hipotéticamente. Los lingüistas generalmente tienen acceso a muestras de datos mucho más grandes que cuando tenían que limitarse a los datos que podrían recolectarse en un período limitado de tiempo con recursos financieros limitados.

Los corpus generalmente se almacenan en una computadora, por lo que se pueden crear programas de software de computadora para facilitar la investigación. Una forma común de usar una corpú de textoS es contar el número total de palabras en los textos, luego contar y clasificar el número de veces que aparecen ciertas palabras. La relación que se crea entre el número de palabras totales y palabras específicas se conoce como ley de ZIPF. Esta relación ayuda a explicar la frecuencia de las palabras en un idioma. Comprender la ley de ZIPF ayuda a los programadores de computadoras a diseñar software informático que satisface las demandas de un idioma determinado. Pueden contar y predecir con qué frecuencia ciertas palabras y frases se utilizarán como entrada.

Otra forma de usar un corpus de texto es etiquetar elementos específicos que el investigador quiere estudiar. Un ejemplo de cómo se usaría esto es contar cuántas veces aparece la voz pasiva en diferentes géneros de texto. El etiquetado también ha sido útil para crear programas de computadora que ayuden a las personas en su vida diaria. El etiquetado de parte del habla ha sido fundamental para el desarrollo del software de reconocimiento de voz. En ENGlish, por ejemplo, la misma palabra podría tener más de una parte del discurso. Las palabras multisilábicas a menudo se enfatizan de manera diferente para señalar qué parte del discurso se está utilizando. El sustantivo "objeto" conlleva su estrés en la primera sílaba, pero el verbo "objeto" se enfatiza en la segunda sílaba. Etiquetar la forma sustantiva de "objeto" ayuda al programa de la computadora a leerlo en voz alta correctamente y reconocerlo cuando un humano está diciendo "objeto".

Los corpus de texto son útiles tanto para la lingüística humana como para la lingüística computacional. Permiten que se realicen investigaciones que ayuden a las personas a comprender mejor el lenguaje que usan los humanos, lo que a su vez ayuda a desarrollar el lenguaje que las computadoras usan. Se han realizado grandes saltos en la tecnología de reconocimiento de voz, lo que permite a los consumidores controlar verbalmente las computadoras en sus oficinas, hogares y vehículos. Los continuos avances permitirán a los humanos comunicarse con las computadoras tan naturalmente como lo hacen entre sí.

¿Qué es un corpus de texto?

OTROS IDIOMAS