O que é um corpus de texto?
Um corpus de texto é uma coleção de textos, falados ou escritos, que é a base da pesquisa lingüística em corpus. Armazenar esses grandes bancos de textos permite que os pesquisadores analisem vários aspectos de qualquer idioma. Um corpus de texto é uma maneira eficiente de conduzir pesquisas porque, uma vez que o material é coletado, ele pode ser usado para investigar uma variedade de questões relacionadas ao idioma, incluindo morfologia, sintaxe, vocabulário e pragmática. Diferentemente dos métodos mais antigos de conduzir a pesquisa lingüística, um corpus de texto permite que os pesquisadores analisem a linguagem de acordo com como ela é realmente usada no contexto, e não como ela poderia ser usada hipoteticamente. Os lingüistas geralmente têm acesso a amostras de dados muito maiores do que quando precisavam se limitar aos dados que podiam coletar em um período limitado de tempo, com recursos financeiros limitados.
Normalmente, os corpora são armazenados em um computador; portanto, é possível criar programas de software para facilitar a pesquisa. Uma maneira comum de usar um corpus de texto é contar o número total de palavras nos textos, depois contar e classificar o número de vezes que certas palavras apareceram. A proporção criada entre o número total de palavras e palavras específicas é conhecida como Lei de Zipf. Essa proporção ajuda a explicar a frequência das palavras em um idioma. A compreensão da lei de Zipf ajuda os programadores de computador a projetar software que atenda às demandas de um determinado idioma. Eles podem contar e prever com que frequência determinadas palavras e frases serão usadas como entrada.
Outra maneira de usar um corpus de texto é marcar nele elementos específicos que o pesquisador deseja estudar. Um exemplo de como isso seria usado é contar quantas vezes a voz passiva aparece em diferentes gêneros de texto. A marcação também tem sido útil na criação de programas de computador que ajudam as pessoas em suas vidas diárias. A marcação de parte do discurso tem sido fundamental para o desenvolvimento de software de reconhecimento de voz. Em inglês, por exemplo, a mesma palavra pode ter mais de uma parte do discurso. Palavras multissilábicas são frequentemente enfatizadas de maneira diferente para sinalizar qual parte do discurso está sendo usada. O substantivo "objeto" enfatiza a primeira sílaba, mas o verbo "objeto" é enfatizado na segunda sílaba. Marcar a forma substantiva de “objeto” ajuda o programa de computador a lê-lo em voz alta corretamente e a reconhecê-lo quando um objeto é dito por um ser humano.
Os corpora de texto são úteis tanto para a lingüística humana quanto para a lingüística computacional. Eles permitem a realização de pesquisas que ajudem as pessoas a entender melhor o idioma que os humanos usam, o que, por sua vez, ajuda a desenvolver o idioma que os computadores usam. Grandes avanços foram feitos na tecnologia de reconhecimento de voz, permitindo que os consumidores controlem verbalmente os computadores em seus escritórios, residências e veículos. Os avanços contínuos permitirão que os seres humanos se comuniquem com os computadores da maneira mais natural possível.