O que é um corpus de texto?

Um corpus de texto é uma coleção de textos, falados ou escritos, que é a base da pesquisa em lingüística do corpus. O armazenamento desses grandes bancos de textos permite que os pesquisadores analisem vários aspectos de qualquer idioma. Um corpus de texto é uma maneira eficiente de realizar pesquisas porque, uma vez coletado o material, ele pode ser usado para investigar uma variedade de questões relacionadas à linguagem, incluindo morfologia, sintaxe, vocabulário e pragmática. Ao contrário dos métodos mais antigos de condução de pesquisas linguísticas, um corpus de texto permite que os pesquisadores observem a linguagem de acordo com a forma como ela é realmente usada no contexto, e não como ele pode ser usado hipoteticamente. Os linguistas normalmente têm acesso a amostras de dados muito maiores do que quando tiveram que se limitar aos dados que poderiam se recolher em um período limitado de tempo com recursos financeiros limitados.

Os corpora são normalmente armazenados em um computador, para que os programas de software de computador possam ser criados para facilitar a pesquisa. Uma maneira comum de usar um corpu de textoS deve contar o número total de palavras nos textos, depois contar e classificar o número de vezes que certas palavras apareceram. A proporção criada entre o número de palavras totais e palavras específicas é conhecida como Lei do ZIPF. Essa proporção ajuda a explicar a frequência de palavras em um idioma. A compreensão da lei da ZIPF ajuda os programadores de computadores a projetar software de computador que atenda às demandas de um determinado idioma. Eles podem contar e prever com que frequência certas palavras e frases serão usadas como entrada.

Outra maneira de usar um corpus de texto é marcar elementos específicos que o pesquisador deseja estudar. Um exemplo de como isso seria usado é contar quantas vezes a voz passiva aparece em diferentes gêneros de texto. A marcação também tem sido útil na criação de programas de computador que ajudam as pessoas em suas vidas diárias. A marcação de discurso foi fundamental para o desenvolvimento de software de reconhecimento de voz. Em ptGisando, por exemplo, a mesma palavra pode ter mais de uma parte do discurso. As palavras multissilábicas geralmente são estressadas de maneira diferente para sinalizar qual parte da fala está sendo usada. O substantivo "objeto" carrega seu estresse na primeira sílaba, mas o verbo "objeto" é enfatizado na segunda sílaba. A marcação da forma substantiva de "Objeto" ajuda o programa de computador a ler em voz alta corretamente e reconhecê -lo quando "objeto" está sendo dito por um humano.

Corpora de texto são úteis para a linguística humana e a linguística computacional. Eles permitem que a pesquisa seja realizada que ajude as pessoas a entender melhor o idioma que os humanos usam que, por sua vez, ajudam a desenvolver os computadores de idiomas. Grandes saltos foram feitos na tecnologia de reconhecimento de voz, permitindo que os consumidores controlem verbalmente computadores em seus escritórios, residências e veículos. Os avanços contínuos permitirão que os humanos se comuniquem com os computadores tão naturalmente quanto eles.

OUTRAS LÍNGUAS

Este artigo foi útil? Obrigado pelo feedback Obrigado pelo feedback

Como podemos ajudar? Como podemos ajudar?