Qu'est-ce que la linguistique de corpus?
La linguistique de corpus étudie le langage à l'aide d'exemples concrets. Ce n'est pas une branche de la linguistique mais une méthodologie ou une approche. Corpus , le mot latin pour "corps", désigne l'ensemble des textes naturels. L'approche consiste à découvrir des schémas d'utilisation du langage à travers l'analyse du corpus. La linguistique de corpus est en train de revenir, car les programmes informatiques ont révolutionné l'approche.
L'agenda parental du discours d'un enfant lors de son apprentissage du langage est un exemple simple de corpus qui peut ensuite être étudié pour apprendre les schémas linguistiques. L'enseignement des langues étrangères dans la première moitié du XXe siècle utilisait souvent des corpus de la langue cible pour établir des listes de vocabulaire pour les étudiants. Noam Chomsky, éminent linguiste, ne considérait pas que l’utilisation des corpus était un outil valable, car il estimait que les compétences linguistiques étaient plus importantes que les données de performance. La linguistique de corpus précoce reposait en grande partie sur l’hypothèse selon laquelle il existe un nombre limité de phrases dans une langue naturelle et que ces phrases peuvent être collectées et évaluées.
Après avoir perdu la faveur des années 60 et 70, la linguistique de corpus connaît un renouveau grâce à l'utilisation méthodologique de l'ordinateur. Le programme de concordance est le nom du logiciel le plus utilisé par les linguistes. Tandis que la recherche de modèles dans un corpus de millions de mots prendrait trop de temps pour un être humain et que les résultats seraient moins que précis, un ordinateur peut rechercher et récupérer des informations en quelques secondes seulement. Il peut calculer la fréquence, trier les données et exploiter les corpus d'une manière qui était impossible auparavant.
L'analyse basée sur le corpus peut examiner la manière dont le registre affecte la langue. les schémas d'utilisation de la langue, tels que la manière dont les hommes et les femmes utilisent différemment les questions de tag; la mesure dans laquelle les modèles linguistiques sont utilisés; et les facteurs qui affectent la variabilité de l'utilisation de la langue. L’enseignement peut tirer parti de la linguistique de corpus dans la conception du programme, le développement des supports utilisés et le type d’activités utilisées en classe. Les élèves pourraient bénéficier de cette approche en étant en mesure de déterminer plus clairement les différentes utilisations et significations des mots courants, les différences inhérentes au langage écrit et parlé, ainsi que les expressions et les collocations qu’ils pourraient utiliser. Le corps de données qui constitue le corpus est constamment mis à jour et est le produit d'interactions sociales réelles. Ainsi, les corpus sont des données naturalistes facilement accessibles et les résultats peuvent être généralisés.