Bir metin kurumu, dilbilim araştırmasının temeli olan sözlü veya yazılı bir metinler topluluğudur. Bu büyük metin bankalarını saklamak, araştırmacıların herhangi bir dilin çeşitli yönlerini analiz etmelerini sağlar. Bir metin kurumu araştırma yapmak için etkili bir yoldur, çünkü materyal toplandıktan sonra, morfoloji, sözdizimi, kelime bilgisi ve pragmatik de dahil olmak üzere çeşitli dil ile ilgili sorunları araştırmak için kullanılabilir. Dilbilimsel araştırma yürütmenin eski yöntemlerinden farklı olarak, bir metin kurumu, araştırmacılara, varsayımsal olarak nasıl kullanılabileceğinden ziyade, bağlamda gerçekten nasıl kullanıldığına göre dile bakmalarını sağlar. Dilbilimciler genellikle, sınırlı mali kaynaklarla, sınırlı bir süre içinde kendilerini toplayabilecekleri verilerle sınırlamaları gerektiğinden çok daha büyük veri örneklerine erişebilirler.
Onbaşı genellikle bir bilgisayarda depolanır, böylece araştırmayı kolaylaştırmak için bilgisayar yazılım programları oluşturulabilir. Metin cesedi kullanmanın yaygın bir yolu, metinlerdeki toplam sözcük sayısını saymak, ardından belirli sözcüklerin görünme sayısını saymak ve sıralamaktır. Toplam kelime sayısı ile belirli kelime sayısı arasında yaratılan oran, Zipf Yasası olarak bilinir. Bu oran, bir dilde kelime sıklığını açıklamaya yardımcı olur. Zipf Yasasını anlamak, bilgisayar programcılarının belirli bir dilin taleplerini karşılayan bilgisayar yazılımı tasarlamasına yardımcı olur. Belirli kelimelerin ve ifadelerin girdi olarak ne sıklıkla kullanılacağını sayabilir ve tahmin edebilirler.
Bir metin korpusu kullanmanın bir başka yolu, araştırmacının çalışmak istediği belirli unsurları etiketlemektir. Bunun nasıl kullanılacağına bir örnek, pasif sesin farklı metin türlerinde kaç kez göründüğünü saymaktır. Etiketleme ayrıca günlük yaşamlarında insanlara yardımcı olan bilgisayar programları oluşturmakta da faydalı olmuştur. Konuşmanın bir kısmı etiketleme, ses tanıma yazılımı geliştirmede kritik öneme sahipti. Örneğin İngilizce'de, aynı kelimenin konuşmanın birden fazla kısmı olabilir. Çoklu heceli kelimeler, konuşmanın hangi kısmının kullanıldığını bildirmek için sıklıkla farklı vurgulanır. “Nesne”, ilk hecedeki stresi taşır, ancak “heceli” fiili ikinci hecede vurgulanır. “Nesne” adının etiketlenmesi, bilgisayar programının hem yüksek sesle doğru şekilde okumasını hem de “nesne” bir insan tarafından söylendiğinde onu tanımasını sağlar.
Metin kurumu, hem insan dilbilimi hem de hesaplamalı dilbilim için faydalıdır. İnsanların kullandıkları dili daha iyi anlamalarına yardımcı olan ve bu sayede bilgisayarların kullandığı dili geliştirmeye yardımcı olacak araştırmaların yapılmasına izin verilir. Ses tanıma teknolojisinde büyük sıçramalar yapıldı, bu da tüketicilerin ofislerinde, evlerinde ve araçlarındaki bilgisayarları sözlü olarak kontrol etmelerine izin verdi. Devam eden ilerlemeler, insanların birbirleriyle olduğu kadar doğal bir şekilde bilgisayarlarla iletişim kurmasını sağlayacaktır.


