คลังข้อความคือชุดของข้อความพูดหรือเขียนซึ่งเป็นพื้นฐานสำหรับการวิจัยภาษาศาสตร์คลังข้อมูล การจัดเก็บตำราธนาคารขนาดใหญ่เหล่านี้ช่วยให้นักวิจัยสามารถวิเคราะห์แง่มุมต่าง ๆ ของภาษาใด ๆ คลังข้อความเป็นวิธีที่มีประสิทธิภาพในการทำวิจัยเพราะเมื่อรวบรวมเนื้อหาแล้วมันสามารถใช้ในการตรวจสอบปัญหาต่าง ๆ ที่เกี่ยวข้องกับภาษารวมถึงสัณฐานวิทยาไวยากรณ์คำศัพท์และวัจนปฏิบัติศาสตร์ แตกต่างจากวิธีการแบบเก่าของการทำวิจัยภาษาศาสตร์คลังข้อความช่วยให้นักวิจัยมองภาษาตามวิธีการใช้งานจริงในบริบทมากกว่าการใช้สมมุติฐาน โดยทั่วไปนักภาษาศาสตร์สามารถเข้าถึงตัวอย่างข้อมูลที่มีขนาดใหญ่กว่าเมื่อพวกเขาต้อง จำกัด ตัวเองกับข้อมูลที่พวกเขาสามารถรวบรวมตัวเองได้ในเวลา จำกัด ด้วยทรัพยากรทางการเงินที่ จำกัด
โดยทั่วไปจะถูกเก็บไว้ในคอมพิวเตอร์ Corpora ดังนั้นซอฟต์แวร์คอมพิวเตอร์สามารถสร้างขึ้นเพื่ออำนวยความสะดวกในการวิจัย วิธีหนึ่งที่ใช้กันทั่วไปในการใช้คลังข้อความคือการนับจำนวนคำทั้งหมดในข้อความจากนั้นนับและจัดลำดับจำนวนครั้งที่มีคำที่ปรากฏ อัตราส่วนที่สร้างขึ้นระหว่างจำนวนคำทั้งหมดและคำเฉพาะเรียกว่ากฎของ Zipf อัตราส่วนนี้ช่วยอธิบายความถี่ของคำในภาษา การทำความเข้าใจกฎหมายของ Zipf ช่วยให้โปรแกรมเมอร์คอมพิวเตอร์ออกแบบซอฟต์แวร์คอมพิวเตอร์ที่ตรงกับความต้องการของภาษาที่กำหนด พวกเขาสามารถนับและทำนายความถี่ของคำและวลีที่จะใช้เป็นอินพุต
อีกวิธีในการใช้คลังข้อความคือการติดแท็กองค์ประกอบเฉพาะที่ผู้วิจัยต้องการศึกษา ตัวอย่างของการใช้สิ่งนี้คือการนับจำนวนเสียงแฝงที่ปรากฏในประเภทข้อความที่แตกต่างกัน การแท็กยังมีประโยชน์ในการสร้างโปรแกรมคอมพิวเตอร์ที่ช่วยเหลือผู้คนในชีวิตประจำวัน การติดแท็กคำพูดบางส่วนนั้นมีความสำคัญต่อการพัฒนาซอฟต์แวร์จดจำเสียง ยกตัวอย่างเช่นในภาษาอังกฤษคำเดียวกันอาจมีมากกว่าหนึ่งส่วนของการพูด คำหลายคำจะถูกเน้นต่างกันไปในการส่งสัญญาณซึ่งเป็นส่วนหนึ่งของคำพูดที่ใช้ คำนาม "วัตถุ" มีความเครียดในพยางค์แรก แต่คำกริยา "วัตถุ" เน้นพยางค์ที่สอง การติดแท็กคำนาม "วัตถุ" ช่วยให้โปรแกรมคอมพิวเตอร์อ่านออกเสียงได้อย่างถูกต้องและจดจำได้เมื่อมนุษย์กำลังพูดว่า "วัตถุ"
ข้อความ corpora มีประโยชน์ทั้งภาษาศาสตร์มนุษย์และภาษาศาสตร์เชิงคำนวณ พวกเขาอนุญาตให้ทำการวิจัยที่จะช่วยให้ผู้คนเข้าใจภาษาที่มนุษย์ใช้ซึ่งจะช่วยพัฒนาภาษาคอมพิวเตอร์ที่ใช้ ก้าวกระโดดครั้งใหญ่ได้เกิดขึ้นในเทคโนโลยีการจดจำเสียงทำให้ผู้บริโภคสามารถควบคุมคอมพิวเตอร์ด้วยวาจาในสำนักงานบ้านและยานพาหนะ ความก้าวหน้าอย่างต่อเนื่องจะช่วยให้มนุษย์สามารถสื่อสารกับคอมพิวเตอร์ได้อย่างเป็นธรรมชาติเหมือนกับที่ทำร่วมกัน


