คลังข้อมูลภาษาศาสตร์การศึกษาภาษาโดยใช้ตัวอย่างในชีวิตจริง มันไม่ได้เป็นสาขาของภาษาศาสตร์ แต่เป็นวิธีการหรือวิธีการ Corpus คำภาษาละตินสำหรับ "ร่างกาย" หมายถึงร่างกายของตำราธรรมชาติและวิธีการที่เกี่ยวข้องกับการค้นพบรูปแบบการใช้ภาษาผ่านการวิเคราะห์ของคลังข้อมูล ภาษาศาสตร์ของคอร์ปัสกำลังประสบปัญหาการกลับมาเนื่องจากโปรแกรมคอมพิวเตอร์ได้ปฏิวัติวิธีการนี้
ผู้ปกครองบันทึกคำพูดของเด็กในขณะที่เขาได้รับภาษาเป็นตัวอย่างง่ายๆของคลังข้อมูลที่สามารถศึกษาเพื่อเรียนรู้รูปแบบภาษา การสอนภาษาต่างประเทศในช่วงครึ่งแรกของศตวรรษที่ 20 มักใช้ corpora ของภาษาเป้าหมายเพื่อรวบรวมรายการคำศัพท์สำหรับนักเรียน นักภาษาศาสตร์ผู้โด่งดัง Noam Chomsky ไม่ได้พิจารณาการใช้ corpora เป็นเครื่องมือที่ถูกต้องเนื่องจากเขาเชื่อว่าความสามารถทางภาษานั้นสำคัญกว่าข้อมูลประสิทธิภาพ คลังภาษาศาสตร์ยุคแรกส่วนใหญ่มีพื้นฐานมาจากการสันนิษฐานว่ามีจำนวน จำกัด ในภาษาธรรมชาติและประโยคเหล่านั้นสามารถรวบรวมและประเมินประโยคเหล่านั้นได้
หลังจากหลุดพ้นจากความนิยมใน '60s และ' 70s, ภาษาศาสตร์คลังข้อมูลกำลังประสบกับการฟื้นฟูเนื่องจากการใช้วิธีการของคอมพิวเตอร์ โปรแกรมความสอดคล้องเป็นชื่อของซอฟต์แวร์ที่ใช้บ่อยที่สุดโดยนักภาษาศาสตร์ ในขณะที่การค้นหารูปแบบในคลังข้อความหลายล้านคำจะใช้เวลานานเกินไปสำหรับมนุษย์และผลลัพธ์จะน้อยกว่าความแม่นยำคอมพิวเตอร์สามารถค้นหาและดึงข้อมูลในเวลาไม่กี่วินาที สามารถคำนวณความถี่เรียงลำดับข้อมูลและใช้ประโยชน์จาก corpora ในรูปแบบที่เป็นไปไม่ได้ในอดีต
การวิเคราะห์บนฐานข้อมูลสามารถดูว่าการลงทะเบียนมีผลต่อภาษาอย่างไร รูปแบบการใช้ภาษาเช่นวิธีที่ผู้ชายและผู้หญิงใช้คำถามแท็กต่างกัน ขอบเขตของรูปแบบภาษาที่ใช้ และปัจจัยที่มีผลต่อความแปรปรวนของการใช้ภาษา การสอนจะได้ประโยชน์จากภาษาศาสตร์คลังข้อมูลในการออกแบบหลักสูตรการพัฒนาสื่อที่ใช้และประเภทของกิจกรรมที่ใช้ในห้องเรียน นักเรียนสามารถได้รับประโยชน์จากวิธีการดังกล่าวโดยสามารถระบุการใช้และความหมายที่แตกต่างกันของคำทั่วไปอย่างชัดเจนยิ่งขึ้นความแตกต่างที่มีอยู่ในภาษาเขียนและภาษาพูดและวลีและการจัดวางที่พวกเขาสามารถใช้ประโยชน์ได้ เนื้อความของข้อมูลที่เป็นคลังข้อมูลได้รับการปรับปรุงอย่างต่อเนื่องและเป็นผลิตภัณฑ์ของปฏิสัมพันธ์ทางสังคมในชีวิตจริง ดังนั้น corpora จึงเป็นข้อมูลทางธรรมชาติที่สามารถเข้าถึงได้ง่ายและการค้นพบสามารถสรุปได้ทั่วไป


