การทำเหมืองข้อความคืออะไร?

การขุดข้อความเป็นกระบวนการของการใช้เทคโนโลยีคอมพิวเตอร์ในการกลั่นกรองเอกสารที่เป็นข้อความเพื่อการวิจัยและการวิเคราะห์ มักจะถือว่าคล้ายกันมากกับกระบวนการที่เรียกว่า data mining แต่ต้องอาศัยการเขียนโปรแกรมพิเศษเพื่อค้นหาข้อความที่ไม่มีการจัดหมวดหมู่และค้นหาความหมายหรือรูปแบบแทนที่จะวิเคราะห์ข้อมูลฐานข้อมูลที่จัดหมวดหมู่ไว้ล่วงหน้า การทำเหมืองข้อความมีแอปพลิเคชั่นมากมายในด้านต่างๆเช่นวิทยาศาสตร์การตลาดและการจัดระเบียบข้อมูล

ความซับซ้อนที่เกี่ยวข้องกับการจัดคำเป็นภาษานั้นมากเกินกว่าที่คอมพิวเตอร์จะจัดการได้ แต่นักวิทยาศาสตร์ได้ทำงานอย่างหนักเพื่อปรับปรุงการเขียนโปรแกรมประเภทนี้ มีการพัฒนาวิธีการมากมายที่ช่วยให้นักวิทยาศาสตร์ระบุวลีและค้นหาข้อเท็จจริงเกี่ยวกับข้อความ โดยทั่วไปจะไม่เหมือนกับการถอดรหัสความหมายทั้งหมด แต่จะช่วยให้ทางลัดที่บรรลุเป้าหมายเดียวกันหลายประการ การขุดข้อความใช้ประโยชน์จากเทคนิคเหล่านี้และเมื่อเทคโนโลยีนี้พัฒนาขึ้นการทำเหมืองข้อความโดยทั่วไปก็คาดว่าจะปรับปรุงด้วยเช่นกัน

ผู้เชี่ยวชาญใช้การวิเคราะห์ข้อมูลด้วยข้อความเป็นหลักเพื่อทำการวิจัยเป็นเอกสาร ข้อมูลจำนวนมากที่เขียนนั้นสามารถวิเคราะห์ได้ยากเนื่องจากต้องใช้เวลาจำนวนมาก คอมพิวเตอร์สามารถอ่านเนื้อหานี้ได้เร็วกว่ามาก แต่ไม่เข้าใจ เทคนิคการขุดข้อความช่วยให้คอมพิวเตอร์สามารถค้นหาแนวโน้มที่เป็นประโยชน์ในข้อความการนำเสนอข้อมูลในลักษณะที่อาจเปิดเผยข้อเท็จจริงใหม่หรืออนุญาตให้ผู้เชี่ยวชาญทำการค้นพบ

ตัวอย่างของการใช้เทคโนโลยีนี้จะเป็นการวิจัยตลาด ผู้เชี่ยวชาญสามารถวิเคราะห์ผลการค้นหาในชื่อผลิตภัณฑ์และให้โปรแกรมค้นหาวลีที่แสดงถึงความเชื่อมั่นของผู้ใช้ ด้วยวิธีนี้พวกเขาอาจค้นหาว่าผู้คนรู้สึกอย่างไรกับผลิตภัณฑ์ของตนอย่างละเอียดมาก ๆ พวกเขายังสามารถค้นหาผลิตภัณฑ์ของตนและดูว่าวลีใดที่ป๊อปอัปบ่อยที่สุดและนี่อาจช่วยให้พวกเขาพัฒนาแนวคิดใหม่เกี่ยวกับวิธีทำให้ลูกค้าพอใจ

การใช้ข้อความการขุดก็คือการวิเคราะห์เอกสารทางวิทยาศาสตร์ในวิชาที่คล้ายกันที่กำลังมองหาแนวโน้มหรือข้อตกลงใหม่ สิ่งนี้ทำให้นักวิทยาศาสตร์บางคนสามารถตั้งสมมติฐานการคาดการณ์ที่พิสูจน์แล้วว่ามีประโยชน์ในด้านต่างๆเช่นการวิเคราะห์โปรตีน ผู้เชี่ยวชาญบางคนคิดว่าแอปพลิเคชั่นประเภทนี้ในที่สุดอาจมีการค้นพบที่ไม่คาดคิด

กระบวนการที่เรียกว่า data mining นั้นค่อนข้างคล้ายกับการทำ text แต่โดยทั่วไปแล้วมันมีความซับซ้อนน้อยกว่าเพราะมันต้องอาศัย text ที่ถูกจัดรูปแบบเป็นหมวดหมู่ ตัวอย่างเช่นซอฟต์แวร์สามารถอ่านข้อมูลทั้งหมดสำหรับผู้สมัครงานในฐานข้อมูลเพื่อค้นหาแนวโน้ม การขุดข้อความเป็นเรื่องยากสำหรับคอมพิวเตอร์ที่ต้องทำเพราะข้อความล้วนยากต่อการวิเคราะห์มากกว่าข้อมูลที่มีหมวดหมู่