การวิเคราะห์คำศัพท์คืออะไร?

การวิเคราะห์คำศัพท์เป็นกระบวนการของการใช้สตริงของอักขระ - หรือมากกว่านั้นคือข้อความและแปลงเป็นกลุ่มที่มีความหมายเรียกว่าโทเค็น วิธีการนี้ใช้ในหลากหลายแอพพลิเคชั่นตั้งแต่การแปลภาษาคอมพิวเตอร์ไปจนถึงการวิเคราะห์หนังสือ การวิเคราะห์คำศัพท์ไม่ได้มีความหมายเหมือนกันกับการแยกวิเคราะห์ ค่อนข้างเป็นขั้นตอนแรกของกระบวนการแยกวิเคราะห์ทั้งหมดและสร้างวัตถุดิบสำหรับใช้ในภายหลัง

Building Block ของโทเค็นหรือที่เรียกว่า lexemes สามารถสร้างได้หลายวิธีขึ้นอยู่กับไวยากรณ์ที่จำเป็นสำหรับการวิเคราะห์คำ ตัวอย่างทั่วไปของเรื่องนี้คือการแบ่งประโยคด้วยคำพูด; มักทำโดยแยกประโยครอบ ๆ ช่องว่าง สตริงอักขระต่อเนื่องแต่ละสตริงที่สร้างขึ้นโดยไม่มีช่องว่างคือ lexeme สตริงข้อความสามารถแบ่งออกเป็นหนึ่งหรือหลายประเภทของตัวละครสร้างหลายรุ่นของคำศัพท์ที่มีความซับซ้อนที่แตกต่างกัน โทเค็นถูกสร้างขึ้นหลังจากแต่ละ lexeme ได้รับการประเมินและจับคู่กับค่าที่เกี่ยวข้อง โดยนิยามโทเค็นอ้างถึงการจับคู่นี้ไม่เพียง แต่ศัพท์

การวิเคราะห์คำศัพท์ค่อนข้างต่อต้านสัญชาตญาณแถบสตริงข้อความของบริบท โดยมีวัตถุประสงค์คือสร้างหน่วยการสร้างเพื่อการศึกษาต่อไปเท่านั้นไม่ใช่เพื่อตรวจสอบว่าชิ้นส่วนเหล่านั้นถูกต้องหรือไม่ถูกต้อง ในกรณีที่มีการตีความภาษาคอมพิวเตอร์การตรวจสอบความถูกต้องจะกระทำโดยการวิเคราะห์ทางไวยากรณ์และการตรวจสอบความถูกต้องของข้อความสามารถทำได้ในแง่ของบริบทหรือเนื้อหา หากอินพุตสตริงถูกแบ่งออกเป็น lexemes ที่เหมาะสมอย่างสมบูรณ์และแต่ละ lexemes เหล่านั้นมีค่าที่เหมาะสมการวิเคราะห์นั้นจะถือว่าสำเร็จ

หากไม่มีบริบทหรือความสามารถในการตรวจสอบความถูกต้องการวิเคราะห์คำศัพท์ไม่สามารถใช้เพื่อค้นหาข้อผิดพลาดในอินพุตได้อย่างน่าเชื่อถือ ไวยากรณ์ของคำศัพท์อาจมีค่าความผิดพลาดที่กำหนดให้กับคำศัพท์เฉพาะและการวิเคราะห์ดังกล่าวยังสามารถตรวจจับโทเค็นที่ผิดกฎหมายหรือมีรูปแบบไม่ถูกต้อง แม้ว่าการค้นหาโทเค็นที่ผิดกฎหมายหรือผิดรูปแบบจะส่งสัญญาณอินพุตที่ไม่ถูกต้อง แต่ก็ไม่มีผลใด ๆ กับโทเค็นอื่นที่ถูกต้องและดังนั้นจึงไม่ได้เป็นประเภทการตรวจสอบที่เข้มงวด

แม้ว่าการวิเคราะห์คำศัพท์เป็นส่วนสำคัญของอัลกอริธึมจำนวนมาก แต่ก็มักจะต้องใช้ร่วมกับวิธีการอื่นเพื่อสร้างผลลัพธ์ที่มีความหมาย ตัวอย่างเช่นการแบ่งสตริงข้อความเป็นคำเพื่อกำหนดความถี่ใช้ประโยชน์จากการสร้าง lexeme แต่การสร้าง lexeme เพียงอย่างเดียวไม่สามารถตรวจสอบจำนวนครั้งที่ lexeme ที่เฉพาะเจาะจงปรากฏขึ้นในอินพุต การวิเคราะห์คำศัพท์อาจมีประโยชน์ในตัวของมันเองถ้า lexemes เป็นโน้ต แต่อินพุตจำนวนมากอาจทำให้การวิเคราะห์ lexemes ดิบยากเนื่องจากปริมาณของข้อมูล

การวิเคราะห์คำศัพท์คืออะไร?

บทความนี้ช่วยคุณได้ไหม