เทคนิคการรู้จำเสียงต่างกันมีอะไรบ้าง

เทคนิคการรู้จำเสียงหลายวิธีใช้เพื่อบันทึกคำพูดและแปลงเป็นข้อมูลที่โปรแกรมซอฟต์แวร์สามารถใช้ได้ มีวิธีการวิเคราะห์คำพูดอย่างกว้าง ๆ สามวิธีเพื่อกำหนดสิ่งที่พูด คำแรกเรียกว่าการพูดแบบไม่ต่อเนื่องซึ่งหมายถึงการพูดเพียงคำเดียวในแต่ละครั้ง ที่สองเรียกว่าคำพูดที่เชื่อมต่อกันและคำพูดจะต้องพูดในลักษณะที่จะเข้าใจ ในที่สุดก็มีการพูดต่อเนื่องซึ่งเป็นวิธีที่คนส่วนใหญ่พูดปกติ

อัลกอริทึมทั่วไปที่ใช้สำหรับเทคนิคการรู้จำเสียงทุกประเภทคือ Hidden Markov Model (HMM) ระบบนี้เกี่ยวข้องกับทรีข้อมูลขนาดใหญ่ของหน่วยเสียงหรือเสียงและพยางค์พื้นฐานซึ่งถูกแบ่งโดยความน่าจะเป็นทางสถิติของเสียงหนึ่งที่ตามมาอีกอัน โดยเปรียบเทียบแต่ละหน่วยเสียงกับโหนดในโครงสร้างข้อมูลของเสียงคำที่สมบูรณ์จริงสามารถถูกกำหนดด้วยอัตราความแม่นยำสูงในช่วงเวลาสั้น ๆ

ปัญหาหนึ่งที่ยากที่จะเอาชนะด้วยเทคนิคการรู้จำเสียงบางอย่างก็คือการแยกที่คำเริ่มต้นและสิ้นสุด งานนี้มีความซับซ้อนโดยเสียงรบกวนพื้นหลังในห้องและความจริงที่ว่าพยางค์บางเสียงมีลายเซ็นเสียงที่คล้ายกับการแบ่งระหว่างคำ ด้วยเหตุนี้เทคนิคการรู้จำเสียงแบบแยกและเชื่อมต่อจึงมีความแม่นยำที่สุด

ปัจจัยอีกประการหนึ่งที่แยกเทคนิคการรู้จำเสียงพูดที่แตกต่างกันคือปัญหาของคำศัพท์ซอฟต์แวร์ ซอฟต์แวร์ที่ตีความคำพูดอาจมีคำศัพท์ที่ จำกัด อย่างยิ่งที่มีความแม่นยำสูงหรือคำศัพท์ขนาดใหญ่ที่ต้องจับคู่กับรูปแบบคำพูดเฉพาะของผู้ใช้แต่ละราย เมื่อโปรแกรมใช้วิธีการ HMM ของการรวบรวมคำยิ่งมีจำนวนคำศัพท์ที่เข้าใจน้อยลงเท่าใดโปรแกรมก็ยิ่งมีความแม่นยำมากขึ้นเท่านั้น นี่คือวิธีการที่ระบบโทรศัพท์อัตโนมัติส่วนใหญ่ใช้เพื่อถอดรหัสหมายเลขหรือตอบคำถาม

เทคนิคการรู้จำเสียงที่เข้าใจคำศัพท์ขนาดใหญ่มักจะออกแบบมาเพื่อโต้ตอบกับผู้ใช้น้อยมากหรือเพียงหนึ่งเดียว นี่เป็นเพราะโปรแกรมจะต้องได้รับการฝึกฝนให้เข้าใจรูปแบบการพูดของผู้พูด การฝึกอบรมที่เกี่ยวข้องกับการอ่านย่อหน้าของข้อความที่ทำไว้ล่วงหน้ากับซอฟต์แวร์ รู้จักคำที่อ่านดังนั้นโปรแกรมสามารถสร้างแบบจำลองทางสถิติของหน่วยเสียงเฉพาะสำหรับผู้ใช้ สิ่งนี้ทำให้โปรแกรมมีโอกาสที่ดีขึ้นในการทำความเข้าใจผู้ใช้ แต่มันอาจขัดขวางความเข้าใจของโปรแกรมเกี่ยวกับผู้ที่ไม่ได้ฝึกอบรม

เทคนิคการรู้จำเสียงที่ยากที่สุดคือการตีความการพูดต่อเนื่องหรือเป็นธรรมชาติ หลายคนมักจะใช้คำศัพท์ร่วมกันและพูดด้วยความเร็วที่ต่างกันดังนั้นความแม่นยำของโปรแกรมที่แปลคำพูดต่อเนื่องจะต่ำกว่าวิธีอื่น ๆ ถึงกระนั้นโปรแกรมมีอยู่ที่สามารถแปลคำพูดประเภทนี้ได้บางโปรแกรมใช้ตรรกะฟัซซี่และโครงข่ายประสาทเทียมเพื่อช่วยจดจำรูปแบบและแยกคำ