การรู้จำเสียงคืออะไร

การจดจำเสียงสามารถอ้างถึงวิทยาศาสตร์คอมพิวเตอร์หนึ่งในสองประเภท: การระบุด้วยเสียงทางนิติวิทยาศาสตร์หรือความสามารถในการพูดเป็นข้อความ บทความนี้เน้นคำนิยามหลัง

การรู้จำเสียงหรือการรู้จำเสียงในกรณีนี้เป็นเทคโนโลยีคอมพิวเตอร์ที่ใช้อินพุตเสียงสำหรับการป้อนข้อมูลแทนที่จะใช้แป้นพิมพ์ ยกตัวอย่างเช่นการพูดไมโครโฟนจะสร้างผลลัพธ์เช่นเดียวกับการพิมพ์คำด้วยตนเองด้วยคีย์บอร์ด เพียงระบุซอฟต์แวร์การจดจำเสียงได้รับการออกแบบด้วยฐานข้อมูลภายในของคำหรือวลีที่เป็นที่รู้จัก โปรแกรมจับคู่ลายเซ็นเสียงการพูดกับรายการที่เกี่ยวข้องในฐานข้อมูล

แม้ว่าการเปลี่ยนคำพูดเป็นข้อความอาจฟังดูง่าย แต่ก็เป็นงานที่ยากมาก ปัญหานั้นอยู่ในรูปแบบการพูดและสำเนียงการพูดที่ไม่สิ้นสุดซึ่งประกอบไปด้วยแนวโน้มตามธรรมชาติของมนุษย์ที่จะใช้คำศัพท์ร่วมกัน

ภาพประกอบของความท้าทายโดยธรรมชาติของซอฟต์แวร์จดจำเสียงปรากฏบนเสื้อยืดที่สร้างขึ้นโดยนักวิจัยของ Apple เสื้ออ่านว่า "ฉันช่วย Apple ทำลายชายหาดที่สวยงาม" เมื่อพูดออกมาดัง ๆ ดูเหมือนว่า ฉันช่วยให้ Apple จำเสียงพูดได้

ซอฟต์แวร์การจดจำเสียงหลายรุ่นใช้สำหรับแอพพลิเคชั่นหลายประเภทตั้งแต่การเขียนตามคำบอกส่วนตัวไปจนถึงการกำหนดเส้นทางการโทรอัตโนมัติเชิงพาณิชย์ตั้งแต่การช่วยเหลือคนพิการไปจนถึงการบรรยายกีฬาและข่าวเหตุการณ์ แต่ละรุ่นมีพฤติกรรมแตกต่างกันและมีความสามารถและขอบเขตของตัวเอง

โปรแกรมรู้จำเสียงที่ต้องการให้ผู้ใช้ "ฝึกอบรม" ซอฟต์แวร์เพื่อจดจำรูปแบบการพูดโดยเฉพาะที่เรียกว่าระบบ ขึ้นอยู่กับลำโพง บุคคลทั่วไปใช้โปรแกรมประเภทนี้ที่บ้านหรือที่สำนักงาน สามารถป้อนอีเมลบันทึกช่วยจำจดหมายข้อมูลและข้อความโดยการพูดผ่านไมโครโฟน

ระบบรู้จำเสียงบางระบบเรียกว่าระบบจำแนกเสียง ไม่ต่อเนื่อง ต้องการให้ผู้ใช้พูดอย่างชัดเจนและช้าและแยกคำ ระบบ เสียงพูดต่อเนื่อง ออกแบบมาเพื่อให้เข้าใจโหมดการพูดที่เป็นธรรมชาติมากขึ้น

ระบบรู้จำเสียงพูดไม่ต่อเนื่องใช้กันอย่างแพร่หลายสำหรับการกำหนดเส้นทางการบริการลูกค้า ระบบนี้เป็น ลำโพงที่ไม่ขึ้นต่อ กัน แต่เข้าใจเพียงกลุ่มคำหรือวลีเล็ก ๆ น้อย ๆ เท่านั้น ผู้โทรได้รับทางเลือกในการตอบคำถามโดยปกติจะมีคำว่า "ใช่" หรือ "ไม่" หลังจากได้รับคำตอบระบบจะยกระดับผู้โทรไปยังระดับถัดไป หากผู้โทรตอบด้วยคำตอบที่ไม่ซ้ำกันการตอบกลับอัตโนมัติมักจะเป็น "ขอโทษฉันไม่เข้าใจคุณโปรดลองอีกครั้ง" ด้วยการทำซ้ำคำถามและคำตอบที่ใช้ได้ การรับรู้เสียงประเภทนี้เรียกอีกอย่างว่าการ รับรู้ข้อ จำกัด ทางไวยากรณ์

การพูดอย่างต่อเนื่องเป็นซอฟต์แวร์การจดจำเสียงที่ซับซ้อนรูปแบบที่ผู้โทรสามารถพูดได้อย่างเป็นธรรมชาติเพื่ออธิบายปัญหาหรือขอบริการ โปรแกรมนี้ออกแบบมาเพื่อเลือกคำหรือวลีที่สำคัญและคาดเดาทางสถิติตามที่ลูกค้าต้องการ การพูดอย่างชัดเจนช่วยรู้จำเสียงในการระบุความต้องการ ระบบประเภทนี้มีฐานข้อมูลที่เข้มข้นกว่าระบบเสียงพูดที่สุขุมและยังเรียกว่าการ รับรู้ภาษาธรรมชาติ

Automatic Speech Recognition (ASR) เป็นรูปแบบของการจดจำเสียงที่ออกแบบมาสำหรับการเขียนตามคำบอก ซอฟต์แวร์นี้แตกต่างจากรุ่นก่อนหน้าโดยที่ไม่ได้พยายามเข้าใจสิ่งที่ถูกพูดเพียงเพื่อระบุคำที่พูด เนื่องจากมีหลายคำในเสียงภาษาอังกฤษเหมือนกันจึงทำให้เกิดข้อผิดพลาดได้ง่าย อย่างไรก็ตาม บริษัท ใหญ่ ๆ อย่าง Microsoft กำลังลงทุนในการจดจำเสียงและการคาดการณ์ของ Bill Gates นั้นทำให้ ASR เข้าใจคำพูดต่อเนื่องในปี 2011 ซอฟต์แวร์ ASR มักจะพบในเครื่องบันทึกเสียงดิจิตอล

ผู้เล่นที่โดดเด่นในซอฟต์แวร์การจดจำเสียงเป็น ScanSoft และ Nuance กับ บริษัท ในอดีตที่ได้รับหลัง ผู้เล่นที่มีขนาดเล็กกว่า ได้แก่ Fonix Speech, Aculab และ Verbio รวมถึง บริษัท ยักษ์ใหญ่อย่าง IBM และ Microsoft ที่กล่าวมาข้างต้นก็ลงทุนด้านเทคโนโลยีเช่นกัน แม้ว่าหลายคนยังรู้สึกว่ามันเป็นปัญหาในการฝึกอบรมซอฟต์แวร์และแก้ไขข้อผิดพลาดมากกว่าเพียงแค่ใช้แป้นพิมพ์ แต่ถึงเวลาแล้วที่ซอฟต์แวร์การจดจำเสียงจะปิดช่องว่างนั้น การเพิ่มคีย์บอร์ดที่มีความสามารถในการแยกแยะการใช้คำพูดอาจกลายเป็นเรื่องธรรมดา

ซอฟต์แวร์จดจำเสียงกำลังได้รับความนิยมเนื่องจากมีความซับซ้อนมากขึ้น มันมีประโยชน์อย่างยิ่งในธุรกิจที่สามารถแทนที่โอเปอเรเตอร์แบบสดเป็นการโทรช่องทางเผยแพร่ข้อมูลรับออเดอร์และทำหน้าที่อื่น ๆ ที่มีประโยชน์สูง อย่างไรก็ตามมันยังได้รับความนิยมในฐานะเดสก์ท็อปแอพพลิเคชั่นซึ่งได้รับความช่วยเหลือจากซอฟต์แวร์ที่มีชื่อเสียงเช่น ScanSoft's, DragonNaturalSpeaking และ ViaVoice ของ IBM