การสังเคราะห์เสียงพูดคืออะไร

การสังเคราะห์เสียงพูดเป็นกระบวนการที่จำลองการสื่อสารด้วยวาจาผ่านอุปกรณ์เทียม คอมพิวเตอร์ที่แปลงข้อความเป็นคำพูดเป็นตัวสังเคราะห์เสียงพูดชนิดหนึ่ง

การสังเคราะห์เสียงพูดในรูปแบบที่เก่าแก่ที่สุดได้ถูกนำมาใช้ผ่านเครื่องที่ออกแบบมาให้ทำงานเหมือนระบบเสียงของมนุษย์ เครื่องพูดที่สร้างขึ้นโดย Wolfgang von Kempelen ในปี 1700 เป็นตัวอย่าง ด้วยอุปกรณ์นี้การพูดเกิดขึ้นผ่านเสียงร้องของห้องครัว, กกปี่และระฆังคลาริเน็ต ร้องห้องครัวได้รับการออกแบบให้ทำหน้าที่เหมือนปอดในขณะที่สายเสียง (พื้นที่ของสายเสียง) ถูกแสดงผ่านปี่กก ระฆังคลาริเน็ตทำหน้าที่เหมือนปาก

การทำงานของอุปกรณ์นั้นเป็นคู่มืออย่างสมบูรณ์ มือขวาควบคุมคันโยกแบบต่างๆในขณะที่มือซ้ายควบคุมระฆังคลาริเน็ต (ปาก) นอกจากนี้ยังมีตัวเลือกในการเสียบ 'จมูก' เพื่อสร้างเสียงจมูกน้อย ไม่ว่าจะด้วยวิธีใดตราบใดที่มีการใช้การควบคุมขั้นพื้นฐานอย่างเหมาะสมเครื่องก็จะได้รับการไหลเวียนของอากาศ การไหลเวียนของอากาศนี้กำหนดประเภทของเสียงที่จะเกิดขึ้น

เครื่องพูดตามมาตลอดศตวรรษที่ 18 และ 19 ยังคงรักษาสภาพแวดล้อมเช่นนี้แม้ว่าจะมีการปรับปรุง ตัวอย่างเช่นในช่วงปลายปี 1800 Joseph Faber สร้างเครื่องพูดที่สามารถรับอินพุตผ่านแป้นพิมพ์และคันเหยียบ เครื่องก็สร้างสรรค์มากเช่นกันเมื่อเสียงออกมาผ่าน 'ใบหน้า' ประดิษฐ์

เมื่อศตวรรษที่ 20 เข้ามานวัตกรรมด้านอิเล็กทรอนิกส์ทำให้การสังเคราะห์เสียงพูดมีทิศทางที่มีประสิทธิภาพยิ่งขึ้น แม้ว่าหลักฐานของการเลียนแบบระบบเสียงของมนุษย์ยังคงเหมือนเดิม แต่เครื่องที่พูดในช่วงต้นศตวรรษที่ 20 สามารถสร้างเสียงที่ดีกว่าเนื่องจากอินพุตมีความแม่นยำมากกว่า

อย่างไรก็ตามมันไม่ได้จนกว่าการกำเนิดของคอมพิวเตอร์ที่การสังเคราะห์เสียงพูดสามารถนำมาใช้จริงนอกเวทีความบันเทิง นี่เป็นสาเหตุหลักเนื่องจากซินธิไซเซอร์คำพูดสามารถเก็บไว้ในซอฟต์แวร์แทนเครื่องแยกต่างหาก นอกจากนี้เมื่อใช้คอมพิวเตอร์เป็นเครื่องช่วยการสังเคราะห์เสียงพูดอาจมีรูปแบบที่แตกต่างออกไป ใช้เสียงของมนุษย์เป็นแหล่งข้อมูลหลักสำหรับเสียง

รูปแบบของการสังเคราะห์เสียงพูดนี้เป็นที่รู้จักกันในชื่อ concatenative กระบวนการทำงานโดยเชื่อมโยงการบันทึกคำพูดของมนุษย์ต่าง ๆ เสียงที่ได้จะเป็นธรรมชาติมากขึ้นและน่าพอใจกับหู นี่เป็นสิ่งที่ตรงกันข้ามกับโปรแกรมที่ใช้การสังเคราะห์เสียงก้องซึ่งมีการจำลองเสียงพูดผ่านแบบจำลองทางเสียงด้วยคอมพิวเตอร์

การสังเคราะห์เสียงพูดเชิงพาณิชย์สามารถใช้วิธีการเรียงต่อกันหรือประกบกัน แต่ทั้งคู่สามารถบรรลุวัตถุประสงค์เดียวกันได้ ความสามารถในการให้ผู้คนมีโอกาสได้ยินข้อความ สิ่งนี้มีประโยชน์อย่างยิ่งในสถานการณ์ที่การอ่านไม่ชัดเจนหรือเป็นไปไม่ได้

ในโลกธุรกิจสถานการณ์ดังกล่าวถือเป็นเรื่องปกติโดยเฉพาะอย่างยิ่งสำหรับธุรกรรมทางโทรศัพท์ หากไม่มีตัวเลือกการแปลงข้อความเป็นคำพูด (TTS) เจ้าของธุรกิจจะต้องใช้เงินจ้างพนักงานบริการลูกค้ามากขึ้น การแก้ปัญหาแบบสังเคราะห์หลีกเลี่ยงปัญหานี้เนื่องจากทุกอย่างทำด้วยคอมพิวเตอร์ ไม่ใช่มนุษย์

การพูดสังเคราะห์ยังมีบทบาทในชีวิตประจำวันโดยเฉพาะอย่างยิ่งสำหรับผู้พิการ นาฬิกาพูดคุยพจนานุกรมและอุปกรณ์อื่น ๆ สามารถทำให้ผู้คนที่มีปัญหาในการมองเห็นหรืออ่านได้ง่ายขึ้น การพูดสังเคราะห์ยังสามารถส่งเสียงให้กับบุคคลที่ไม่สามารถพูดได้เลย Steven Hawking นักฟิสิกส์ชื่อดังเป็นตัวอย่างที่โดดเด่น เนื่องจากโรคของ Lou Gehrig ทำให้เขาเงียบเสียงฮอว์คิงใช้เสียงสังเคราะห์เพื่อสื่อสารกับผู้คน

นอกจากนี้ยังมีแอพพลิเคชั่น TTS เพื่อช่วยเหลือผู้คนในกิจกรรมคอมพิวเตอร์ต่างๆ ในการขอรับแอปพลิเคชันประเภทนี้ผู้ใช้ส่วนใหญ่จะต้องซื้อซอฟต์แวร์แยกต่างหากหรือดาวน์โหลดแพตช์ ตัวเลือกหลังมักจะฟรีขึ้นอยู่กับระบบปฏิบัติการหรือโปรแกรมประมวลผลคำที่ใช้ อย่างไรก็ตามหากบุคคลตัดสินใจซื้อซอฟต์แวร์แยกต่างหากพวกเขาสามารถเข้าถึงระบบคุณภาพสูงขึ้นได้ ตัวอย่างที่เฉพาะเจาะจงสามารถดูได้ผ่าน Natural Reader 7 และ Text Aloud 2

ในที่สุดการสังเคราะห์เสียงพูดคือเทคโนโลยีที่ปฏิวัติวิธีการสื่อสารของมนุษยชาติ ในความรู้สึกมันให้ข้อความชีวิตของตัวเอง นอกจากนี้ยังเปิดโอกาสให้โลกได้รับฟังความคิดของบุคคลที่ยอดเยี่ยมซึ่งปกติแล้วจะไม่มีคำพูด

การสังเคราะห์เสียงพูดคืออะไร

บทความนี้ช่วยคุณได้ไหม