เครื่องมือสังเคราะห์เสียงคืออะไร

ซินธิไซเซอร์พูดคืออุปกรณ์ที่ใช้ในการแปลอักขระข้อความเป็นเสียงที่ใกล้เคียงกับเสียงพูดของมนุษย์ ขึ้นอยู่กับระดับของความซับซ้อนของอุปกรณ์แต่ละชิ้นเสียงที่ผลิตอาจจะค่อนข้างโอ่อ่าและทำให้เกิดเสียงประดิษฐ์หรือเสียงมากเช่นเสียงของคนจริง แนวคิดของการสังเคราะห์เสียงพูดมีมานานหลายศตวรรษ แต่ในช่วงไม่กี่ทศวรรษที่ผ่านมามีกระบวนการให้สาธารณชนทั่วไปเท่านั้น

มีตัวอย่างของความพยายามที่จะสร้างรูปแบบการพูดของมนุษย์ที่กลับไปในศตวรรษที่ 11 ความพยายามครั้งแรกมักจะใช้วัสดุในการทำซ้ำสายเสียงของมนุษย์และใช้การกระตุ้นประเภทต่าง ๆ เพื่อสร้างเสียง เมื่อเวลาผ่านไปการออกแบบทำให้สามารถผลิตเสียงที่เลียนแบบการออกเสียงของเสียงสระ ในช่วงหลังของศตวรรษที่ 18 มีการออกแบบเพียงไม่กี่เสียงที่สามารถสร้างเสียงที่คล้ายกับพยัญชนะ

ความก้าวหน้าที่แท้จริงด้วยเครื่องสังเคราะห์เสียงพูดที่ทันสมัยเริ่มขึ้นในทศวรรษที่ 1930 เบลล์แลบบอราทอรีผลิตเครื่องสังเคราะห์เสียงพากย์เสียง ข้อมูลถูกป้อนด้วยการใช้แป้นพิมพ์วิเคราะห์โดยระบบและเสียงที่เหมาะสมที่ปล่อยออกมาเพื่อสร้างคำ ในขณะที่น้ำเสียงและการผันคำต่าง ๆ นั้นค่อนข้างดั้งเดิมอุปกรณ์สร้างคำที่เข้าใจได้ชัดเจน อุปกรณ์แปลงสัญญาณรุ่นนี้ได้รับการแนะนำให้รู้จักกับสาธารณชนในงาน World's Fair ปี 1939

ในปี 1950 งานสังเคราะห์เสียงพูดที่จะใช้ภาพที่มองเห็นรวมถึงข้อความที่ป้อนทำให้เกิดผลลัพธ์ที่ประสบความสำเร็จบางส่วน ในขณะเดียวกันความก้าวหน้าทางเทคโนโลยีก็เริ่มปรับคุณภาพเสียง เมื่อถึงเวลาที่การสื่อสารด้วยเสียงอัตโนมัติเป็นที่แพร่หลายมากขึ้นในปี 1970 มีการสังเคราะห์เสียงพูดหลายครั้งที่สามารถสร้างเสียงที่ใกล้เคียงกับรูปแบบการพูดของมนุษย์ ในระยะเวลาอันสั้นอุปกรณ์ดังกล่าวถูกนำมาใช้ในการผลิตผลิตภัณฑ์เช่นข้อความที่บันทึกไว้ล่วงหน้าในเครื่องตอบรับอัตโนมัติและผลิตภัณฑ์การอ่านสำหรับผู้ที่มีความบกพร่องทางสายตา

การถือกำเนิดของคอมพิวเตอร์ส่วนบุคคลยังเปิดประตูเพื่อปรับแต่งเพิ่มเติมสำหรับสังเคราะห์เสียงพูด ด้วยการรวมอุปกรณ์ไว้ในระบบคอมพิวเตอร์ที่บ้านผู้ที่มีความบกพร่องในการอ่านหรือมีวิสัยทัศน์ จำกัด จะสามารถเพลิดเพลินกับการใช้โปรแกรมคอมพิวเตอร์ที่หลากหลาย ทุกวันนี้คุณภาพเสียงของเครื่องสังเคราะห์เสียงพูดเกือบทุกรุ่นถูกลบออกไปจากเสียงหุ่นยนต์ที่ผลิตโดยอุปกรณ์ที่สร้างขึ้นในต้นศตวรรษที่ 20 วันนี้หลายรุ่นมีความสามารถในการผลิตรูปแบบเสียงที่เกือบจะแยกไม่ออกจากคำพูดของมนุษย์