Skip to main content

Nhận dạng giọng nói là gì?

Nhận dạng giọng nói có thể đề cập đến một trong hai loại khoa học máy tính: Nhận dạng giọng nói pháp y hoặc khả năng phát ngôn từ văn bản.Bài viết này đề cập đến định nghĩa sau. Nhận dạng giọng nói hoặc nhận dạng giọng nói trong trường hợp này, là một công nghệ máy tính sử dụng đầu vào âm thanh để nhập dữ liệu thay vì bàn phím.Chẳng hạn, nói vào micrô, tạo ra kết quả tương tự như gõ các từ theo cách thủ công bằng bàn phím.Nói một cách đơn giản, phần mềm nhận dạng giọng nói được thiết kế với cơ sở dữ liệu nội bộ gồm các từ hoặc cụm từ dễ nhận biết.Chương trình phù hợp với chữ ký âm thanh của bài phát biểu với các mục tương ứng trong cơ sở dữ liệu. Mặc dù việc biến lời nói thành văn bản nghe có vẻ dễ dàng, nhưng đó là một nhiệm vụ cực kỳ khó khăn.Vấn đề nằm ở mảng gần như vô hạn của các mẫu và điểm nhấn riêng lẻ, được kết hợp bởi xu hướng tự nhiên của con người để chạy các từ với nhau. Một minh họa về những thách thức vốn có của phần mềm nhận dạng giọng nói xuất hiện trên áo phông được tạo bởi các nhà nghiên cứu của Apple.Chiếc áo đọc, tôi đã giúp Apple phá hủy một bãi biển đẹp.Khi nói to, có vẻ như, tôi đã giúp Apple nhận ra lời nói.phụ đề.Mỗi mô hình hoạt động khác nhau và có khả năng và ranh giới riêng.

Các chương trình nhận dạng giọng nói yêu cầu người dùng đào tạo phần mềm nhận ra các mẫu lời nói được cách điệu cụ thể của họ được gọi là

Hệ thống phụ thuộc loa.Các cá nhân thường sử dụng các loại chương trình này tại nhà hoặc tại văn phòng.Email, ghi nhớ, thư, dữ liệu và văn bản có thể được nhập bằng cách nói vào micrô.Một số hệ thống nhận dạng giọng nói, được gọi là

Các hệ thống lời nói riêng biệt, yêu cầu người dùng nói rõ ràng và chậm rãi và phân tách các từ.

Các hệ thống lời nói liên tục được thiết kế để hiểu một chế độ nói tự nhiên hơn. Các hệ thống nhận dạng giọng nói riêng biệt được sử dụng rộng rãi để định tuyến dịch vụ khách hàng.Hệ thống này là

loa độc lập, nhưng chỉ hiểu một nhóm từ hoặc cụm từ nhỏ.Người gọi được đưa ra một lựa chọn để trả lời một câu hỏi, thường là có hoặc không.Sau khi nhận được câu trả lời, hệ thống leo thang người gọi lên cấp độ tiếp theo.Nếu người gọi trả lời với một câu trả lời độc đáo, câu trả lời tự động thường là, xin lỗi, tôi không hiểu bạn;Vui lòng thử lại, với sự lặp lại của câu hỏi và câu trả lời có sẵn.Loại nhận dạng giọng nói này cũng được gọi là nhận dạng hạn chế ngữ pháp. Bài phát biểu liên tục là một hình thức phần mềm nhận dạng giọng nói tinh vi hơn, trong đó người gọi có thể nói tự nhiên để giải thích vấn đề hoặc yêu cầu dịch vụ.Chương trình này được thiết kế để chọn các từ hoặc cụm từ khóa và tạo ra một bản đoán tốt nhất thống kê về những gì khách hàng muốn.Nói rõ ràng hỗ trợ nhận dạng giọng nói trong việc xác định nhu cầu.Loại hệ thống này có cơ sở dữ liệu chuyên sâu hơn nhiều so với các hệ thống lời nói kín đáo và cũng được gọi là nhận dạng ngôn ngữ tự nhiên.

Nhận dạng giọng nói tự động (ASR) là một mô hình nhận dạng giọng nói được thiết kế cho chính tả.Phần mềm này khác với các mô hình trước đó ở chỗ nó không phấn đấu để hiểu những gì đang được nói, chỉ để xác định các từ được nói.Vì nhiều từ trong ngôn ngữ tiếng Anh giống nhau, những sai lầm dễ dàng được thực hiện.Tuy nhiên, các công ty lớn như Microsoft đang đầu tư vào nhận dạng giọng nói và dự đoán của Bill Gates có sự hiểu biết liên tục vào năm 2011. Phần mềm ASR thường được tìm thấy trên máy ghi âm kỹ thuật số., với các công ty cũ có được cái sau.Những người chơi nhỏ hơn bao gồm Fonix Speech, Aculab và Verbio, trong số những người khác, với các tập đoàn lớnGiống như IBM và Microsoft đã nói ở trên cũng đầu tư vào công nghệ.Mặc dù nhiều người vẫn cảm thấy khó khăn hơn khi đào tạo phần mềm và chính xác các lỗi hơn là chỉ sử dụng bàn phím, nhưng thời gian sắp tới khi phần mềm nhận dạng giọng nói có thể sẽ thu hẹp khoảng cách đó.Bàn phím tăng cường với khả năng phân biệt đối xử có thể sẽ trở nên phổ biến.Phần mềm nhận dạng giọng nói đang trở nên phổ biến khi nó trở nên tinh vi hơn.Nó đặc biệt hữu ích trong kinh doanh, nơi nó có thể thay thế một nhà điều hành trực tiếp thành các cuộc gọi phễu, phổ biến thông tin, nhận đơn đặt hàng và thực hiện các chức năng rất hữu ích khác.Tuy nhiên, nó cũng có được sự ưu ái như một ứng dụng máy tính để bàn, được hỗ trợ bởi các phần mềm nổi tiếng như Scansofts,

DragonnaturallySpinging

và IBMS Viavoice.