Mô hình giọng nói AI do Meta dẫn đầu đã đạt được những bước tiến vượt bậc trong mở rộng phạm vi ngôn ngữ và cải thiện hiệu suất của mô hình tổng hợp và nhận dạng giọng nói.

Những tiến bộ trong công nghệ nhận dạng giọng giọng nói đã giúp con người tiếp cận thông tin dễ dàng hơn. Đặc biệt là những người dựa vào giọng nói để tiếp cận thông tin. Tuy nhiên, tình trạng thiếu dữ liệu gán nhãn cho nhiều ngôn ngữ đặt ra thách thức to lớn trong việc phát triển mô hình chất lượng cao.

Bằng cách kết hợp kỹ thuật học tự giám sát với tập dữ liệu đa dạng về các bài đọc tôn giáo. Dự án MMS đã đạt được kết quả ấn tượng trong việc tăng 100 ngôn ngữ được hỗ trợ bởi mô hình nhận dạng giọng nói. Hiện có lên hơn 1.100 ngôn ngữ.

Mô hình giọng nói AI phá vỡ rào cản ngôn ngữ

Để giải quyết tình trạng khan hiếm dữ liệu gán nhãn cho hầu hết ngôn ngữ. Mô hình giọng nói AI đã sử dụng văn bản tôn giáo được dịch ra nhiều thứ tiếng khác nhau.

Những bản dịch này cung cấp bản ghi âm người đọc văn bản tôn giáo. Cho phép tạo tập dữ liệu bao gồm các bài đọc bằng hơn 1.100 ngôn ngữ khác nhau trong Kinh Thánh Cựu Ước.

Bằng cách đưa vào bản ghi âm không gán nhãn các bài đọc tôn giáo khác. Mở rộng phạm vi ngôn ngữ để nhận dạng hơn 4.000 ngôn ngữ.

Bất chấp tên miền của tập dữ liệu và người đọc chủ yếu là nam giới. Mô hình thể hiện tốt như nhau với giọng nam và giọng nữ. Ngoài ra, Meta cũng nói rằng họ không đưa ra bất kỳ định kiến tôn giáo nào.

Mô hình giọng nói AI của Meta hỗ trợ hơn 1.100 ngôn ngữ

Mô hình giọng nói AI vượt qua thách thức thông qua học tự giám sát

Đối với mô hình nhận dạng giọng nói có giám sát thông thường, chỉ huấn luyện 32 giờ dữ liệu cho từng ngôn ngữ là không đủ.

Để khắc phục hạn chế trên, dự án MMS tận dụng lợi ích từ kỹ thuật học biểu diễn giọng nói tự giám sát wav2vec 2.0.

Bằng cách huấn luyện mô hình tự giám sát trên khoảng 500.000 giờ. Dữ liệu giọng nói cho 1.400 ngôn ngữ đã giảm đáng kể sự phụ thuộc vào dữ liệu gán nhãn.

Sau đó, mô hình được điều chỉnh cho những nhiệm vụ cụ thể, chẳng hạn như: nhận dạng giọng nói đa ngôn ngữ và nhận diện ngôn ngữ.

Kết quả khả quan của mô hình giọng nói AI

Đánh giá mô hình huấn luyện dựa trên dữ liệu MMS cho thấy kết quả khả quan. Tỷ lệ lỗi từ (word error rate) của mô hình MMS chỉ bằng một nửa so với Whisper của OpenAI. Trong khi bao phủ nhiều ngôn ngữ hơn 11 lần.

Bên cạnh đó, dự án MMS còn xây dựng thành công hệ thống chuyển văn bản thành giọng nói cho hơn 1.100 ngôn ngữ. Bất chấp hạn chế về số lượng người đọc cho nhiều ngôn ngữ khác nhau. Giọng nói do hệ thống này tạo ra luôn có chất lượng cao.

Mặc dù mô hình MMS đã cho thấy kết quả đầy hứa hẹn. Song cần phải thừa nhận rằng chúng có những nhược điểm. Mô hình chuyển văn bản thành giọng nói có thể phiên âm sai, hoặc giải thích sai. Dẫn đến ngôn ngữ xúc phạm, hoặc không chính xác. Dự án MMS đề cao sự hợp tác trong cộng đồng AI để giảm thiểu những rủi ro như trên.

Nguồn: artificialintelligence

Tham khảo một số sản phẩm có tại GraphicWorld

Giá Đỡ Moft Laptop Dán Dính Có Lỗ Thông Khí

Túi Da Laptop Kiêm Giá Đỡ Biến Hình 3 Trong 1 MOFT Carry Sleeve Size Nhỏ 13inch

Giá Đỡ iPad Máy Tính Bảng Dán Dính MOFT X Size Lớn