VnReview
Hà Nội

Baidu giới thiệu DeepVoice thế hệ 3, có thể nhại giọng nói của 10.000 người

Đầu năm nay, Baidu, gã khổng lồ tìm kiếm của Trung Quốc, đã giới thiệu hệ thống DeepVoice sử dụng thuật toán học sâu (deep learning) để chuyển đổi văn bản thành giọng nói. Phiên bản đầu tiên của DeepVoice có khả năng tạo ra những câu nói ngắn với ngữ điệu không khác gì con người. Hệ thống này cần nhiều giờ đồng hồ để có thể học và hoàn thiện giọng nói tương ứng với một người nhất định.

Theo TheVerge, DeepVoice thế hệ hai được tung ra hồi tháng 5 vừa qua, với nhiều cải tiến vượt bậc so với thế hệ đầu. DeepVoice 2 chỉ cần nửa tiếng xử lý và một hệ thống có thể học hàng trăm ngữ điệu giọng nói khác nhau.

Hôm nay, Baidu tiếp tục nâng cấp DeepVoice lên thế hệ ba, và cũng là phiên bản cuối cùng. Họ cho biết, DeepVoice 3 có thể học 10.000 giọng nói mà chỉ cần phân tích nửa tiếng đồng hồ dữ liệu âm thanh của mỗi giọng. Đồng thời, Baidu cũng tự tin rằng công ty sẽ mở ra bước tiến mới về phát triển ứng dụng giả lập giọng nói trong tương lai. Ví dụ, sử dụng DeepVoice, mỗi nhân vật trong một cuốn sách audio hoặc trong một trò chơi điện tử sẽ có thể sở hữu những giọng nói độc nhất, mang lại trải nghiệm tốt hơn cho người dùng.

Tại buổi giới thiệu, giọng nói ảo mà Baidu lấy làm ví dụ lại có vẻ không được tự nhiên lắm, nếu không muốn nói là...quá ảo. Tuy nhiên, công ty này phản biện rằng giả lập giọng nói không phải là mục đích chính của DeepVoice.

"Nếu chỉ đơn giản là tạo ra một hoặc hai giọng nói ảo như ví dụ mà các bạn vừa nghe, thì hệ thống DeepVoice từ thế hệ đầu đã chứng minh được khả năng có thể tổng hợp những giọng nói rất tự nhiên và giống hệt con người, có thể sử dụng trong các ứng dụng trợ lý kỹ thuật số".

Điều Baidu đang hướng đến là xây dựng một hệ thống nhại lại sắc thái, ngữ điệu của vô số kiểu giọng nói khác nhau. "Đây là sự khởi đầu cho thấy khả năng có thể mở rộng hơn nữa tính ứng dụng (của DeepVoice). Hệ thống của chúng tôi đã đạt đến mức độ mà chưa hệ thống nào đạt được. Chúng tôi tin rằng chất lượng giọng nói sẽ có thể tăng lên nữa qua từng năm, bằng cách sử dụng các bộ dữ liệu âm thanh chất lượng cao hơn để huấn luyện cho hệ thống, kết hợp với sử dụng học máy (machine learning)".

Baidu không phải là ông lớn tìm kiếm duy nhất đang nghiên cứu về tổng hợp giọng nói. Google cũng có bộ phận DeepMind đang theo đuổi dự án tương tự với tên gọi WaveNet. Phiên bản mới nhất của WaveNet đã có thể thành thục các âm điệu, và thậm chí còn có thể tạo ra tiếng chép miệng để làm cho giọng nói nghe tự nhiên hơn. Hiện WaveNet đang được sử dụng để tạo ra giọng nói cho Google Assistant bằng tiếng Anh và tiếng Nhật.

Tấn Minh

Chủ đề khác