Sóng AI
Writer

OpenAI vừa công bố các mô hình AI phiên âm và tạo giọng nói mới cho API của họ, được cho là cải thiện đáng kể so với các phiên bản trước.
Các mô hình này phù hợp với tầm nhìn "agentic" rộng lớn hơn của OpenAI: xây dựng hệ thống tự động có thể độc lập hoàn thành nhiệm vụ thay người dùng.
Olivier Godement, Giám đốc sản phẩm của OpenAI, dự đoán: "Chúng ta sẽ thấy ngày càng nhiều agent xuất hiện trong những tháng tới" và nhấn mạnh mục tiêu giúp khách hàng và nhà phát triển tận dụng các agent hữu ích, sẵn có và chính xác.
Mô hình chuyển văn bản thành giọng nói mới "gpt-4o-mini-tts" không chỉ mang lại giọng nói chân thực hơn mà còn dễ điều khiển hơn các mô hình trước đó.
Nhà phát triển có thể hướng dẫn gpt-4o-mini-tts cách nói bằng ngôn ngữ tự nhiên - ví dụ: "nói như một nhà khoa học điên" hoặc "sử dụng giọng nói thanh thản, như một giáo viên chánh niệm".
Jeff Harris từ đội ngũ sản phẩm của OpenAI cho biết mục tiêu là cho phép nhà phát triển điều chỉnh cả "trải nghiệm" và "ngữ cảnh" của giọng nói, không chỉ kiểm soát nội dung mà còn cả cách thức phát âm.
Các mô hình phiên âm mới "gpt-4o-transcribe" và "gpt-4o-mini-transcribe" thay thế mô hình Whisper cũ, được đào tạo trên "bộ dữ liệu âm thanh đa dạng, chất lượng cao".
Mô hình mới có khả năng bắt giọng nói có trọng âm và đa dạng tốt hơn, ngay cả trong môi trường hỗn loạn, và ít có khả năng tạo ra ảo giác hơn Whisper.
Theo đánh giá nội bộ của OpenAI, gpt-4o-transcribe có "tỷ lệ lỗi từ" tiếp cận 30% (trên 120%) đối với các ngôn ngữ Ấn Độ và Dravidian như Tamil, Telugu, Malayalam và Kannada.
Khác với truyền thống trước đây, OpenAI không có kế hoạch công khai các mô hình phiên âm mới vì chúng "lớn hơn nhiều so với Whisper" và không phù hợp để chạy cục bộ trên máy tính xách tay.
Harris giải thích rằng công ty muốn đảm bảo việc phát hành nguồn mở được thực hiện một cách thận trọng, với mô hình thực sự phù hợp cho nhu cầu cụ thể, và thiết bị người dùng cuối là một trong những trường hợp thú vị nhất cho các mô hình nguồn mở.

Nguồn: Songai.vn