OpenAI nâng cấp mô hình AI phiên âm và tạo giọng nói với khả năng biểu cảm

Sóng AI · 17:23 Hôm qua

OpenAI vừa công bố các mô hình AI phiên âm và tạo giọng nói mới cho API của họ, được cho là cải thiện đáng kể so với các phiên bản trước.
Các mô hình này phù hợp với tầm nhìn "agentic" rộng lớn hơn của OpenAI: xây dựng hệ thống tự động có thể độc lập hoàn thành nhiệm vụ thay người dùng.
Olivier Godement, Giám đốc sản phẩm của OpenAI, dự đoán: "Chúng ta sẽ thấy ngày càng nhiều agent xuất hiện trong những tháng tới" và nhấn mạnh mục tiêu giúp khách hàng và nhà phát triển tận dụng các agent hữu ích, sẵn có và chính xác.
Mô hình chuyển văn bản thành giọng nói mới "gpt-4o-mini-tts" không chỉ mang lại giọng nói chân thực hơn mà còn dễ điều khiển hơn các mô hình trước đó.
Nhà phát triển có thể hướng dẫn gpt-4o-mini-tts cách nói bằng ngôn ngữ tự nhiên - ví dụ: "nói như một nhà khoa học điên" hoặc "sử dụng giọng nói thanh thản, như một giáo viên chánh niệm".
Jeff Harris từ đội ngũ sản phẩm của OpenAI cho biết mục tiêu là cho phép nhà phát triển điều chỉnh cả "trải nghiệm" và "ngữ cảnh" của giọng nói, không chỉ kiểm soát nội dung mà còn cả cách thức phát âm.
Các mô hình phiên âm mới "gpt-4o-transcribe" và "gpt-4o-mini-transcribe" thay thế mô hình Whisper cũ, được đào tạo trên "bộ dữ liệu âm thanh đa dạng, chất lượng cao".
Mô hình mới có khả năng bắt giọng nói có trọng âm và đa dạng tốt hơn, ngay cả trong môi trường hỗn loạn, và ít có khả năng tạo ra ảo giác hơn Whisper.
Theo đánh giá nội bộ của OpenAI, gpt-4o-transcribe có "tỷ lệ lỗi từ" tiếp cận 30% (trên 120%) đối với các ngôn ngữ Ấn Độ và Dravidian như Tamil, Telugu, Malayalam và Kannada.
Khác với truyền thống trước đây, OpenAI không có kế hoạch công khai các mô hình phiên âm mới vì chúng "lớn hơn nhiều so với Whisper" và không phù hợp để chạy cục bộ trên máy tính xách tay.
Harris giải thích rằng công ty muốn đảm bảo việc phát hành nguồn mở được thực hiện một cách thận trọng, với mô hình thực sự phù hợp cho nhu cầu cụ thể, và thiết bị người dùng cuối là một trong những trường hợp thú vị nhất cho các mô hình nguồn mở.

OpenAI nâng cấp mô hình AI với gpt-4o-mini-tts tạo giọng nói tự nhiên, điều chỉnh được cảm xúc và gpt-4o-transcribe cải thiện phiên âm với tỷ lệ lỗi thấp hơn, hỗ trợ tầm nhìn "agentic" nhưng không phát hành nguồn mở do kích thước lớn.

Nguồn: Songai.vn

Có thể bạn quan tâm

Chủ đề hot

Có thể bạn quan tâm

OpenAI nâng cấp mô hình AI phiên âm và tạo giọng nói với khả năng biểu cảm

Sóng AI

Writer

Sóng AI

7 vai trò quản lý AI mới mà các nhà lãnh đạo cần thành thạo trong kỷ nguyên công nghệ

Lý Khai Phục: Nhà tiên phong AI thấy chỉ một số ít mô hình sẽ sống sót sau đợt thanh lọc ở Mỹ, Trung Quốc

Tencent và Alibaba đang đầu tư mạnh vào AI, nhưng mô hình kinh doanh chưa rõ ràng và cạnh tranh gay gắt

CEO Perplexity tiết lộ kế hoạch táo bạo thách thức Google với đề xuất sáp nhập TikTok trị giá hàng tỷ đô

Tencent đẩy mạnh đầu tư vào AI với chiến lược "kép" kết hợp DeepSeek và mô hình nội bộ Yuanbao

Quả báo chưa bao giờ đến nhanh như thế: Apple phải trả giá vì tụt hậu công nghệ AI

Elon Musk: ở Tesla không có lãnh chúa và nông dân! (phân biệt đối xử)

Nvidia mở trung tâm nghiên cứu điện toán lượng tử

Apple lỗ hơn 1 tỷ USD mỗi năm cho dịch vụ phát trực tuyến

Lập trình viên sẽ bị AI vượt mặt trong năm nay

Châu Âu quyết mở toang "khu vườn khép kín" của Apple

ASUS khai trương cửa hàng công nghệ Exclusive Store đầu tiên tại Hà Nội và cũng là đầu tiên tại Việt Nam

Tesla bất ngờ công bố triệu hồi gần như toàn bộ xe Cybertruck, vì lỗi không thể khắc phục bằng phần mềm

Pin Silicon-Carbon là gì? Ưu nhược điểm của pin Si-C - bài viết chi tiết nhất về công nghệ pin Silicon-Carbon

Đỉnh điểm của sự chán ghét: Chủ xe Tesla đang rao bán xe điện ở mức cao chưa từng có

Tesla bị loại khỏi Triển lãm ô tô quốc tế Vancouver vì lo ngại về an toàn

Đánh giá nổi bật