OpenAI phát hiện GPT-4o đôi khi có một số hành động thực sự kỳ lạ

GPT-4o, mô hình AI tạo ra năng lượng cho bản alpha mới ra mắt của Advanced Voice Mode trong ChatGPT, là mô hình đầu tiên của OpenAI được đào tạo về giọng nói cũng như dữ liệu văn bản và hình ảnh. Điều đó khiến nó đôi khi hoạt động theo những cách kỳ lạ - như bắt chước giọng nói của người đang nói chuyện với nó hoặc hét lên ngẫu nhiên giữa cuộc trò chuyện.

Trong một báo cáo “red teaming” mới ghi lại các cuộc thăm dò về điểm mạnh và rủi ro của mô hình, OpenAI tiết lộ một số điểm kỳ quặc của GPT-4o, như tính năng sao chép giọng nói đã đề cập ở trên. Trong những trường hợp hiếm hoi - đặc biệt là khi một người nói chuyện với GPT-4o trong “môi trường có nhiều tiếng ồn xung quanh”, như một chiếc ô tô trên đường - GPT-4o sẽ “mô phỏng giọng nói của người dùng”, OpenAI cho biết. Tại sao? Vâng, OpenAI cho rằng đó là do mô hình đang gặp khó khăn trong việc hiểu lời nói bị biến dạng. Cũng công bằng thôi!

1723197547661.png


Hãy lắng nghe âm thanh trong mẫu bên dưới (trích từ báo cáo). Thật kỳ lạ, phải không?

Để rõ ràng hơn, GPT-4o hiện không thực hiện điều này - ít nhất là không phải trong Chế độ giọng nói nâng cao. Một phát ngôn viên của OpenAI nói với TechCrunch rằng công ty đã thêm "giảm thiểu cấp hệ thống" cho hành vi này.

GPT-4o cũng dễ tạo ra những "âm thanh phi ngôn ngữ" và hiệu ứng âm thanh gây khó chịu hoặc không phù hợp, như tiếng rên rỉ khiêu ***, tiếng hét dữ dội và tiếng súng, khi được nhắc theo những cách cụ thể. OpenAI cho biết có bằng chứng cho thấy mô hình này thường từ chối các yêu cầu tạo hiệu ứng âm thanh, nhưng thừa nhận rằng một số yêu cầu thực sự được thông qua.

GPT-4o cũng có thể vi phạm bản quyền âm nhạc - hoặc đúng hơn là vi phạm nếu OpenAI không triển khai bộ lọc để ngăn chặn điều này. Trong báo cáo, OpenAI cho biết họ đã chỉ thị cho GPT-4o không hát trong alpha giới hạn của Advanced Voice Mode, có lẽ là để tránh sao chép phong cách, tông giọng và/hoặc âm sắc của các nghệ sĩ dễ nhận biết.

Điều này ngụ ý - nhưng không hoàn toàn xác nhận - rằng OpenAI đã đào tạo GPT-4o trên tài liệu có bản quyền. Không rõ liệu OpenAI có ý định dỡ bỏ các hạn chế khi Advanced Voice Mode triển khai cho nhiều người dùng hơn vào mùa thu hay không, như đã thông báo trước đó .

“Để tính đến phương thức âm thanh của GPT-4o, chúng tôi đã cập nhật một số bộ lọc dựa trên văn bản để hoạt động trên các cuộc hội thoại âm thanh [và] xây dựng các bộ lọc để phát hiện và chặn các đầu ra có chứa nhạc”, OpenAI viết trong báo cáo. “Chúng tôi đã đào tạo GPT-4o để từ chối các yêu cầu về nội dung có bản quyền, bao gồm cả âm thanh, phù hợp với các thông lệ rộng hơn của chúng tôi”.

Điều đáng chú ý là OpenAI gần đây đã nói rằng sẽ "không thể" đào tạo các mô hình hàng đầu hiện nay mà không sử dụng các tài liệu có bản quyền. Mặc dù công ty có một số thỏa thuận cấp phép với các nhà cung cấp dữ liệu, nhưng công ty cũng duy trì rằng sử dụng hợp lý là một biện pháp phòng vệ hợp lý chống lại các cáo buộc rằng công ty đào tạo trên dữ liệu được bảo vệ bằng IP, bao gồm cả những thứ như bài hát, mà không được phép.

Báo cáo nhóm đỏ - nếu xét đến những con ngựa đua của OpenAI - đã vẽ nên bức tranh tổng thể về một mô hình AI đã được bảo vệ an toàn hơn nhờ nhiều biện pháp giảm thiểu và bảo vệ khác nhau. Ví dụ, GPT-4o từ chối xác định danh tính mọi người dựa trên cách họ nói và từ chối trả lời những câu hỏi khó như "người nói này thông minh đến mức nào?" Nó cũng chặn các lời nhắc về ngôn ngữ bạo lực và khiêu *** và không cho phép một số loại nội dung nhất định, như các cuộc thảo luận liên quan đến chủ nghĩa cực đoan và tự làm hại bản thân, hoàn toàn.

Nguồn: TechCrunch
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Top