OpenAI tuyến bố phiên bản GPT-4o mới nhất có mức rủi ro 'trung bình'

Dũng Đỗ · 09/08/2024

OpenAI đã phát hành Thẻ hệ thống GPT-4o , một tài liệu nghiên cứu phác thảo các biện pháp an toàn và đánh giá rủi ro mà công ty khởi nghiệp này đã thực hiện trước khi phát hành mô hình AI mới nhất của mình.

chatgpt-gpt4o-new-model-on-screen.avif_75.jpg

GPT-4o đã được ra mắt công khai vào tháng 5 vừa qua. Trước khi ra mắt, OpenAI đã sử dụng một nhóm đội đỏ hay các chuyên gia bảo mật bên ngoài đang cố gắng tìm ra điểm yếu trong hệ thống để tìm ra những rủi ro chính trong mô hình (đây là một thông lệ phổ biến trong giới công nghệ). Họ đã kiểm tra các rủi ro như khả năng GPT-4o sẽ tạo ra các bản sao trái phép giọng nói của ai đó, nội dung khiêu *** và bạo lực hoặc các đoạn âm thanh có bản quyền được sao chép. Và bây giờ, kết quả đã được công bố.

Theo tuyên bố của OpenAI, các nhà nghiên cứu nhận thấy GPT-4o có rủi ro “trung bình”. Mức độ rủi ro tổng thể được lấy từ xếp hạng rủi ro cao nhất trong bốn loại tổng thể: an ninh mạng, mối đe dọa sinh học , thuyết phục và quyền tự chủ của mô hình. Tất cả những điều này được coi là có rủi ro thấp ngoại trừ khả năng thuyết phục, trong đó các nhà nghiên cứu nhận thấy một số mẫu văn bản từ GPT-4o có thể gây ảnh hưởng đến ý kiến của người đọc tốt hơn văn bản do con người viết - mặc dù các mẫu của mô hình nhìn chung không thuyết phục hơn.

Người phát ngôn của OpenAI, Lindsay McCallum Rémy, nói với The Verge rằng thẻ hệ thống bao gồm các đánh giá về mức độ sẵn sàng do một nhóm nội bộ tạo ra, cùng với những người thử nghiệm bên ngoài được liệt kê trên trang web của OpenAI là Nghiên cứu mối đe dọa và đánh giá mô hình (METR) và Nghiên cứu Apollo, cả hai đều xây dựng các đánh giá cho Hệ thống AI.

Đây không phải là thẻ hệ thống đầu tiên OpenAI phát hành. Các phiên bản GPT-4 và DALL-E 3 cũng được thử nghiệm tương tự và nghiên cứu đã được công bố. Nhưng OpenAI sẽ phát hành thẻ hệ thống này vào thời điểm quan trọng. Công ty đã phải hứng chịu những lời chỉ trích không ngừng nghỉ về các tiêu chuẩn an toàn của mình, từ chính nhân viên của mình cho đến các thượng nghị sĩ Mỹ.

Chỉ vài phút trước khi phát hành thẻ hệ thống của GPT-4o, The Verge đã đưa tin độc quyền về một bức thư ngỏ từ Thượng nghị sĩ Elizabeth Warren (D-MA) và Hạ nghị sĩ Lori Trahan (D-MA) kêu gọi câu trả lời về cách OpenAI xử lý những người tố giác và đánh giá về an toàn. Bức thư đó nêu ra nhiều vấn đề an toàn đã được nêu ra một cách công khai, bao gồm cả việc Giám đốc điều hành Sam Altman bị sa thải khỏi công ty trong thời gian ngắn vào năm 2023 do những lo ngại của hội đồng quản trị và sự ra đi của một giám đốc điều hành an toàn, người đã tuyên bố rằng “văn hóa và quy trình an toàn đã bị ảnh hưởng”, lùi lại phía sau cho các sản phẩm sáng bóng.”

Hơn nữa, công ty đang tung ra một mô hình đa phương thức có khả năng hoạt động cao ngay trước cuộc bầu cử tổng thống Hoa Kỳ. Có nguy cơ tiềm ẩn rõ ràng là mô hình này vô tình phát tán thông tin sai lệch hoặc bị các tác nhân độc hại tấn công – ngay cả khi OpenAI hy vọng nhấn mạnh rằng công ty đang thử nghiệm các kịch bản trong thế giới thực để ngăn chặn việc sử dụng sai mục đích.

Đã có rất nhiều lời kêu gọi OpenAI minh bạch hơn, không chỉ với dữ liệu đào tạo của mô hình như việc có sử các video YouTube để đạo tạo AI không, mà còn với thử nghiệm an toàn của mô hình AI này.

Tại California, nơi OpenAI và nhiều phòng thí nghiệm AI hàng đầu khác đặt trụ sở, Thượng nghị sĩ Mỹ Scott Wiener đang nỗ lực thông qua dự luật điều chỉnh các mô hình ngôn ngữ lớn, bao gồm các hạn chế buộc các công ty phải chịu trách nhiệm pháp lý nếu AI của họ bị sử dụng theo những cách có hại. Nếu dự luật đó được thông qua, các mô hình biên giới của OpenAI sẽ phải tuân thủ các đánh giá rủi ro do nhà nước bắt buộc trước khi cung cấp các mô hình cho công chúng sử dụng. Nhưng điểm rút ra lớn nhất của Thẻ hệ thống GPT-4o là, mặc dù có nhóm những người thử nghiệm và đồng đội đỏ bên ngoài, nhưng phần lớn điều này dựa vào OpenAI để tự đánh giá.