Hiệu suất toán học AI khủng khiếp của OpenAI o3 bị đặt dấu hỏi: vừa đá bóng vừa thổi còi

The Kings · 10:43

Báo Mỹ TechCrunch đã đăng một bài blog vào ngày hôm qua (19/1), báo cáo rằng Epoch AI đã gây ra tranh cãi do không tiết lộ kịp thời nguồn tài trợ của OpenAI và tính khách quan của tiêu chuẩn toán học FrontierMath mà nó phát triển là chất vấn.

Epoch AI, một tổ chức phi lợi nhuận chủ yếu được tài trợ bởi Open Philanthropy, một tổ chức nghiên cứu và tài trợ, đã tiết lộ vào ngày 20 tháng 12 rằng OpenAI đã hỗ trợ việc tạo ra FrontierMath. FrontierMath, một bài kiểm tra với các bài toán cấp độ chuyên gia được thiết kế để đo lường các kỹ năng toán học của AI, là một trong những chuẩn mực mà OpenAI sử dụng để trình diễn AI hàng đầu sắp ra mắt của mình, o3.

Trong một bài đăng trên diễn đàn LessWrong, một nhà thầu của Epoch AI có tên người dùng là “Meemi” cho biết nhiều người đóng góp cho chuẩn mực FrontierMath không được thông báo về sự tham gia của OpenAI cho đến khi thông tin này được công khai.

“Việc truyền đạt về vấn đề này không minh bạch”, Meemi viết. “Theo quan điểm của tôi, Epoch AI nên tiết lộ nguồn tài trợ của OpenAI và các nhà thầu nên có thông tin minh bạch về tiềm năng công việc của họ được sử dụng cho các khả năng, khi lựa chọn có nên làm việc trên một chuẩn mực hay không”.

Trên mạng xã hội, một số người dùng nêu lên mối lo ngại rằng tính bảo mật có thể làm xói mòn danh tiếng của FrontierMath như một chuẩn mực khách quan. Ngoài việc hỗ trợ FrontierMath, OpenAI còn có thể nhìn thấy nhiều vấn đề và giải pháp trong chuẩn mực này — một sự thật mà Epoch AI không tiết lộ trước ngày 20 tháng 12, khi o3 được công bố.

Trong một bài đăng trên X, nghiên cứu sinh tiến sĩ toán học tại Stanford, Carina Hong cũng cáo buộc rằng OpenAI có quyền truy cập đặc quyền vào FrontierMath nhờ thỏa thuận với Epoch AI và điều này không được một số cộng tác viên chấp nhận.

“Sáu nhà toán học đã đóng góp đáng kể vào chuẩn FrontierMath đã xác nhận [với tôi]… rằng họ không biết rằng OpenAI sẽ có quyền truy cập độc quyền vào chuẩn này (và những người khác thì không),” Hong cho biết. “Hầu hết đều bày tỏ rằng họ không chắc họ có đóng góp nếu biết hay không.” Trong bài kiểm tra điểm chuẩn FrontierMath của EpochAI, mô hình o3 của OpenAI vượt trội so với các mô hình khác với lợi thế vượt trội, với độ chính xác lên tới 25%, trong khi các mô hình khác đạt điểm khoảng 2%.

"Meemi", một nhà thầu tại Epoch AI, đã đăng trên diễn đàn LessWrong rằng nhiều người đóng góp cho FrontierMath không biết rằng OpenAI đã tham gia xây dựng điểm chuẩn cho đến khi nó được công bố rộng rãi.

Meemi viết: "Thông tin liên lạc hoàn toàn không rõ ràng. Tôi nghĩ Epoch AI nên tiết lộ nguồn tài trợ của OpenAI và các nhà thầu nên được cung cấp thông tin minh bạch về cách công việc của họ có thể được sử dụng để cải thiện khả năng khi lựa chọn có tham gia vào các nỗ lực đo điểm chuẩn hay không."

Sáu nhà toán học tham gia thiết kế điểm chuẩn FrontierMath cho biết họ không biết OpenAI có quyền truy cập độc quyền. Nếu biết trước, họ có thể không tham gia.

Một số người dùng mạng xã hội lo lắng rằng bí mật này có thể gây tổn hại đến danh tiếng của FrontierMath như một chuẩn mực khách quan. Ngoài việc tài trợ cho FrontierMath, OpenAI sẽ có quyền truy cập vào nhiều vấn đề và giải pháp trong điểm chuẩn—một sự thật mà Epoch AI đã không tiết lộ trước khi o3 phát hành vào ngày 20 tháng 12.

Trả lời bài đăng của Meemi, Tamay Besiroglu, phó giám đốc và đồng sáng lập của Epoch AI, nhấn mạnh rằng tính toàn vẹn của FrontierMath không hề bị xâm phạm, nhưng thừa nhận rằng Epoch AI đã “đã phạm sai lầm” khi không minh bạch hơn.

Chuyên gia AI Gary Marcus đặt câu hỏi về tuyên bố của OpenAI, so sánh vụ việc với vụ bê bối Theranos. Lưu ý: Vụ bê bối là một vụ lừa đảo liên quan đến Theranos, một công ty xét nghiệm máu do Elizabeth Holmes thành lập. Công ty này tuyên bố rằng công nghệ của họ có thể thực hiện hàng trăm xét nghiệm chỉ với vài giọt máu, nhưng cuối cùng lời nói dối đã bị vạch trần và sự thật. công ty cuối cùng đã sụp đổ và Holmes bị kết tội lừa đảo.

Besiroglu thừa nhận rằng OpenAI có quyền truy cập vào hầu hết các câu hỏi và câu trả lời của FrontierMath, nhưng có "bộ dữ liệu dành riêng mà OpenAI chưa thấy" để có khả năng xác thực mô hình.

Besiroglu đã viết

Chúng tôi bị hạn chế tiết lộ quan hệ đối tác cho đến khoảng thời gian ra mắt o3, và nhìn lại thì lẽ ra chúng tôi nên nỗ lực hơn nữa để minh bạch với những người đóng góp điểm chuẩn sớm hơn. Các nhà toán học của chúng ta nên biết ai có quyền truy cập vào công việc của họ. Ngay cả khi chúng tôi bị ràng buộc về mặt hợp đồng, chúng tôi vẫn nên coi tính minh bạch với những người đóng góp là một phần không thể thương lượng trong thỏa thuận của chúng tôi với OpenAI.

Có thể bạn quan tâm

Hiệu suất toán học AI khủng khiếp của OpenAI o3 bị đặt dấu hỏi: vừa đá bóng vừa thổi còi

The Kings

Writer

The Kings

Nhân vật đáng ngờ chuyên hưởng lương từ YouTube mạnh tay mua TikTok là ai?

AI tạo ra TaCr₂O₆, vật liệu mới trong lĩnh vực pin

Tên lửa Oreshnik nỗi kinh hoàng mới trên chiến trường Ukraine?

Bí mật đằng sau sự trở lại của TikTok tại Mỹ?

4 bóng ma ẩn mình khiến Tần Vương bị "dắt mũi" suốt 41 năm là ai?

Toyota Vios 2025 bao giờ ra mắt tại thị trường Việt Nam, mức giá liệu có xứng đáng?

Ô tô điện giá rẻ nhất của VinFast sắp ra mắt có gì ấn tượng?

Nhân vật đáng ngờ chuyên hưởng lương từ YouTube mạnh tay mua TikTok là ai?

Trải nghiệm xe máy điện Dat Bike Quantum S3: Lựa chọn đáng giá trong phân khúc 35 triệu đồng

AI tạo ra TaCr₂O₆, vật liệu mới trong lĩnh vực pin

Kẹt xe, xe điện không tốn điện phải không?

Keysight và Indra hợp tác về đo kiểm và đánh giá mô phỏng tác chiến điện tử

Hiệu suất toán học AI khủng khiếp của OpenAI o3 bị đặt dấu hỏi: vừa đá bóng vừa thổi còi

Tin vui cho bệnh nhân đang điều trị béo phì

Đánh giá nổi bật