Hail the Judge
Ta chơi xong không trả tiền, vậy đâu có gọi là bán
OpenAI vừa tung ra đòn đáp trả đối thủ cạnh tranh đến từ Trung Quốc DeepSeek bằng việc phát hành công khai o3-mini, mô hình lý luận mô phỏng mới nhất của hãng và là mô hình đầu tiên thuộc loại này được cung cấp miễn phí cho tất cả người dùng, không cần đăng ký.
OpenAI tự hào tuyên bố o3-mini "mở rộng ranh giới về những gì các mô hình nhỏ có thể đạt được". Giống như o1-mini ra mắt vào tháng 9, o3-mini được tối ưu hóa cho các chức năng STEM và thể hiện "sức mạnh đặc biệt trong khoa học, toán học và viết code", mặc dù chi phí vận hành và độ trễ thấp hơn o1-mini.
Người dùng có thể lựa chọn từ ba mức độ "nỗ lực lý luận" khác nhau khi sử dụng o3-mini, cho phép họ tinh chỉnh sự cân bằng giữa độ trễ và độ chính xác tùy thuộc vào từng tác vụ. Mức độ lý luận thấp nhất có độ chính xác tương đương o1-mini trong các bài kiểm tra toán học và viết code, trong khi mức độ cao nhất ngang bằng hoặc vượt trội hơn mô hình o1 đầy đủ.
OpenAI cho biết người thử nghiệm báo cáo giảm 39% "lỗi nghiêm trọng" khi sử dụng o3-mini so với o1-mini và thích phản hồi của o3-mini hơn trong 56% trường hợp. Đó là mặc dù phiên bản trung bình của o3-mini có thời gian phản hồi nhanh hơn 24% so với o1-mini (giảm từ 10,16 giây xuống 7,7 giây). OpenAI cũng hứa hẹn o3-mini có tính năng tìm kiếm "nguyên mẫu ban đầu" cho phép nó "tìm câu trả lời cập nhật với các liên kết đến các nguồn web liên quan" khi thích hợp.
Người đăng ký các gói Plus, Team hoặc Pro của OpenAI sẽ thấy o3-mini thay thế o1-mini trong các tùy chọn mô hình bắt đầu từ hôm nay. Những người đăng ký gói Plus và Team sẽ bị giới hạn 150 tin nhắn mỗi ngày trên mô hình mới, tăng từ giới hạn 50 tin nhắn hàng ngày đối với o1-mini. Người dùng không đăng ký trả phí cũng có thể truy cập mô hình này bằng cách chọn "Reason" từ menu thả xuống trong giao diện ChatGPT, đánh dấu lần đầu tiên công ty cung cấp mô hình lý luận mô phỏng cho người dùng miễn phí.
Bên cạnh thông báo, OpenAI cũng công bố thẻ hệ thống o3-mini chi tiết hơn về thử nghiệm và các biện pháp giảm thiểu rủi ro đã được thực hiện trước khi triển khai o3-mini. Điều này bao gồm thử nghiệm các mô hình về các chủ đề từ vũ khí hóa học và sinh học đến đánh giá khả năng thuyết phục, được đánh giá là "có sức thuyết phục tương đương với văn bản do con người viết về cùng chủ đề".
Tuy nhiên, OpenAI cảnh báo rằng mô hình o3-mini "vẫn hoạt động kém trong các đánh giá được thiết kế để kiểm tra khả năng nghiên cứu ML trong thế giới thực có liên quan đến khả năng tự cải thiện", nghĩa là OpenAI vẫn chưa tiếp cận được AI tự cải thiện. Mô hình o3-mini cũng đạt điểm 0% trong bài kiểm tra đo lường "liệu và khi nào các mô hình có thể tự động hóa công việc của một kỹ sư nghiên cứu OpenAI" về mặt viết code. OpenAI cho biết hệ thống được đào tạo trên "hỗn hợp dữ liệu có sẵn công khai và tập dữ liệu tùy chỉnh được phát triển nội bộ", với "bộ lọc nghiêm ngặt để duy trì chất lượng dữ liệu và giảm thiểu rủi ro tiềm ẩn".
#DeepSeek
OpenAI tự hào tuyên bố o3-mini "mở rộng ranh giới về những gì các mô hình nhỏ có thể đạt được". Giống như o1-mini ra mắt vào tháng 9, o3-mini được tối ưu hóa cho các chức năng STEM và thể hiện "sức mạnh đặc biệt trong khoa học, toán học và viết code", mặc dù chi phí vận hành và độ trễ thấp hơn o1-mini.
Người dùng có thể lựa chọn từ ba mức độ "nỗ lực lý luận" khác nhau khi sử dụng o3-mini, cho phép họ tinh chỉnh sự cân bằng giữa độ trễ và độ chính xác tùy thuộc vào từng tác vụ. Mức độ lý luận thấp nhất có độ chính xác tương đương o1-mini trong các bài kiểm tra toán học và viết code, trong khi mức độ cao nhất ngang bằng hoặc vượt trội hơn mô hình o1 đầy đủ.
OpenAI cho biết người thử nghiệm báo cáo giảm 39% "lỗi nghiêm trọng" khi sử dụng o3-mini so với o1-mini và thích phản hồi của o3-mini hơn trong 56% trường hợp. Đó là mặc dù phiên bản trung bình của o3-mini có thời gian phản hồi nhanh hơn 24% so với o1-mini (giảm từ 10,16 giây xuống 7,7 giây). OpenAI cũng hứa hẹn o3-mini có tính năng tìm kiếm "nguyên mẫu ban đầu" cho phép nó "tìm câu trả lời cập nhật với các liên kết đến các nguồn web liên quan" khi thích hợp.
Người đăng ký các gói Plus, Team hoặc Pro của OpenAI sẽ thấy o3-mini thay thế o1-mini trong các tùy chọn mô hình bắt đầu từ hôm nay. Những người đăng ký gói Plus và Team sẽ bị giới hạn 150 tin nhắn mỗi ngày trên mô hình mới, tăng từ giới hạn 50 tin nhắn hàng ngày đối với o1-mini. Người dùng không đăng ký trả phí cũng có thể truy cập mô hình này bằng cách chọn "Reason" từ menu thả xuống trong giao diện ChatGPT, đánh dấu lần đầu tiên công ty cung cấp mô hình lý luận mô phỏng cho người dùng miễn phí.
Bên cạnh thông báo, OpenAI cũng công bố thẻ hệ thống o3-mini chi tiết hơn về thử nghiệm và các biện pháp giảm thiểu rủi ro đã được thực hiện trước khi triển khai o3-mini. Điều này bao gồm thử nghiệm các mô hình về các chủ đề từ vũ khí hóa học và sinh học đến đánh giá khả năng thuyết phục, được đánh giá là "có sức thuyết phục tương đương với văn bản do con người viết về cùng chủ đề".
Tuy nhiên, OpenAI cảnh báo rằng mô hình o3-mini "vẫn hoạt động kém trong các đánh giá được thiết kế để kiểm tra khả năng nghiên cứu ML trong thế giới thực có liên quan đến khả năng tự cải thiện", nghĩa là OpenAI vẫn chưa tiếp cận được AI tự cải thiện. Mô hình o3-mini cũng đạt điểm 0% trong bài kiểm tra đo lường "liệu và khi nào các mô hình có thể tự động hóa công việc của một kỹ sư nghiên cứu OpenAI" về mặt viết code. OpenAI cho biết hệ thống được đào tạo trên "hỗn hợp dữ liệu có sẵn công khai và tập dữ liệu tùy chỉnh được phát triển nội bộ", với "bộ lọc nghiêm ngặt để duy trì chất lượng dữ liệu và giảm thiểu rủi ro tiềm ẩn".
#DeepSeek