Sóng AI
Writer

OpenAI công bố một nghiên cứu mới về công nghệ Deep Research, một dạng AI agent có khả năng duyệt web nhằm trả lời các câu hỏi phức tạp, đòi hỏi tìm kiếm chuyên sâu và đa tầng.
Bài kiểm tra mang tên BrowseComp, do Jason Wei và nhóm thực hiện, gồm 1.266 câu hỏi khó mà các mô hình GPT cũ và con người đều gặp khó khăn trong việc trả lời chính xác.
Deep Research đạt độ chính xác 51,5%, cao nhất trong các mô hình thử nghiệm, nhưng vẫn thất bại gần một nửa số lần.
BrowseComp khác với kiểm tra thông tin đơn giản vì yêu cầu AI phải đối chiếu thông tin từ nhiều nguồn và lọc ra câu trả lời đúng dựa trên các ràng buộc cụ thể trong câu hỏi.
Ví dụ một câu hỏi trong BrowseComp yêu cầu xác định một ấn phẩm nghiên cứu xuất bản trước tháng 6/2023, liên quan đến truyền thống văn hóa, quy trình khoa học và đổi mới ẩm thực, do 3 tác giả cùng viết. Đây là loại câu hỏi sâu, khó xác minh và không dễ truy xuất trực tiếp.
Con người hoàn toàn lép vế: những người thử nghiệm dù quen với tập dữ liệu cũng chỉ trả lời được 30%, và từ bỏ 70% câu hỏi sau 2 giờ tìm kiếm. Thậm chí 14% câu trả lời từ con người sai hoàn toàn.
GPT-4o, GPT-4.5 và o1 được so sánh. GPT-4o và 4.5 gần như đạt độ chính xác bằng 0, cho thấy không đủ khả năng suy luận sâu hay sử dụng công cụ phù hợp cho loại câu hỏi này.
Deep Research được đánh giá cao vì khả năng bền bỉ, duyệt hàng nghìn trang web và xử lý song song nhiều luồng thông tin — điều mà con người không thể làm được.
Tuy nhiên, Deep Research mắc lỗi overconfidence (quá tự tin): mô hình thể hiện sự chắc chắn cao vào những câu trả lời sai, gây ra lỗi hiệu chỉnh (calibration error).
Để khắc phục, nhóm nghiên cứu thử nghiệm yêu cầu Deep Research tạo ra tối đa 64 câu trả lời cho mỗi câu hỏi và sau đó tự chọn câu đúng nhất. Kết quả cho thấy mô hình thường "biết" đâu là câu đúng, dù không thể biểu đạt độ chắc chắn chính xác qua xác suất.
Hiệu suất Deep Research tăng càng nhiều khi tăng compute (tài nguyên tính toán) trong giai đoạn test. Điều này phản ánh xu hướng hiện nay là sử dụng nhiều GPU để tăng khả năng suy luận của AI.
Một điểm yếu của BrowseComp là chỉ tập trung vào câu hỏi ngắn, rõ ràng, dễ xác minh và không kiểm tra khả năng xử lý phản hồi dài hay độ mơ hồ trong câu hỏi.
Deep Research hiện có mặt trong các gói OpenAI Plus và Pro, đánh dấu một bước tiến mạnh mẽ trong việc triển khai AI agent thực dụng vào đời sống và nghiên cứu.


OpenAI's Deep Research has more fact-finding stamina than you, but it's still wrong half the time
AI agents can be much more resourceful than human researchers. A new OpenAI test suggests some reasons why.

Nguồn: Songai.vn