Deep Research của OpenAI giỏi tìm kiếm web nhưng vẫn sai gần 50%

Sóng AI · 19/04/2025

OpenAI công bố một nghiên cứu mới về công nghệ Deep Research, một dạng AI agent có khả năng duyệt web nhằm trả lời các câu hỏi phức tạp, đòi hỏi tìm kiếm chuyên sâu và đa tầng.
Bài kiểm tra mang tên BrowseComp, do Jason Wei và nhóm thực hiện, gồm 1.266 câu hỏi khó mà các mô hình GPT cũ và con người đều gặp khó khăn trong việc trả lời chính xác.
Deep Research đạt độ chính xác 51,5%, cao nhất trong các mô hình thử nghiệm, nhưng vẫn thất bại gần một nửa số lần.
BrowseComp khác với kiểm tra thông tin đơn giản vì yêu cầu AI phải đối chiếu thông tin từ nhiều nguồn và lọc ra câu trả lời đúng dựa trên các ràng buộc cụ thể trong câu hỏi.
Ví dụ một câu hỏi trong BrowseComp yêu cầu xác định một ấn phẩm nghiên cứu xuất bản trước tháng 6/2023, liên quan đến truyền thống văn hóa, quy trình khoa học và đổi mới ẩm thực, do 3 tác giả cùng viết. Đây là loại câu hỏi sâu, khó xác minh và không dễ truy xuất trực tiếp.
Con người hoàn toàn lép vế: những người thử nghiệm dù quen với tập dữ liệu cũng chỉ trả lời được 30%, và từ bỏ 70% câu hỏi sau 2 giờ tìm kiếm. Thậm chí 14% câu trả lời từ con người sai hoàn toàn.
GPT-4o, GPT-4.5 và o1 được so sánh. GPT-4o và 4.5 gần như đạt độ chính xác bằng 0, cho thấy không đủ khả năng suy luận sâu hay sử dụng công cụ phù hợp cho loại câu hỏi này.
Deep Research được đánh giá cao vì khả năng bền bỉ, duyệt hàng nghìn trang web và xử lý song song nhiều luồng thông tin — điều mà con người không thể làm được.
Tuy nhiên, Deep Research mắc lỗi overconfidence (quá tự tin): mô hình thể hiện sự chắc chắn cao vào những câu trả lời sai, gây ra lỗi hiệu chỉnh (calibration error).
Để khắc phục, nhóm nghiên cứu thử nghiệm yêu cầu Deep Research tạo ra tối đa 64 câu trả lời cho mỗi câu hỏi và sau đó tự chọn câu đúng nhất. Kết quả cho thấy mô hình thường "biết" đâu là câu đúng, dù không thể biểu đạt độ chắc chắn chính xác qua xác suất.
Hiệu suất Deep Research tăng càng nhiều khi tăng compute (tài nguyên tính toán) trong giai đoạn test. Điều này phản ánh xu hướng hiện nay là sử dụng nhiều GPU để tăng khả năng suy luận của AI.
Một điểm yếu của BrowseComp là chỉ tập trung vào câu hỏi ngắn, rõ ràng, dễ xác minh và không kiểm tra khả năng xử lý phản hồi dài hay độ mơ hồ trong câu hỏi.
Deep Research hiện có mặt trong các gói OpenAI Plus và Pro, đánh dấu một bước tiến mạnh mẽ trong việc triển khai AI agent thực dụng vào đời sống và nghiên cứu.

Deep Research của OpenAI chứng minh AI có thể vượt mặt con người trong việc tìm thông tin phức tạp trên web với độ chính xác 51,5%, vượt xa GPT-4o và GPT-4.5. Tuy nhiên, nó vẫn mắc lỗi sai lệch độ tin cậy và cần thêm compute để cải thiện. BrowseComp là benchmark mới giúp đánh giá khả năng truy xuất thông tin sâu, nhưng chưa toàn diện.

OpenAI's Deep Research has more fact-finding stamina than you, but it's still wrong half the time

AI agents can be much more resourceful than human researchers. A new OpenAI test suggests some reasons why.

www.zdnet.com

Nguồn: Songai.vn

Deep Research của OpenAI giỏi tìm kiếm web nhưng vẫn sai gần 50%

Sóng AI✔

Writer

OpenAI's Deep Research has more fact-finding stamina than you, but it's still wrong half the time

Thành viên mới đăng

Xiaomi làm SUV hybrid sạc điện Skynomad: Ghế xoay 180 độ, chạy hơn 500km không cần tốn xăng

Amazon chơi lớn: Rót trọn 50 tỷ USD vào OpenAI, chính thức sở hữu 5% cổ phần trước thềm IPO

Pin điện thoại tụt nhanh? 5 ứng dụng Google này có thể là nguyên nhân

Lời biện minh cho hành động cài đặt phần mềm quảng cáo trên Windows 11 cho thấy LG đã "hết thuốc chữa"

Chủ quán lẩu gà từng van xin khách đừng đến dự thi đầu bếp, ngay vòng đầu tiên giám khảo nói câu bất ngờ

iPhone 18 Pro có thể đắt hơn tới 300 USD

Châu Âu nóng trên 40 độ C, điều hoà Trung Quốc lên tàu hoả lũ lượt đi "giải cứu"

iPhone Air 2 dự kiến ra mắt đầu năm sau với 5 tính năng mới

Đánh giá nổi bật