Hugging Face sao chép Deep Research của OpenAI trong 24 giờ

Mr. Macho
Mr. Macho
Phản hồi: 0

Mr. Macho

Writer
Hugging Face vừa ra mắt Open Deep Research, một tác nhân nghiên cứu AI nguồn mở, nhằm cạnh tranh với Deep Research của OpenAI. Dự án được tạo ra trong 24 giờ và có thể tự động thu thập, tổng hợp thông tin để tạo báo cáo.

Dù chưa đạt hiệu suất của OpenAI (55,15% so với 67,36% trên chuẩn GAIA), Open Deep Research cho thấy tiềm năng mạnh mẽ, đặc biệt nhờ sử dụng thư viện smolagents và "code agent" thay vì JSON. Dự án cho phép tùy chỉnh mô hình AI, hỗ trợ mã nguồn mở, giúp cộng đồng phát triển nhanh chóng.

Hugging Face dự định cải thiện dự án bằng cách hỗ trợ nhiều định dạng tệp hơn và duyệt web bằng thị giác, đồng thời nghiên cứu sao chép Operator của OpenAI. Mã nguồn đã được công khai trên GitHub, và dự án đang thu hút nhiều người đóng góp.
Mặc dù hiệu suất chưa bằng OpenAI, dự án của Hugging Face chứng minh rằng cộng đồng AI nguồn mở có thể nhanh chóng tái tạo các công nghệ tiên tiến, mở ra cơ hội cho các nhà phát triển tùy chỉnh và cải thiện nó. Điều này có thể góp phần giảm sự phụ thuộc vào các mô hình AI độc quyền từ những công ty lớn. Nói một cách ngắn gọn: OpenAI không hoàn toàn "dễ sao chép", nhưng những gì họ làm có thể được tái tạo đến một mức độ nhất định bằng AI nguồn mở, đặc biệt khi cộng đồng AI ngày càng phát triển mạnh mẽ.
1738893146018.png

Vào thứ Ba, các nhà nghiên cứu của Hugging Face đã phát hành một tác nhân nghiên cứu AI nguồn mở có tên là "Open Deep Research", được một nhóm nội bộ tạo ra như một thử thách 24 giờ sau khi ra mắt tính năng Deep Research của OpenAI , có thể tự động duyệt web và tạo báo cáo nghiên cứu. Dự án này tìm cách đạt được hiệu suất của Deep Research trong khi cung cấp công nghệ miễn phí cho các nhà phát triển.

"Trong khi các LLM mạnh mẽ hiện có sẵn miễn phí dưới dạng mã nguồn mở, OpenAI không tiết lộ nhiều về khuôn khổ agentic làm nền tảng cho Deep Research", Hugging Face viết trên trang thông báo của mình. "Vì vậy, chúng tôi quyết định bắt tay vào nhiệm vụ kéo dài 24 giờ để tái tạo kết quả của họ và mã nguồn mở khuôn khổ cần thiết trong quá trình này!"

Tương tự như Deep Research của OpenAI và việc Google triển khai "Deep Research" của riêng mình bằng Gemini (lần đầu tiên được giới thiệu vào tháng 12 —trước OpenAI), giải pháp của Hugging Face bổ sung một khuôn khổ "tác nhân" vào mô hình AI hiện có để cho phép nó thực hiện các tác vụ nhiều bước, chẳng hạn như thu thập thông tin và xây dựng báo cáo trong quá trình thực hiện để trình bày cho người dùng ở phần cuối.

Bản sao mã nguồn mở này đã đạt được kết quả chuẩn tương đương. Chỉ sau một ngày làm việc, Open Deep Research của Hugging Face đã đạt độ chính xác 55,15 phần trăm trên chuẩn General AI Assistants (GAIA), thử nghiệm khả năng thu thập và tổng hợp thông tin từ nhiều nguồn của mô hình AI. Deep Research của OpenAI đạt độ chính xác 67,36 phần trăm trên cùng chuẩn với phản hồi một lần (điểm của OpenAI tăng lên 72,57 phần trăm khi 64 phản hồi được kết hợp bằng cơ chế đồng thuận).

Như Hugging Face đã chỉ ra trong bài đăng của mình, GAIA bao gồm các câu hỏi phức tạp gồm nhiều bước như câu hỏi này:
Loại trái cây nào được thể hiện trong bức tranh "Thêu từ Uzbekistan" năm 2008 được phục vụ như một phần của thực đơn bữa sáng tháng 10 năm 1949 cho tàu biển sau đó được sử dụng làm đạo cụ nổi cho bộ phim "Chuyến đi cuối cùng"? Đưa ra các mục dưới dạng danh sách được phân tách bằng dấu phẩy, sắp xếp chúng theo thứ tự theo chiều kim đồng hồ dựa trên cách sắp xếp của chúng trong bức tranh bắt đầu từ vị trí 12 giờ. Sử dụng dạng số nhiều của mỗi loại trái cây.
Để trả lời đúng loại câu hỏi đó, tác nhân AI phải tìm kiếm nhiều nguồn khác nhau và tập hợp chúng thành một câu trả lời mạch lạc. Nhiều câu hỏi trong GAIA không phải là nhiệm vụ dễ dàng, ngay cả đối với con người, vì vậy chúng kiểm tra khá tốt bản lĩnh của AI tác nhân.
Chọn đúng mô hình AI cốt lõi
Một tác nhân AI không là gì nếu không có một số loại mô hình AI hiện có ở cốt lõi của nó. Hiện tại, Open Deep Research xây dựng trên các mô hình ngôn ngữ lớn của OpenAI (như GPT-4o ) hoặc các mô hình lý luận mô phỏng (như o1 và o3-mini ) thông qua một API. Nhưng nó cũng có thể được điều chỉnh cho các mô hình AI có trọng số mở. Phần mới lạ ở đây là cấu trúc tác nhân giữ tất cả lại với nhau và cho phép một mô hình ngôn ngữ AI tự động hoàn thành nhiệm vụ nghiên cứu.

Chúng tôi đã nói chuyện với Aymeric Roucher của Hugging Face , người đứng đầu dự án Open Deep Research, về sự lựa chọn mô hình AI của nhóm. "Không phải là 'trọng số mở' vì chúng tôi sử dụng mô hình trọng số đóng chỉ vì nó hoạt động tốt, nhưng chúng tôi giải thích toàn bộ quy trình phát triển và hiển thị mã", ông nói với Ars Technica. "Nó có thể được chuyển sang bất kỳ mô hình nào khác, vì vậy [nó] hỗ trợ một đường ống mở hoàn toàn".

"Tôi đã thử một loạt LLM bao gồm [Deepseek] R1 và o3-mini", Roucher nói thêm. "Và đối với trường hợp sử dụng này, o1 hoạt động tốt nhất. Nhưng với sáng kiến open-R1 mà chúng tôi đã đưa ra, chúng tôi có thể thay thế o1 bằng một mô hình mở tốt hơn".

Trong khi mô hình LLM hoặc SR cốt lõi ở trung tâm của tác nhân nghiên cứu là quan trọng, Open Deep Research cho thấy rằng việc xây dựng lớp tác nhân phù hợp là chìa khóa, vì các điểm chuẩn cho thấy phương pháp tác nhân nhiều bước cải thiện đáng kể khả năng của mô hình ngôn ngữ lớn: Chỉ riêng GPT-4o của OpenAI (không có khuôn khổ tác nhân) đạt điểm trung bình 29 phần trăm trên điểm chuẩn GAIA so với 67 phần trăm của OpenAI Deep Research.

Theo Roucher, một thành phần cốt lõi của bản sao Hugging Face khiến dự án hoạt động tốt như vậy. Họ đã sử dụng thư viện " smolagents " nguồn mở của Hugging Face để bắt đầu, sử dụng cái mà họ gọi là " code agent " thay vì các agent dựa trên JSON . Các code agent này viết hành động của chúng bằng mã lập trình, được cho là giúp chúng hiệu quả hơn 30 phần trăm trong việc hoàn thành nhiệm vụ. Phương pháp này cho phép hệ thống xử lý các chuỗi hành động phức tạp một cách ngắn gọn hơn.
Tốc độ của AI nguồn mở
Giống như các ứng dụng AI nguồn mở khác, các nhà phát triển đằng sau Open Deep Research đã không lãng phí thời gian để lặp lại thiết kế, một phần là nhờ những người đóng góp bên ngoài. Và giống như các dự án nguồn mở khác, nhóm đã xây dựng dựa trên công trình của những người khác, giúp rút ngắn thời gian phát triển. Ví dụ, Hugging Face đã sử dụng các công cụ duyệt web và kiểm tra văn bản được mượn từ dự án tác nhân Magnetic-One của Microsoft Research từ cuối năm 2024.

Mặc dù tác nhân nghiên cứu nguồn mở vẫn chưa đạt được hiệu suất của OpenAI, nhưng bản phát hành của nó cho phép các nhà phát triển truy cập miễn phí để nghiên cứu và sửa đổi công nghệ. Dự án chứng minh khả năng của cộng đồng nghiên cứu trong việc tái tạo nhanh chóng và chia sẻ công khai các khả năng AI mà trước đây chỉ có thông qua các nhà cung cấp thương mại.

"Tôi nghĩ [các tiêu chuẩn] khá mang tính chỉ dẫn cho những câu hỏi khó", Roucher nói. "Nhưng xét về tốc độ và UX, giải pháp của chúng tôi còn lâu mới được tối ưu hóa như giải pháp của họ".

Roucher cho biết những cải tiến trong tương lai đối với tác nhân nghiên cứu của mình có thể bao gồm hỗ trợ nhiều định dạng tệp hơn và khả năng duyệt web dựa trên thị giác. Và Hugging Face hiện đang nghiên cứu sao chép Operator của OpenAI, có thể thực hiện các loại tác vụ khác (như xem màn hình máy tính và điều khiển đầu vào chuột và bàn phím) trong môi trường trình duyệt web.

Hugging Face đã đăng mã nguồn công khai trên GitHub và mở các vị trí tuyển dụng kỹ sư để giúp mở rộng khả năng của dự án.

"Phản hồi rất tuyệt vời", Roucher nói với Ars. "Chúng tôi có rất nhiều người đóng góp mới tham gia và đề xuất bổ sung. Cảm giác giống như đang lướt sóng, cộng đồng thực sự tạo nên sức mạnh to lớn!"
Nguồn: Arstechnica
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Top