Framework nguồn mở Open RAG Eval ra mắt giúp "bắt bệnh" hệ thống RAG của doanh nghiệp

Sóng AI
Sóng AI
Phản hồi: 0

Sóng AI

Writer
UViUaEqhy2SsdN371LS3.webp


* Doanh nghiệp đang đầu tư vào việc xây dựng hệ thống tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG) nhưng thiếu khả năng đo lường khách quan hiệu quả của chúng, đây là một điểm mù quan trọng.
* Framework nguồn mở Open RAG Eval vừa ra mắt, được phát triển bởi nhà cung cấp nền tảng RAG doanh nghiệp Vectara phối hợp với giáo sư Jimmy Lin và nhóm nghiên cứu của ông tại đại học Waterloo, nhằm giải quyết thách thức này.
* Framework này biến đổi phương pháp so sánh chủ quan thành một phương pháp đánh giá nghiêm ngặt, có thể tái tạo, đo lường độ chính xác truy xuất, chất lượng tạo sinh và tỷ lệ ảo giác trong các triển khai RAG của doanh nghiệp.
* Open RAG Eval đánh giá chất lượng phản hồi thông qua 2 loại chỉ số chính: chỉ số truy xuất và chỉ số tạo sinh, cho phép tổ chức áp dụng đánh giá này cho bất kỳ quy trình RAG nào.
* Phương pháp đánh giá dựa trên "nugget", chia nhỏ các phản hồi thành những thông tin thực tế thiết yếu (nugget), sau đó đo lường mức độ hiệu quả mà hệ thống nắm bắt được các nugget này.
* Framework đánh giá hệ thống RAG qua 4 chỉ số cụ thể: phát hiện ảo giác (đo mức độ nội dung chứa thông tin bịa đặt không được nguồn hỗ trợ), đánh giá trích dẫn, auto nugget (đánh giá sự hiện diện của các nugget thông tin thiết yếu từ nguồn trong phản hồi), và UMBRELA (phương pháp toàn diện để đánh giá hiệu suất retriever).
* Sự đổi mới kỹ thuật của Open RAG Eval nằm ở việc sử dụng các mô hình ngôn ngữ lớn (LLM) và Python với kỹ thuật prompt phức tạp để tự động hóa quy trình đánh giá vốn đòi hỏi nhiều công sức thủ công trước đây.
* So với các framework đánh giá khác như Yourbench của Hugging Face hay Agentic Evaluations của Galileo, Open RAG Eval tập trung mạnh vào toàn bộ quy trình RAG, không chỉ là đầu ra của LLM, và có nền tảng học thuật vững chắc.
* Framework này được xây dựng dựa trên đóng góp trước đó của Vectara cho cộng đồng AI nguồn mở, bao gồm Hughes Hallucination Evaluation Model (HHEM), đã được tải xuống hơn 3.5 triệu lần.
* Jeff Hummel, phó chủ tịch cấp cao về sản phẩm và công nghệ tại công ty bất động sản Anywhere.re, kỳ vọng việc hợp tác với Vectara sẽ giúp công ty ông tinh giản quy trình đánh giá RAG và đưa ra các tính toán mở rộng quy mô có tính dự đoán cao hơn.
* Open RAG Eval giúp các nhà ra quyết định kỹ thuật trả lời các câu hỏi quan trọng về cấu hình RAG, như lựa chọn phương pháp chunking, loại tìm kiếm, LLM sử dụng, tối ưu hóa prompt và đặt ngưỡng phát hiện ảo giác.

📌 Framework nguồn mở Open RAG Eval do Vectara và đại học Waterloo phát triển, giúp đo lường khoa học hiệu suất RAG qua các chỉ số như phát hiện ảo giác và chất lượng trích dẫn, thay thế đánh giá chủ quan. Sử dụng LLM để tự động hóa, framework này hỗ trợ doanh nghiệp tối ưu hóa hệ thống AI bằng dữ liệu.




Nguồn: Songai.vn
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Top