Sóng AI
Writer

- Meta vừa phát hành mô hình AI mới có tên Maverick, xếp hạng thứ hai trên LM Arena - một bài kiểm tra do con người đánh giá và so sánh đầu ra của các mô hình.
- Các nhà nghiên cứu AI phát hiện phiên bản Maverick trên LM Arena khác với phiên bản công khai dành cho nhà phát triển.
- Meta thừa nhận đã sử dụng "phiên bản trò chuyện thử nghiệm" của Maverick trên LM Arena.
- Trang web chính thức của Llama tiết lộ Meta đã sử dụng "Llama 4 Maverick được tối ưu hóa cho khả năng hội thoại" trong quá trình kiểm tra LM Arena.
- LM Arena vốn không phải thước đo đáng tin cậy nhất về hiệu suất của mô hình AI, nhưng các công ty AI thường không tùy chỉnh mô hình để đạt điểm cao hơn trên nền tảng này.
- Việc tối ưu hóa mô hình cho một benchmark cụ thể, giữ kín và sau đó phát hành phiên bản "vanilla" gây khó khăn cho nhà phát triển trong việc dự đoán hiệu suất thực tế của mô hình.
- Các nhà nghiên cứu nhận thấy sự khác biệt rõ rệt giữa phiên bản Maverick có thể tải xuống công khai và phiên bản trên LM Arena.
- Phiên bản LM Arena sử dụng nhiều emoji và đưa ra câu trả lời dài dòng hơn.
- Hành động này của Meta bị coi là gây hiểu lầm, vì các benchmark lẽ ra phải cung cấp bức tranh tổng quan về điểm mạnh và điểm yếu của một mô hình duy nhất trong nhiều tác vụ khác nhau.


Meta's benchmarks for its new AI models are a bit misleading | TechCrunch
Meta appears to have used an unreleased, custom version of one of its new flagship AI models, Maverick, to boost a benchmark score.

Nguồn: Songai.vn