Meta bị tố "gian lận" trong cuộc đua AI: Phiên bản Maverick trên LM Arena khác biệt so với bản công khai

- Meta vừa phát hành mô hình AI mới có tên Maverick, xếp hạng thứ hai trên LM Arena - một bài kiểm tra do con người đánh giá và so sánh đầu ra của các mô hình.

- Các nhà nghiên cứu AI phát hiện phiên bản Maverick trên LM Arena khác với phiên bản công khai dành cho nhà phát triển.

- Meta thừa nhận đã sử dụng "phiên bản trò chuyện thử nghiệm" của Maverick trên LM Arena.

- Trang web chính thức của Llama tiết lộ Meta đã sử dụng "Llama 4 Maverick được tối ưu hóa cho khả năng hội thoại" trong quá trình kiểm tra LM Arena.

- LM Arena vốn không phải thước đo đáng tin cậy nhất về hiệu suất của mô hình AI, nhưng các công ty AI thường không tùy chỉnh mô hình để đạt điểm cao hơn trên nền tảng này.

- Việc tối ưu hóa mô hình cho một benchmark cụ thể, giữ kín và sau đó phát hành phiên bản "vanilla" gây khó khăn cho nhà phát triển trong việc dự đoán hiệu suất thực tế của mô hình.

- Các nhà nghiên cứu nhận thấy sự khác biệt rõ rệt giữa phiên bản Maverick có thể tải xuống công khai và phiên bản trên LM Arena.

- Phiên bản LM Arena sử dụng nhiều emoji và đưa ra câu trả lời dài dòng hơn.

- Hành động này của Meta bị coi là gây hiểu lầm, vì các benchmark lẽ ra phải cung cấp bức tranh tổng quan về điểm mạnh và điểm yếu của một mô hình duy nhất trong nhiều tác vụ khác nhau.

Meta gây tranh cãi khi sử dụng phiên bản tối ưu của Maverick trên LM Arena, khác biệt so với bản công khai. Điều này gây khó khăn cho việc đánh giá hiệu suất thực tế của mô hình và làm dấy lên câu hỏi về tính minh bạch trong cuộc đua AI.

Meta's benchmarks for its new AI models are a bit misleading | TechCrunch

Meta appears to have used an unreleased, custom version of one of its new flagship AI models, Maverick, to boost a benchmark score.

techcrunch.com

Nguồn: Songai.vn

Chiến lược "mua hoặc chôn vùi" của Facebook qua lời kể của chính Mark Zuckerberg

Epson chính thức phát động cuộc thi ảnh toàn cảnh quốc tế lần thứ 16 – Epson International Pano Awards: giải thưởng lên tới 1,3 tỷ đồng

Vì sao các nước khó tự phát triển mạng lưới phân phối nội dung CDN?

Samsung mời giới trẻ đến hóa thân thành sĩ tử xưa tại Văn Miếu - Quốc Tử Giám

Có thể bạn quan tâm

Chủ đề hot

Có thể bạn quan tâm

Meta bị tố "gian lận" trong cuộc đua AI: Phiên bản Maverick trên LM Arena khác biệt so với bản công khai

Sóng AI

Writer

Sóng AI

Meta's benchmarks for its new AI models are a bit misleading | TechCrunch

Mọi trung tâm dữ liệu AI tại Mỹ đều dễ bị gián điệp Trung Quốc tấn công

Trung Quốc bổ sung 29 ngành đại học mới về AI và công nghệ tiên tiến, giải quyết thiếu hụt 5 triệu nhân lực AI

AI ngày càng phân biệt tuổi tác, nguy cơ doanh nghiệp mất cả thế hệ kinh nghiệm

Israel trở thành quốc gia đầu tiên áp dụng gia sư AI tạo sinh cho toàn bộ học sinh

OpenAI cho rằng tìm kiếm là yếu tố quan trọng với OpenAI trong phiên tòa chống độc quyền với Google

Google lấy lại vị trí dẫn đầu thị trường LLM nhờ Gemini 2.5 Pro

Chiến lược "mua hoặc chôn vùi" của Facebook qua lời kể của chính Mark Zuckerberg

Epson chính thức phát động cuộc thi ảnh toàn cảnh quốc tế lần thứ 16 – Epson International Pano Awards: giải thưởng lên tới 1,3 tỷ đồng

Giá vàng hôm nay giảm mạnh, phải về dưới 115 triệu mới đúng!

Mỹ áp thuế lên tới 3.403% đối với pin mặt trời từ Đông Nam Á

TP-Link tư vấn 5 cách bảo vệ bộ định tuyến khỏi tin tặc

Vì sao các nước khó tự phát triển mạng lưới phân phối nội dung CDN?

Mọi trung tâm dữ liệu AI tại Mỹ đều dễ bị gián điệp Trung Quốc tấn công

Trung Quốc bổ sung 29 ngành đại học mới về AI và công nghệ tiên tiến, giải quyết thiếu hụt 5 triệu nhân lực AI

AI ngày càng phân biệt tuổi tác, nguy cơ doanh nghiệp mất cả thế hệ kinh nghiệm

Samsung mời giới trẻ đến hóa thân thành sĩ tử xưa tại Văn Miếu - Quốc Tử Giám

Đánh giá nổi bật