Mô hình AI "lập luận" đang khiến việc đánh giá hiệu năng AI trở nên đắt đỏ hơn

- Các phòng thí nghiệm AI như OpenAI tuyên bố mô hình AI "lập luận" có khả năng vượt trội trong một số lĩnh vực cụ thể như vật lý.

- Theo dữ liệu từ Artificial Analysis, chi phí đánh giá mô hình o1 của OpenAI trên 7 bộ đánh giá phổ biến là 2.767,05 USD.

- Đánh giá Claude 3.7 Sonnet của Anthropic tốn 1.485,35 USD, trong khi o3-mini-high của OpenAI tốn 344,59 USD.

- Trung bình, các mô hình lập luận tốn kém hơn để đánh giá. Artificial Analysis đã chi khoảng 5.200 USD để đánh giá 12 mô hình lập luận, gần gấp đôi chi phí đánh giá hơn 80 mô hình không lập luận (2.400 USD).

- Nguyên nhân chính khiến mô hình lập luận đắt đỏ là chúng tạo ra nhiều token hơn. Mô hình o1 của OpenAI tạo ra hơn 44 triệu token trong quá trình đánh giá, gấp 8 lần GPT-4o.

- Các bộ đánh giá hiện đại thường chứa các câu hỏi phức tạp, nhiều bước, đòi hỏi mô hình tạo nhiều token hơn.

- Chi phí cho mỗi token của các mô hình tốt nhất cũng tăng theo thời gian. Claude 3 Opus có giá 75 USD/triệu token đầu ra, trong khi GPT-4.5 và o1-pro có giá lần lượt là 150 USD và 600 USD/triệu token đầu ra.

- Nhiều phòng thí nghiệm AI cung cấp quyền truy cập miễn phí hoặc được trợ cấp cho các tổ chức đánh giá, nhưng điều này có thể ảnh hưởng đến tính khách quan của kết quả.

- Các chuyên gia lo ngại về khả năng tái tạo kết quả và tính khoa học của các đánh giá khi chi phí quá cao đối với nhiều nhà nghiên cứu độc lập.

Mô hình AI lập luận đang tạo ra thách thức lớn về chi phí đánh giá, với mức giá lên tới 2.767 USD cho một lần kiểm tra. Xu hướng này gây lo ngại về khả năng tái tạo kết quả và tính khoa học của các đánh giá AI trong tương lai.

The rise of AI 'reasoning' models is making benchmarking more expensive | TechCrunch

The rise of AI 'reasoning' models is making benchmarking more expensive, data from Artificial Analysis shows.

techcrunch.com

Nguồn: Songai.vn

Cuộc chạy đua AI trong giáo dục: Mỹ cần phản ứng nhanh trước sáng kiến của Trung Quốc

CEO Nvidia hoá sứ giả hoà bình giữa 'làn đạn' của Mỹ và Trung Quốc

Tesla đột ngột dừng nhận đơn đặt hàng xe điện mới tại thị trường Trung Quốc, sau khi căng thẳng thuế quan leo thang

Hàng loạt xe đối mặt tình cảnh kẹt cứng tại cảng hậu chính sách thuế của Donald Trump

Lô xe máy điện đầu tiên của Honda tới tay giới trẻ Việt

Thị vệ nhà Thanh liều mình cứu Càn Long, phần thưởng gây sốc khiến ai cũng giật mình

Xiaomi tung tai nghe với mức giá rẻ ngỡ ngàng, quyết đối đầu với AirPods

Ông Donald Trump bất ngờ tiết lộ về mối quan hệ với Elon Musk, ai nghe xong cũng mất lòng!

Cả nước sẽ còn bao nhiêu tỉnh và thành phố trực thuộc trung ương?

Đánh giá GameMax Vista COC AB: Thêm một lựa chọn case "bể cá" nhỏ gọn, thoáng mát bất ngờ

Có thể bạn quan tâm

Chủ đề hot

Có thể bạn quan tâm

Mô hình AI "lập luận" đang khiến việc đánh giá hiệu năng AI trở nên đắt đỏ hơn

Sóng AI

Writer

Sóng AI

The rise of AI 'reasoning' models is making benchmarking more expensive | TechCrunch

Công nghệ phát hiện "bản sao" của YouTube: Cuộc chiến chống lại nội dung deepfake

OpenAI chuẩn bị ra mắt GPT-4.1 cùng nhiều mô hình AI mới như o3 và o4 mini

Vì áp lực cạnh tranh, OpenAI giảm thời gian kiểm tra an toàn AI từ nhiều tháng xuống còn vài ngày

Cách quân đội Mỹ sử dụng AI tạo sinh để thu thập và phân tích thông tin tình báo

Hàng triệu công nhân ẩn đằng sau "phép màu AI" đang dần trở nên thừa thãi?

Writer ra mắt nền tảng "AI HQ" giúp doanh nghiệp tự động hóa quy trình công việc phức tạp bằng AI agents