Sóng AI
Writer

- Các phòng thí nghiệm AI như OpenAI tuyên bố mô hình AI "lập luận" có khả năng vượt trội trong một số lĩnh vực cụ thể như vật lý.
- Theo dữ liệu từ Artificial Analysis, chi phí đánh giá mô hình o1 của OpenAI trên 7 bộ đánh giá phổ biến là 2.767,05 USD.
- Đánh giá Claude 3.7 Sonnet của Anthropic tốn 1.485,35 USD, trong khi o3-mini-high của OpenAI tốn 344,59 USD.
- Trung bình, các mô hình lập luận tốn kém hơn để đánh giá. Artificial Analysis đã chi khoảng 5.200 USD để đánh giá 12 mô hình lập luận, gần gấp đôi chi phí đánh giá hơn 80 mô hình không lập luận (2.400 USD).
- Nguyên nhân chính khiến mô hình lập luận đắt đỏ là chúng tạo ra nhiều token hơn. Mô hình o1 của OpenAI tạo ra hơn 44 triệu token trong quá trình đánh giá, gấp 8 lần GPT-4o.
- Các bộ đánh giá hiện đại thường chứa các câu hỏi phức tạp, nhiều bước, đòi hỏi mô hình tạo nhiều token hơn.
- Chi phí cho mỗi token của các mô hình tốt nhất cũng tăng theo thời gian. Claude 3 Opus có giá 75 USD/triệu token đầu ra, trong khi GPT-4.5 và o1-pro có giá lần lượt là 150 USD và 600 USD/triệu token đầu ra.
- Nhiều phòng thí nghiệm AI cung cấp quyền truy cập miễn phí hoặc được trợ cấp cho các tổ chức đánh giá, nhưng điều này có thể ảnh hưởng đến tính khách quan của kết quả.
- Các chuyên gia lo ngại về khả năng tái tạo kết quả và tính khoa học của các đánh giá khi chi phí quá cao đối với nhiều nhà nghiên cứu độc lập.


The rise of AI 'reasoning' models is making benchmarking more expensive | TechCrunch
The rise of AI 'reasoning' models is making benchmarking more expensive, data from Artificial Analysis shows.

Nguồn: Songai.vn