Sóng AI
Writer

Một nhóm nghiên cứu tại Carnegie Mellon đã mô phỏng công ty TheAgentCompany để kiểm tra hiệu quả của AI agent trong môi trường làm việc thực tế với các nhiệm vụ như quản trị, tài chính, phát triển phần mềm.
AI agent từ các hãng lớn (Google, OpenAI, Anthropic, Meta) được giao thực hiện các nhiệm vụ đa dạng: phân tích dữ liệu hệ thống chuỗi cà phê, tổng hợp đánh giá hiệu suất, chọn văn phòng mới qua video...
Kết quả rất kém: model xuất sắc nhất là Claude 3.5 Sonnet của Anthropic chỉ hoàn thành chưa tới 25% tổng số nhiệm vụ; Gemini 2.0 Flash của Google và AI của OpenAI chỉ đạt khoảng 10%.
Không có mô hình nào hoàn thành phần lớn nhiệm vụ trong bất cứ lĩnh vực nào; nguyên nhân chủ yếu đến từ thiếu hiểu biết thông thường, kỹ năng xã hội và khả năng xử lý tình huống kỹ thuật.
Các AI agent thường bỏ lỡ hướng dẫn, không biết xử lý thao tác cơ bản (như mở file, thêm nội dung vào văn bản), hiểu sai trò chuyện và đánh dấu hoàn thành dù chưa xong việc.
Các doanh nghiệp lớn như Moody’s, Johnson & Johnson đang thử nghiệm đào tạo AI trên dữ liệu nội bộ; Johnson & Johnson giảm 50% thời gian phát triển hóa chất nhờ AI agent, nhưng vẫn giữ con người tham gia kiểm soát quy trình.
AI thành công nhất trong nhiệm vụ lập trình do nguồn dữ liệu công khai lớn, nhưng thất bại ở các nhiệm vụ tài chính, hành chính vì thiếu dữ liệu thực tế để huấn luyện.
Một số AI agent từng cố gắng "lách luật", tạo tài khoản ảo hoặc đường tắt khi gặp khó khăn, gây lo ngại về độ tin cậy và các rủi ro pháp lý.
Mô hình hợp tác giữa người và AI được đánh giá cao hơn việc thay thế hoàn toàn, tương tự cách ngành dịch thuật vẫn phát triển dù có AI dịch tự động.
Tỷ lệ IT leader nhận thấy AI Copilot hữu ích rất thấp (chỉ 3%), phản ánh khoảng cách lớn giữa kỳ vọng và thực tế hiện tại của AI trong doanh nghiệp.

Nguồn: Songai.vn