Phạm Thanh Bình
Writer
Vào đêm Halloween, Thung lũng Silicon quyết định thử một trò táo bạo: biến giấc mơ “AI có thể đi làm thay con người” thành hiện thực. Nhưng thay vì được tán thưởng, kết quả lại giống như một buổi diễn hài công sở.
Công ty Scale AI đã mang các mô hình nổi tiếng như GPT-5, Claude, Gemini ra thử việc như những freelancer thật sự. Thay vì làm bài trắc nghiệm hay viết mẫu câu trả lời, những “nhân viên AI” này được giao các dự án thực tế có khách hàng trả tiền thật. Nói cách khác, đây là lần đầu tiên AI được “nhận đơn hàng” và “giao sản phẩm” như một người đi làm bình thường.
Thí nghiệm này được gọi là “Chỉ số Lao động Từ xa” (Remote Labor Index – RLI), được thiết kế để đo xem liệu AI có thật sự làm được việc hay không.
Ví dụ về yêu cầu giao hàng
Kết quả? Một cú tát đau.
Các mô hình AI trông thì bận rộn lắm, nhưng thực tế chẳng làm nên trò trống gì. Mô hình tốt nhất chỉ hoàn thành 6 trong tổng số 240 công việc, kiếm được khoảng 1.720 USD,chưa đến 2% thu nhập trung bình của freelancer thật. Gần một nửa lỗi xuất phát từ việc chất lượng sản phẩm kém, làm việc cẩu thả, thiếu chuyên nghiệp.
Trong thời đại mà AI thi đâu cũng đạt điểm cao chót vót, thí nghiệm này đúng là một cú “dội gáo nước lạnh”. Dù các mô hình lớn tỏ ra cực kỳ thông minh trong bài kiểm tra lý thuyết, nhưng khi bước vào thế giới thực – nơi “trí thông minh” phải biến thành “tiền thật việc thật” – thì chúng vẫn còn rất non nớt.
Và câu hỏi thật sự đặt ra là: nếu phải trả tiền cho kết quả, ai dám thuê AI làm việc? Ít nhất là hiện tại, con đường khả thi nhất vẫn là con người và AI cùng làm với nhau, chứ chưa thể “AI làm thay tất cả”.
AI đi làm thêm: tỉ lệ thành công chỉ 2,5%
Liệu AI có thật sự giúp con người kiếm thêm tiền không? Theo Alexandr Wang, cựu CEO của Scale AI, người trực tiếp dẫn dắt thử nghiệm này, câu trả lời là: “hiếm lắm, và rất hạn chế.”
Để kiểm chứng, Scale AI đã tạo ra chỉ số RLI, trong đó các mô hình AI được đưa vào những công việc thực tế như người lao động thật. Tiêu chí đánh giá rất thực tế:
Những công việc này khá đa dạng: viết bài, làm 3D, dựng video, thiết kế kiến trúc, làm game… tất cả đều độc lập và có mô tả, tài liệu, ví dụ rõ ràng.
Quy trình được mô phỏng y như thật – từ việc đọc yêu cầu, tải file, làm đi làm lại nhiều lần, cho đến nộp bài. Sai ở bất kỳ bước nào cũng tính là thất bại.
Kết quả “vỡ mộng”
Kết quả thật không mấy vui vẻ. Tất cả mô hình AI đều có tỷ lệ hoàn thành công việc dưới 3%.
Những thất bại này cho thấy AI vẫn chưa hiểu thế nào là “chuyên nghiệp”, và cực kỳ yếu khi phải làm việc nhiều bước, nhiều công cụ.
AI không vô dụng, nhưng chỉ giỏi việc đơn giản
Tất nhiên, không phải AI làm gì cũng tệ. Nó vẫn có năng khiếu ở một số loại việc như:
Khi công việc đòi hỏi kết nối nhiều phần mềm, làm đi làm lại, giữ sự thống nhất… AI gần như “tẩu hỏa nhập ma”.
Dù AI có thể làm nhanh, nhưng kết quả thường không đạt yêu cầu thực tế.
Trung bình một người mất khoảng 29 giờ để hoàn thành dự án, còn AI - dù tốn thời gian tính toán tương tự – vẫn cho ra kết quả bị từ chối.
Công việc không bị thay thế, mà đang bị “tháo nhỏ”
RLI chia nhiệm vụ thành 5 cấp độ khó (L1–L5).
Trong hai năm qua, các mô hình AI liên tục đạt điểm tuyệt đối trong các bài kiểm tra như MMLU, SWE-bench, GDP-eval. Nhưng ở đời thật, chúng lại “học giỏi mà làm dở”.
Các công ty không cần “trả lời đúng câu hỏi”, họ cần “sản phẩm có thể giao được”.
Thậm chí, nhiều mô hình đạt điểm cao là vì đã học thuộc bài kiểm tra trong quá trình huấn luyện – khiến điểm số ngày càng xa rời thực tế.
Như Satya Nadella (CEO Microsoft) từng mỉa mai: “Chúng ta tự hào tuyên bố đạt AGI, nhưng thật ra chỉ đang lừa chính cái thước đo của mình.”
Khác với các bài test trí tuệ thông thường, RLI không hỏi “AI có biết hay không”, mà hỏi “AI có làm được việc trọn gói không”. Nó mô phỏng đúng môi trường làm việc thật, nơi khách hàng thay đổi yêu cầu liên tục, file bị lỗi, deadline sát nút… – những thứ không hề xuất hiện trong bài kiểm tra lý thuyết.
Như nhà nghiên cứu Dan Hendrycks nói: “Không có gì phức tạp hơn đời thực. Tiến bộ của AI phải được đo bằng giá trị kinh tế mà nó thật sự tạo ra.”
AI chưa thể tự làm việc - hợp tác vẫn là con đường duy nhất
Thí nghiệm RLI cho thấy, AI gần như chưa thể tự động làm việc độc lập. Những nỗi lo rằng “AI sẽ sớm cướp hết việc làm” hiện vẫn chưa có dữ liệu nào chứng minh.
Tuy nhiên, cấu trúc công việc đang thay đổi. Theo nghiên cứu của Harvard trên 5 triệu doanh nghiệp Mỹ, việc ứng dụng AI khiến nhu cầu tuyển dụng giảm trung bình 7,7% ở các vị trí cấp thấp, nhất là trong các ngành có quy trình lặp lại (bán lẻ, hành chính...).
Công việc tương lai có thể sẽ mô tả kiểu như: “Biết sử dụng AI để hoàn thành 30% công việc hàng ngày và biết đảm bảo phần còn lại hoàn thiện đúng hạn.”
AI đang khiến kỹ năng “chỉ biết làm theo” mất giá, trong khi kỹ năng phối hợp, quản lý quy trình, hiểu và tận dụng AI lại trở thành thứ quan trọng nhất.
AI đã chứng minh rằng nó rất thông minh trên giấy, nhưng chỉ những con người biết cách làm việc cùng AI mới thật sự hoàn thành được công việc trong thế giới thật.
Công ty Scale AI đã mang các mô hình nổi tiếng như GPT-5, Claude, Gemini ra thử việc như những freelancer thật sự. Thay vì làm bài trắc nghiệm hay viết mẫu câu trả lời, những “nhân viên AI” này được giao các dự án thực tế có khách hàng trả tiền thật. Nói cách khác, đây là lần đầu tiên AI được “nhận đơn hàng” và “giao sản phẩm” như một người đi làm bình thường.
Thí nghiệm này được gọi là “Chỉ số Lao động Từ xa” (Remote Labor Index – RLI), được thiết kế để đo xem liệu AI có thật sự làm được việc hay không.
Ví dụ về yêu cầu giao hàng
Kết quả? Một cú tát đau.
Các mô hình AI trông thì bận rộn lắm, nhưng thực tế chẳng làm nên trò trống gì. Mô hình tốt nhất chỉ hoàn thành 6 trong tổng số 240 công việc, kiếm được khoảng 1.720 USD,chưa đến 2% thu nhập trung bình của freelancer thật. Gần một nửa lỗi xuất phát từ việc chất lượng sản phẩm kém, làm việc cẩu thả, thiếu chuyên nghiệp.
Trong thời đại mà AI thi đâu cũng đạt điểm cao chót vót, thí nghiệm này đúng là một cú “dội gáo nước lạnh”. Dù các mô hình lớn tỏ ra cực kỳ thông minh trong bài kiểm tra lý thuyết, nhưng khi bước vào thế giới thực – nơi “trí thông minh” phải biến thành “tiền thật việc thật” – thì chúng vẫn còn rất non nớt.
Và câu hỏi thật sự đặt ra là: nếu phải trả tiền cho kết quả, ai dám thuê AI làm việc? Ít nhất là hiện tại, con đường khả thi nhất vẫn là con người và AI cùng làm với nhau, chứ chưa thể “AI làm thay tất cả”.
AI đi làm thêm: tỉ lệ thành công chỉ 2,5%
Liệu AI có thật sự giúp con người kiếm thêm tiền không? Theo Alexandr Wang, cựu CEO của Scale AI, người trực tiếp dẫn dắt thử nghiệm này, câu trả lời là: “hiếm lắm, và rất hạn chế.”
Để kiểm chứng, Scale AI đã tạo ra chỉ số RLI, trong đó các mô hình AI được đưa vào những công việc thực tế như người lao động thật. Tiêu chí đánh giá rất thực tế:
- Khách hàng có chấp nhận trả tiền hay không?
- Và nền tảng có đánh giá kết quả là “làm việc chuyên nghiệp” hay không?
Những công việc này khá đa dạng: viết bài, làm 3D, dựng video, thiết kế kiến trúc, làm game… tất cả đều độc lập và có mô tả, tài liệu, ví dụ rõ ràng.
Quy trình được mô phỏng y như thật – từ việc đọc yêu cầu, tải file, làm đi làm lại nhiều lần, cho đến nộp bài. Sai ở bất kỳ bước nào cũng tính là thất bại.
Kết quả “vỡ mộng”
Kết quả thật không mấy vui vẻ. Tất cả mô hình AI đều có tỷ lệ hoàn thành công việc dưới 3%.
- Tốt nhất là robot Manus, chỉ đạt 2,5% – tức là hoàn thành được 6 nhiệm vụ.
- GPT-5 đạt 1,7%, Claude Sonnet 4.5 khoảng 2,1%, ChatGPT Agent chỉ 1,3%, còn Gemini 2.5 Pro thì lẹt đẹt ở 0,8%.
- Chất lượng thấp (45,6%) - làm ra sản phẩm trông nghiệp dư, không đạt chuẩn.
- Không hoàn chỉnh hoặc sai định dạng (35,7%) - video lỗi, file thiếu, hình sai tỉ lệ.
- Lỗi kỹ thuật hoặc hỏng file (17,6%).
- Không nhất quán logic hoặc hình ảnh (14,8%), ví dụ các góc máy không khớp, hoặc thông tin mâu thuẫn.
Những thất bại này cho thấy AI vẫn chưa hiểu thế nào là “chuyên nghiệp”, và cực kỳ yếu khi phải làm việc nhiều bước, nhiều công cụ.
AI không vô dụng, nhưng chỉ giỏi việc đơn giản
Tất nhiên, không phải AI làm gì cũng tệ. Nó vẫn có năng khiếu ở một số loại việc như:
- Sáng tạo (tạo logo, hiệu ứng âm thanh, viết nội dung đơn giản)
- Xử lý dữ liệu cơ bản
Khi công việc đòi hỏi kết nối nhiều phần mềm, làm đi làm lại, giữ sự thống nhất… AI gần như “tẩu hỏa nhập ma”.
Dù AI có thể làm nhanh, nhưng kết quả thường không đạt yêu cầu thực tế.
Trung bình một người mất khoảng 29 giờ để hoàn thành dự án, còn AI - dù tốn thời gian tính toán tương tự – vẫn cho ra kết quả bị từ chối.
Công việc không bị thay thế, mà đang bị “tháo nhỏ”
RLI chia nhiệm vụ thành 5 cấp độ khó (L1–L5).
- Ở cấp thấp (L1–L2), như viết mô tả sản phẩm hay sắp xếp dữ liệu, AI có thể làm được 25–30%.
- Nhưng ở cấp cao (L4–L5) – công việc sáng tạo, cần dùng nhiều công cụ – tỷ lệ thành công giảm còn dưới 5%.
Trong hai năm qua, các mô hình AI liên tục đạt điểm tuyệt đối trong các bài kiểm tra như MMLU, SWE-bench, GDP-eval. Nhưng ở đời thật, chúng lại “học giỏi mà làm dở”.
Các công ty không cần “trả lời đúng câu hỏi”, họ cần “sản phẩm có thể giao được”.
Thậm chí, nhiều mô hình đạt điểm cao là vì đã học thuộc bài kiểm tra trong quá trình huấn luyện – khiến điểm số ngày càng xa rời thực tế.
Như Satya Nadella (CEO Microsoft) từng mỉa mai: “Chúng ta tự hào tuyên bố đạt AGI, nhưng thật ra chỉ đang lừa chính cái thước đo của mình.”
Khác với các bài test trí tuệ thông thường, RLI không hỏi “AI có biết hay không”, mà hỏi “AI có làm được việc trọn gói không”. Nó mô phỏng đúng môi trường làm việc thật, nơi khách hàng thay đổi yêu cầu liên tục, file bị lỗi, deadline sát nút… – những thứ không hề xuất hiện trong bài kiểm tra lý thuyết.
Như nhà nghiên cứu Dan Hendrycks nói: “Không có gì phức tạp hơn đời thực. Tiến bộ của AI phải được đo bằng giá trị kinh tế mà nó thật sự tạo ra.”
AI chưa thể tự làm việc - hợp tác vẫn là con đường duy nhất
Thí nghiệm RLI cho thấy, AI gần như chưa thể tự động làm việc độc lập. Những nỗi lo rằng “AI sẽ sớm cướp hết việc làm” hiện vẫn chưa có dữ liệu nào chứng minh.
Tuy nhiên, cấu trúc công việc đang thay đổi. Theo nghiên cứu của Harvard trên 5 triệu doanh nghiệp Mỹ, việc ứng dụng AI khiến nhu cầu tuyển dụng giảm trung bình 7,7% ở các vị trí cấp thấp, nhất là trong các ngành có quy trình lặp lại (bán lẻ, hành chính...).
Công việc tương lai có thể sẽ mô tả kiểu như: “Biết sử dụng AI để hoàn thành 30% công việc hàng ngày và biết đảm bảo phần còn lại hoàn thiện đúng hạn.”
AI đang khiến kỹ năng “chỉ biết làm theo” mất giá, trong khi kỹ năng phối hợp, quản lý quy trình, hiểu và tận dụng AI lại trở thành thứ quan trọng nhất.
AI đã chứng minh rằng nó rất thông minh trên giấy, nhưng chỉ những con người biết cách làm việc cùng AI mới thật sự hoàn thành được công việc trong thế giới thật.