Đề thi nội bộ của Anthropic bị lộ: Khi kỹ sư triệu đô cũng thua AI

Thoại Viết Hoàng · 23/01/2026

Một cột mốc đáng chú ý vừa xảy ra trong giới AI. Anthropic đã buộc phải “khai tử” bài kiểm tra tuyển dụng kỹ sư nổi tiếng khó nhằn của mình sau khi Claude Opus 4.5 thể hiện khả năng vượt trội so với hầu hết lập trình viên con người, kể cả những người có thu nhập hàng triệu USD mỗi năm.

Bài kiểm tra này từng được xem là “pháo đài cuối cùng” để phân loại kỹ sư hiệu năng cao. Ứng viên làm bài tại nhà, trong vài giờ, với nhiệm vụ tối ưu mã ở mức rất thấp, liên quan đến song song đa lõi, SIMD, kiến trúc VLIW và phân tích hiệu năng bằng Perfetto. Trong suốt một thời gian dài, đề thi này giúp Anthropic lọc hàng nghìn hồ sơ xuống chỉ còn vài chục kỹ sư thực sự xuất sắc.

Mọi chuyện chỉ thay đổi khi Claude Opus 4.5 xuất hiện.

Địa chỉ: https://github.com/anthropics/original_performance_takehome

Với mô hình mới, những gì từng đòi hỏi nhiều năm kinh nghiệm giờ có thể được giải quyết nhanh chóng, có hệ thống và thậm chí tốt hơn con người trong cùng khoảng thời gian. Claude không chỉ làm đúng, mà còn biết ưu tiên xử lý các nút thắt lớn trước, sau đó tinh chỉnh dần như một kỹ sư kỳ cựu. Đáng nói hơn, khi được cho thêm thời gian “suy nghĩ”, điểm số của Claude còn tiếp tục tăng.

Điều này khiến bài kiểm tra viết truyền thống gần như mất tác dụng. Anthropic nhận ra rằng, trong điều kiện phỏng vấn có giới hạn thời gian, họ không còn khả năng phân biệt đâu là ứng viên xuất sắc, đâu là AI mạnh nhất.

Thay vì cấm AI, Anthropic chọn cách đối diện thẳng. Họ công khai toàn bộ bộ đề cũ lên GitHub, coi đó như một thử thách mở cho cộng đồng. Thông điệp rất rõ ràng: nếu ai có thể vượt qua thành tích tốt nhất của Claude Opus 4.5, hãy liên hệ trực tiếp.

Song song đó, Anthropic cũng thừa nhận một sự thật khó nuốt. Trong kỷ nguyên AI, các bài kiểm tra “giống công việc thật” lại chính là thứ dễ bị AI đánh bại nhất, vì mô hình đã được huấn luyện trên vô số tình huống tương tự. Muốn kiểm tra con người, họ buộc phải đi theo hướng ngược lại: tạo ra những bài toán kỳ lạ, ít dữ liệu huấn luyện, thậm chí kém thực tế hơn.

Nói cách khác, “tính hiện thực” trong tuyển dụng kỹ sư đang dần trở thành một thứ xa xỉ.

Câu hỏi lớn mà Anthropic để ngỏ không chỉ dành cho riêng họ, mà cho cả ngành công nghệ:
Khi AI đã làm bài test giỏi hơn con người, chúng ta sẽ đánh giá năng lực kỹ sư bằng cách nào?

Và có lẽ, đây mới chỉ là khởi đầu.

Đề thi nội bộ của Anthropic bị lộ: Khi kỹ sư triệu đô cũng thua AI

Thoại Viết Hoàng✔

Writer

Thành viên mới đăng

Điện Máy Xanh đạt doanh thu và lợi nhuận kỷ lục, sẵn sàng “lên sàn” HOSE

Vì sao Trung Quốc chính thức "khai tử" đèn LED màu xanh trên xe điện?

Chính thức khởi động DENSO Factory Hacks 2026: Sân chơi giải bài toán nhà máy thông minh cho giới trẻ Việt

Nexon công bố vòng chung kết cuộc thi AI "NYPC 2026": nhiều đội Việt Nam giành vé đến Seoul

Hàng loạt đại học lớn ở Hàn Quốc hủy điểm thi vì sinh viên dùng AI gian lận, phải quay lại thi viết tay

Miệng nói "bóng đá không phải để bán", nhưng FIFA quyết tâm bán cổ phần thương mại World Cup

Ra mắt DUV tự làm, AI tiệm cận Mỹ và IPO chip nhớ: Đột phá dồn dập nhưng vì sao cổ phiếu công nghệ Trung Quốc vẫn đỏ sàn?

El Nino đợt này có thể mạnh nhất 150 năm qua: 2027 đối mặt nguy cơ thành năm nóng kỷ lục

Đánh giá nổi bật