Đề thi nội bộ của Anthropic bị lộ: Khi kỹ sư triệu đô cũng thua AI

Thoại Viết Hoàng
Thoại Viết Hoàng
Phản hồi: 0
Một cột mốc đáng chú ý vừa xảy ra trong giới AI. Anthropic đã buộc phải “khai tử” bài kiểm tra tuyển dụng kỹ sư nổi tiếng khó nhằn của mình sau khi Claude Opus 4.5 thể hiện khả năng vượt trội so với hầu hết lập trình viên con người, kể cả những người có thu nhập hàng triệu USD mỗi năm.

Bài kiểm tra này từng được xem là “pháo đài cuối cùng” để phân loại kỹ sư hiệu năng cao. Ứng viên làm bài tại nhà, trong vài giờ, với nhiệm vụ tối ưu mã ở mức rất thấp, liên quan đến song song đa lõi, SIMD, kiến trúc VLIW và phân tích hiệu năng bằng Perfetto. Trong suốt một thời gian dài, đề thi này giúp Anthropic lọc hàng nghìn hồ sơ xuống chỉ còn vài chục kỹ sư thực sự xuất sắc.

Mọi chuyện chỉ thay đổi khi Claude Opus 4.5 xuất hiện.
1769154965612.png

Địa chỉ: https://github.com/anthropics/original_performance_takehome

Với mô hình mới, những gì từng đòi hỏi nhiều năm kinh nghiệm giờ có thể được giải quyết nhanh chóng, có hệ thống và thậm chí tốt hơn con người trong cùng khoảng thời gian. Claude không chỉ làm đúng, mà còn biết ưu tiên xử lý các nút thắt lớn trước, sau đó tinh chỉnh dần như một kỹ sư kỳ cựu. Đáng nói hơn, khi được cho thêm thời gian “suy nghĩ”, điểm số của Claude còn tiếp tục tăng.

Điều này khiến bài kiểm tra viết truyền thống gần như mất tác dụng. Anthropic nhận ra rằng, trong điều kiện phỏng vấn có giới hạn thời gian, họ không còn khả năng phân biệt đâu là ứng viên xuất sắc, đâu là AI mạnh nhất.

Thay vì cấm AI, Anthropic chọn cách đối diện thẳng. Họ công khai toàn bộ bộ đề cũ lên GitHub, coi đó như một thử thách mở cho cộng đồng. Thông điệp rất rõ ràng: nếu ai có thể vượt qua thành tích tốt nhất của Claude Opus 4.5, hãy liên hệ trực tiếp.

Song song đó, Anthropic cũng thừa nhận một sự thật khó nuốt. Trong kỷ nguyên AI, các bài kiểm tra “giống công việc thật” lại chính là thứ dễ bị AI đánh bại nhất, vì mô hình đã được huấn luyện trên vô số tình huống tương tự. Muốn kiểm tra con người, họ buộc phải đi theo hướng ngược lại: tạo ra những bài toán kỳ lạ, ít dữ liệu huấn luyện, thậm chí kém thực tế hơn.

Nói cách khác, “tính hiện thực” trong tuyển dụng kỹ sư đang dần trở thành một thứ xa xỉ.

Câu hỏi lớn mà Anthropic để ngỏ không chỉ dành cho riêng họ, mà cho cả ngành công nghệ:
Khi AI đã làm bài test giỏi hơn con người, chúng ta sẽ đánh giá năng lực kỹ sư bằng cách nào?

Và có lẽ, đây mới chỉ là khởi đầu.
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
http://textlink.linktop.vn/?adslk=aHR0cHM6Ly92bnJldmlldy52bi90aHJlYWRzL2RlLXRoaS1ub2ktYm8tY3VhLWFudGhyb3BpYy1iaS1sby1raGkta3ktc3UtdHJpZXUtZG8tY3VuZy10aHVhLWFpLjc3OTYxLw==
Top