Đây là chàng trai Việt Nam mới chỉ 25 tuổi đã tạo ra bài kiểm tra AI "hóc búa" nhất thế giới hiện nay

Thảo Nông · 08:55

Phan Nguyễn Hoàng Long, 25 tuổi, kỹ sư nghiên cứu về an toàn trí tuệ nhân tạo tại Center for AI Safety (CAIS) ở Mỹ, hiện đang là người đứng đầu dự án Humanity's Last Exam (HLE) - một bài kiểm tra được đánh giá là "hóc búa" nhất thế giới dành cho AI hiện nay. Dự án này, xuất phát từ ý tưởng của tỷ phú Elon Musk, nhằm mục đích đánh giá và theo dõi khả năng của AI, đồng thời ảnh hưởng đến các chính sách về an toàn AI trong tương lai.

z6285317057607-9e766e49f9ae23a-6609-2839-1738601845_jpg_75.jpg

Phan Nguyễn Hoàng Long, chàng trai Việt 25 tuổi tạo ra bài kiểm tra AI "hóc búa" nhất thế giới

HLE bao gồm 3.000 câu hỏi thuộc hơn 100 lĩnh vực, từ Cổ điển học, Sinh thái học đến Toán học, Vật lý... không chỉ kiểm tra kiến thức đơn thuần mà còn thách thức khả năng lý luận và tư duy phản biện của AI. Dự án có sự tham gia của hơn 1.000 giáo sư, chuyên gia từ 500 đại học, tổ chức nghiên cứu hàng đầu thế giới như Stanford, Harvard, Princeton, MIT, Oxford... Tờ The New York Times từng nhận định HLE là bài kiểm tra mà "khi AI vượt qua, chúng ta phải coi chừng".

Hành trình đến với dự án tầm cỡ này của Long bắt đầu từ niềm đam mê với công nghệ thông tin. Sau khi du học Mỹ từ năm 2015, Long theo học ngành Kỹ sư Điện tại Đại học Case Western Reserve. Tuy nhiên, anh sớm nhận ra mình phù hợp với công nghệ thông tin hơn và chuyển sang ngành Khoa học máy tính, tập trung nghiên cứu AI. Long đã dành hai năm miệt mài đọc các bài nghiên cứu mới nhất từ các phòng thí nghiệm lớn như Google DeepMind, đồng thời tự mày mò tái hiện code, thực hiện các nghiên cứu nhỏ và xây dựng các dự án cá nhân về crypto web3 và NFT.

Những nỗ lực này đã giúp Long ghi điểm trong mắt các nhà tuyển dụng và nhận được cơ hội thực tập tại Viện Y tế Mỹ, Samsung, Twitter (nay là X). Tại đây, anh đã có những đóng góp đáng kể, đặc biệt là bài báo nghiên cứu "Áp dụng AI vào xử lý ngôn ngữ tự nhiên trong sinh học tại Viện Y tế Mỹ". Trịnh Hoàng Triều, nhà nghiên cứu tại Google DeepMind, người bạn và cũng là "mentor" của Long, đánh giá cao khả năng chuyên sâu về công nghệ, kỹ thuật, khả năng làm việc nhóm, nắm bắt và phản biện xu hướng mới, đặc biệt là đam mê và sự chăm chỉ của Long.

Độ chính xác của các mô hình AI hàng đầu hiện nay khi được thử sức với bài kiểm tra do Phan Nguyễn Hoàng Long tạo ra

Tốt nghiệp đại học năm 2022 với hơn 10 bài báo nghiên cứu, Long gia nhập CAIS vào năm 2023, tham gia giải quyết các bài toán lớn về an toàn AI. Dù nhận được nhiều lời mời từ các công ty lớn, Long quyết định ở lại CAIS để học hỏi từ Dan Hendrycks - cố vấn tại xAI và Scale AI của tỷ phú Elon Musk, kiêm giám đốc CAIS.

Năm 2024, Long được giao trọng trách dẫn dắt dự án HLE. Đây là một thách thức lớn khi anh phải tổng quát nhiều mảng kiến thức, làm việc với những giáo sư, chuyên gia hàng đầu thế giới và đảm bảo chất lượng của từng câu hỏi. Long chia sẻ, anh đã phải tự học thêm rất nhiều kiến thức Toán, Lý, Hóa, đồng thời học cách điều phối công việc hiệu quả.

Gần đây, mô hình o3-mini của OpenAI đã đạt được 13% trên HLE và sau đó tăng lên 26,6% với sự hỗ trợ từ Deep Research và Python. Trước đó, chưa mô hình nào vượt qua 10%. Long và các cộng sự dự đoán các mô hình AI có thể vượt qua 50% bài kiểm tra trước cuối năm nay. Anh cho rằng HLE là một thước đo quan trọng cho AI trước khi chúng được áp dụng vào các lĩnh vực đòi hỏi kỹ năng cao hơn.

Chia sẻ về bí quyết thành công, Long nhấn mạnh tầm quan trọng của sự chuẩn bị kỹ càng, niềm đam mê, sự bền bỉ, nhất quán và tinh thần không bỏ cuộc. Anh cũng khuyên các bạn trẻ có hứng thú với AI nên chủ động tìm hiểu và không ngại học hỏi, dù xuất phát điểm chưa có nhiều kiến thức.

Có thể bạn quan tâm

Đây là chàng trai Việt Nam mới chỉ 25 tuổi đã tạo ra bài kiểm tra AI "hóc búa" nhất thế giới hiện nay

Thảo Nông

Writer

Thảo Nông

Deep Reseach phá vỡ kỷ lục về kỳ thi AI khó nhất thế giới, bỏ xa ChatGPT o3-mini và DeepSeek

ChatGPT-4 so với ChatGPT-3.5: Nên sử dụng cái nào?

Bước nhảy vọt của AI: vượt mặt "mẹ Thiên Nhiên", rút ngắn 500 triệu năm tiến hóa protein chỉ trong nháy mắt

Sau Huawei, AI DeepSeek lọt tầm ngắm của Mỹ

'Kỳ thi cuối cùng của loài người' là gì? Bạn dám thử không?

Deep Reseach phá vỡ kỷ lục về kỳ thi AI khó nhất thế giới, bỏ xa ChatGPT o3-mini và DeepSeek

CSGT cả nước từ nay đến hết năm tập trung xử lý 6 nhóm lỗi sau

USAID thông báo tất cả nhân viên sẽ được cho nghỉ

ChatGPT-4 so với ChatGPT-3.5: Nên sử dụng cái nào?

"Cuồng" tập thể hình nhưng lại thiếu phòng gym: Nghịch lý ở đất nước "cuồng" tập gym bậc nhất châu Á

Bước nhảy vọt của AI: vượt mặt "mẹ Thiên Nhiên", rút ngắn 500 triệu năm tiến hóa protein chỉ trong nháy mắt

Bill Gates bảo vệ USAID, nói Trump, Musk cắt giảm USAID có thể gây ra 'hàng triệu ca tử vong'

BÙM! CIA đề nghị "mua lại" toàn bộ lực lượng lao động của mình

Những lỗ hổng chết người có thể xoay chuyển cục diện chiến trường của Nga và Ukraine

Đánh giá nổi bật