Sao chép ChatGPT chỉ trong 4 giờ và 8.000 dòng mã! Dự án nguồn mở của bậc thầy AI gây chấn động

The Kings
The Kings
Phản hồi: 0

The Kings

Writer
Nanochat không làm rung chuyển thị trường vì sức mạnh, mà vì nó khiến cả thế giới nhận ra ChatGPT không còn là điều huyền bí. Nó gây chấn động trí tuệ, không phải vì công nghệ mới, mà vì đưa sức mạnh đó về tay mọi người: nhanh, rẻ, minh bạch và có thể học được.

Rạng sáng nay 14/10, Andrej Karpathy, một trong những gương mặt nổi bật của giới trí tuệ nhân tạo, đã công bố nanochat, dự án nguồn mở mới được ông mô tả là “điên rồ nhất và tự do nhất” mà mình từng thực hiện.

Khác với nanoGPT, dự án trước đây của ông chỉ dừng lại ở giai đoạn huấn luyện ngôn ngữ cơ bản, nanochat cung cấp toàn bộ quy trình từ xử lý dữ liệu đến giao diện trò chuyện, một phiên bản ChatGPT thu nhỏ, chạy được chỉ với một tập lệnh duy nhất.

Theo Karpathy, người dùng chỉ cần thuê một máy chủ GPU đám mây, chạy tệp speedrun.sh và sau khoảng bốn giờ – với chi phí chừng 100 USD – có thể tự huấn luyện một mô hình ngôn ngữ lớn (LLM) có thể trò chuyện, viết thơ hay trả lời các câu hỏi đơn giản.
1760424383360.png

Một “ChatGPT thu nhỏ” trong 8.000 dòng mã

Nanochat được viết gọn trong khoảng 8.000 dòng mã, bao gồm mọi bước của chu trình xây dựng chatbot:
  • Chuẩn bị dữ liệu từ văn bản thô và mã hóa thành dạng số.
  • Huấn luyện mô hình Transformer để nắm bắt ngữ pháp và lập luận cơ bản.
  • Tinh chỉnh theo hướng dẫn và, tùy chọn, tăng cường học thông qua cơ chế phần thưởng.
  • Đánh giá tự động sau huấn luyện bằng các bài kiểm tra tiêu chuẩn như MMLU, ARC và GSM8K.
Kết quả là một mô hình có thể hoạt động qua giao diện dòng lệnh hoặc web, mang lại trải nghiệm tương tự ChatGPT nhưng ở quy mô nhỏ và dễ kiểm soát hơn.
1760424393635.png

Karpathy cho biết dự án này không nhằm tái tạo sức mạnh của ChatGPT, mà để giáo dục và nghiên cứu. “Nó giúp mọi người hiểu trọn vẹn quy trình từ dữ liệu thô đến chatbot hoàn chỉnh,” ông nói. “Nanochat cho phép thử nghiệm nhanh các kiến trúc và kỹ thuật huấn luyện mới mà không cần hạ tầng khổng lồ.”

Nhiều người dùng trên X (Twitter) nhận xét đây có thể trở thành chuẩn mới để đánh giá phần cứng AI, khi mọi người có thể so sánh hiệu suất bằng ba con số: tổng chi phí huấn luyện, thời gian chạy và điểm số kiểm tra.

“Huấn luyện ChatGPT mini với 100 USD”


Trong bản thử nghiệm được Karpathy công bố, mô hình huấn luyện trong bốn giờ bằng cụm 8 GPU H100 đạt khả năng trò chuyện cơ bản và sáng tác thơ. Nếu mở rộng thời gian lên khoảng 12 giờ, nó có thể vượt GPT-2 trong bài kiểm tra CORE.

Một cấu hình lớn hơn, chi phí khoảng 1.000 USD, giúp mô hình đạt điểm 40 trên MMLU, 70 trên ARC-Easy và 20 trên GSM8K, tương đương quy mô 1/1000 của GPT-3.

Kiến trúc đơn giản, dễ đọc

Karpathy cho biết kiến trúc nanochat lấy cảm hứng từ LLaMA của Meta, với một số điều chỉnh để tối giản: mã hóa vị trí quay (rotary embedding), chuẩn hóa QK Norm, không dùng độ lệch trong các lớp tuyến tính, MLP với hàm kích hoạt ReLU², và cơ chế Multi-Query Attention.
Trình tối ưu hóa là sự kết hợp giữa Muon và AdamW – một lựa chọn mà ông dự định tinh chỉnh thêm.

Mọi dòng mã đều được ông viết thủ công, gần như không sử dụng trợ lý AI. “Tôi đã thử Claude và Codex, nhưng chúng không giúp ích nhiều. Có lẽ phong cách lập trình của tôi quá khác,” ông nói.

Một cánh cửa mở cho cộng đồng

Dù nanochat chỉ tạo ra những mô hình nhỏ “như trẻ mẫu giáo”, theo lời Karpathy, nó mở ra một cách tiếp cận minh bạch hơn với công nghệ đang được các tập đoàn lớn nắm giữ.

Giới nghiên cứu xem đây là một cột mốc quan trọng trong phong trào “AI có thể tái tạo”, cho phép bất kỳ ai, với ngân sách vài trăm đô la, hiểu và tự tay xây dựng nền tảng của một hệ thống hội thoại thông minh.
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Nhận Lắp đặt mái hiên nha trang uy tínChuyên Thi công lợp mái tôn chuyên nghiệp
http://textlink.linktop.vn/?adslk=aHR0cHM6Ly92bnJldmlldy52bi90aHJlYWRzL3Nhby1jaGVwLWNoYXRncHQtY2hpLXRyb25nLTQtZ2lvLXZhLTgtMDAwLWRvbmctbWEtZHUtYW4tbmd1b24tbW8tY3VhLWJhYy10aGF5LWFpLWdheS1jaGFuLWRvbmcuNzEzMDUv
Top