AI lập trình tốt nhất năm 2025 (và những gì không nên sử dụng - bao gồm cả DeepSeek R1)

Hoàng Nam · 10:55

ChatGPT ra mắt khiến tôi tò mò, và khi nó lập trình được một plugin WordPress hoạt động cho trang web của vợ tôi, tôi thực sự ngạc nhiên. Từ đó, tôi bắt đầu khám phá chatbot và lập trình AI, thử nghiệm 14 mô hình ngôn ngữ lớn (LLM) qua bốn bài kiểm tra thực tế.

Không phải chatbot nào cũng lập trình tốt. Sau gần hai năm, 5 trong số 14 LLM vẫn chưa tạo được plugin hoạt động. Tôi sẽ chia sẻ kết quả từng chatbot và khuyên dùng hai mô hình, dù bản cao cấp của chúng có giá khoảng 500k/tháng. Phiên bản miễn phí vẫn đủ dùng, nhưng các chatbot khác chưa đáng tin cậy để lập trình nghiêm túc.

AI hỗ trợ lập trình khá tốt, nhưng chỉ phù hợp với dự án nhỏ hoặc chỉnh sửa mã, không thể tạo ra toàn bộ ứng dụng. Giờ hãy cùng so sánh hiệu suất của các chatbot!
ChatGPT Plus - Chatbot AI tổng thể tốt nhất cho việc viết mã
Ưu điểm

Đã vượt qua tất cả các bài kiểm tra
Kết quả mã hóa vững chắc
Ứng dụng Mac

Nhược điểm

Ảo giác
Chưa có ứng dụng Windows nào
Đôi khi không hợp tác

Chi tiết hơn

Giá: $20/tháng
LLM: GPT-4o, GPT-4, GPT-3.5
Giao diện trình duyệt máy tính để bàn: Có
Ứng dụng Mac chuyên dụng: Có
Ứng dụng Windows chuyên dụng: Không
Xác thực đa yếu tố: Có
Bài kiểm tra đã vượt qua: 4 trong số 4

ChatGPT Plus với GPT-4 và GPT-4o đã vượt qua tất cả các bài kiểm tra của tôi. Một trong những tính năng tôi thích là khả năng sử dụng ứng dụng chuyên dụng. Khi tôi kiểm tra lập trình web, tôi đặt trình duyệt ở một chế độ, mở IDE và chạy ứng dụng ChatGPT Mac trên một màn hình riêng.

Ngoài ra, Logitech's Prompt Builder, có thể bật lên bằng nút chuột, có thể được thiết lập để sử dụng GPT-4o đã nâng cấp và kết nối với tài khoản OpenAI của bạn, giúp bạn chỉ cần chạm nhẹ để chạy câu lệnh, rất tiện lợi.

Điều duy nhất tôi không thích là một trong những bài kiểm tra GPT-4o đưa ra câu trả lời có hai lựa chọn, và một trong những câu trả lời đó là sai. Tôi muốn nó chỉ đưa ra câu trả lời đúng. Mặc dù vậy, một bài kiểm tra nhanh đã xác nhận câu trả lời nào sẽ hiệu quả. Nhưng vấn đề đó hơi khó chịu. Tôi không gặp vấn đề đó trong GPT-4, vì vậy hiện tại, đó là cài đặt LLM mà tôi sử dụng với ChatGPT khi lập trình.
Perplexity Pro tốt nhất cho việc kiểm tra LLM
Ưu điểm

Nhiều LLM
Tiêu chí tìm kiếm được hiển thị
Nguồn cung cấp tốt

Nhược điểm

Chỉ đăng nhập bằng email
Không có ứng dụng máy tính để bàn

Chi tiết hơn

Giá: $20/tháng
LLM: GPT-4o, Claude 3.5 Sonnet, Sonar Large, Claude 3 Opus, Llama 3.1 405B
Giao diện trình duyệt máy tính để bàn: Có
Ứng dụng Mac chuyên dụng: Không
Ứng dụng Windows chuyên dụng: Không
Xác thực đa yếu tố: Không
Bài kiểm tra đã vượt qua: 4 trong số 4

Tôi đã nghiêm túc cân nhắc việc liệt kê Perplexity Pro là chatbot AI tốt nhất cho lập trình, nhưng một lỗi đã khiến nó không có được vị trí hàng đầu: đăng nhập. Perplexity không sử dụng tên người dùng/mật khẩu hoặc mã khóa và không có xác thực đa yếu tố. Tất cả những gì công cụ này làm là gửi cho bạn mã PIN đăng nhập qua email. AI này cũng không có ứng dụng máy tính để bàn riêng, như ChatGPT dành cho máy Mac.
Điểm khác biệt giữa Perplexity và các công cụ khác là nó có thể chạy nhiều LLM. Mặc dù không thể thiết lập LLM cho một phiên nhất định, bạn có thể dễ dàng vào phần cài đặt và chọn mô hình đang hoạt động.
Đối với lập trình, có lẽ bạn sẽ muốn gắn bó với GPT-4o, vì nó đã vượt qua tất cả các bài kiểm tra của chúng tôi. Nhưng có thể sẽ thú vị khi kiểm tra chéo mã trên các LLM khác nhau. Ví dụ, nếu bạn yêu cầu GPT-4o viết một số mã biểu thức chính quy, bạn có thể cân nhắc chuyển sang một LLM khác để xem LLM đó nghĩ gì về mã được tạo ra.
Như chúng ta sẽ thấy bên dưới, hầu hết các LLM đều không đáng tin cậy, vì vậy đừng coi kết quả là chân lý. Tuy nhiên, bạn có thể sử dụng kết quả để cung cấp cho bạn nhiều thứ hơn để kiểm tra trong mã gốc. Nó giống như một đánh giá mã do AI điều khiển.
Chỉ cần đừng quên chuyển về GPT-4o.
Grok - Chatbot AI tốt nhất dành cho fan X
Ưu điểm

LLM khác với ChatGPT
Mô tả tốt
Truy cập miễn phí

Nhược điểm

Chỉ có sẵn ở chế độ trình duyệt
Truy cập miễn phí có thể chỉ là tạm thời

Chi tiết hơn

Giá: Miễn phí (hiện tại)
LLM: Grok-1 (Grok-2 và 3 tôi đều chưa thử khi viết bài này)
Giao diện trình duyệt máy tính để bàn: Có
Ứng dụng Mac chuyên dụng: Không
Ứng dụng Windows chuyên dụng: Không
Xác thực đa yếu tố: Có
Bài kiểm tra đã vượt qua: 3 trong số 4

Tôi phải nói rằng, Grok đã làm tôi ngạc nhiên. Tôi đoán là tôi không kỳ vọng nhiều vào một LLM xuất hiện được gắn vào Mạng xã hội trước đây được gọi là Twitter. Nhưng rồi, X hiện thuộc sở hữu của Elon Musk, và hai công ty của Musk, Tesla và SpaceX, có khả năng AI cao ngất ngưởng.
Không rõ có bao nhiêu DNA AI của Tesla và SpaceX đã được đưa vào Grok, nhưng chúng ta có thể cho rằng có thể sẽ có nhiều công việc hơn. Hiện tại, Grok là LLM duy nhất không dựa trên LLM OpenAI đã lọt vào danh sách được đề xuất.
Grok đã mắc một lỗi, nhưng đó là lỗi tương đối nhỏ có thể dễ dàng khắc phục bằng một lời nhắc toàn diện hơn một chút. Đúng, nó đã trượt bài kiểm tra. Nhưng bằng cách vượt qua những bài kiểm tra khác, và thậm chí hoàn thành gần như hoàn hảo bài kiểm tra mà nó đã vượt qua, nó đã giành được một vị trí ứng cử viên.
ChatGPT 3.5 - Chatbot AI miễn phí tốt nhất để lập trình
Ưu điểm

Miễn phí
Đã vượt qua hầu hết các bài kiểm tra

Nhược điểm

Điều chỉnh nhanh chóng
Có thể cắt ngang bạn giữa chừng bất cứ việc gì bạn đang làm

Chi tiết hơn

Giá: Miễn phí
LLM: GPT-4o, GPT-3.5
Giao diện trình duyệt máy tính để bàn: Có
Ứng dụng Mac chuyên dụng: Có
Ứng dụng Windows chuyên dụng: Không
Xác thực đa yếu tố: Có
Đã vượt qua các bài kiểm tra: 3 trong số 4 ở chế độ GPT-3.5

ChatGPT có sẵn miễn phí cho mọi người. Mặc dù cả phiên bản Plus và miễn phí đều hỗ trợ GPT-4o, đã vượt qua mọi bài kiểm tra lập trình của tôi, nhưng vẫn có những hạn chế khi sử dụng ứng dụng miễn phí.
OpenAI đối xử với người dùng ChatGPT miễn phí như thể họ đang ở những ghế rẻ tiền. Nếu lưu lượng truy cập cao hoặc máy chủ bận, phiên bản miễn phí của ChatGPT sẽ chỉ cung cấp GPT-3.5 cho người dùng miễn phí. Công cụ này sẽ chỉ cho phép bạn một số lượng truy vấn nhất định trước khi hạ cấp hoặc tắt bạn.
Đã có nhiều lần phiên bản miễn phí của ChatGPT thực sự báo cho tôi biết là tôi đã hỏi quá nhiều câu hỏi.
ChatGPT là một công cụ tuyệt vời, miễn là bạn không ngại bị tắt máy đôi khi. Ngay cả GPT-3.5 cũng làm tốt hơn trong các bài kiểm tra so với tất cả các chatbot khác và bài kiểm tra mà nó không vượt qua là đối với một công cụ lập trình khá mơ hồ do một lập trình viên đơn độc ở Úc tạo ra.
Vì vậy, nếu ngân sách là điều quan trọng với bạn và bạn có thể đợi khi hết hạn, hãy dùng ChatGPT miễn phí.
Perplexity free - Chatbot AI miễn phí tốt nhất cho việc lập trình và nghiên cứu
Ưu điểm

Miễn phí
Đã vượt qua hầu hết các bài kiểm tra
Phạm vi các công cụ nghiên cứu

Nhược điểm

Giới hạn ở GPT-3.5
Bướm ga thúc đẩy kết quả

Chi tiết hơn

Giá: Miễn phí
LLM: GPT-3.5
Giao diện trình duyệt máy tính để bàn: Có
Ứng dụng Mac chuyên dụng: Không
Ứng dụng Windows chuyên dụng: Không
Xác thực đa yếu tố: Không
Bài kiểm tra đã vượt qua: 3 trong số 4

Tôi đang đi vào vấn đề khá tế nhị, nhưng vì phiên bản miễn phí của Perplexity AI dựa trên GPT-3.5 nên kết quả thử nghiệm tốt hơn đáng kể so với các chatbot AI khác.
Theo quan điểm lập trình, đó là toàn bộ câu chuyện. Nhưng theo quan điểm nghiên cứu và tổ chức, đồng nghiệp ZDNET của tôi là Steven Vaughan-Nichols thích Perplexity hơn các AI khác.

Anh ấy thích cách Perplexity cung cấp nguồn thông tin đầy đủ hơn cho các câu hỏi nghiên cứu, trích dẫn nguồn, sắp xếp các câu trả lời và đưa ra các câu hỏi để tìm kiếm thêm.

Vì vậy, nếu bạn đang lập trình nhưng cũng đang thực hiện các nghiên cứu khác, hãy cân nhắc sử dụng phiên bản miễn phí của Perplexity.
DeepSeek V3 - Chatbot mã nguồn mở tốt nhất hoạt động tốt nhất
Ưu điểm

Miễn phí
Nguồn mở
Sử dụng tài nguyên hiệu quả

Nhược điểm

Kiến thức chung yếu
Hệ sinh thái nhỏ
Tích hợp hạn chế

Chi tiết hơn

Giá: Miễn phí cho chatbot, phí cho API
LLM: DeepSeek MoE
Giao diện trình duyệt máy tính để bàn: Có
Ứng dụng Mac chuyên dụng: Không
Ứng dụng Windows chuyên dụng: Không
Xác thực đa yếu tố: Không
Bài kiểm tra đã vượt qua: 3 trong số 4

Trong khi DeepSeek R1 là sự nóng bỏng mới từ Trung Quốc được tất cả các chuyên gia đánh giá cao, thì sức mạnh thực sự hiện tại (ít nhất là theo các thử nghiệm của chúng tôi) là DeepSeek V3. Chatbot này đã vượt qua hầu hết các bài kiểm tra mã hóa của chúng tôi, hoạt động tốt như ChatGPT 3.5 (hiện đã ngừng hoạt động).
Điểm yếu của DeepSeek V3 là kiến thức về các môi trường lập trình ít được biết đến hơn. Tuy nhiên, nó đã đánh bại Gemini của Google, Copilot của Microsoft và Meta AI của Meta, đây là một thành tựu khá lớn. Chúng tôi sẽ theo dõi chặt chẽ từng mô hình DeepSeek, vì vậy hãy chú ý theo dõi.
Chatbots cần tránh khi tìm kiếm trợ giúp lập trình

Tôi đã thử nghiệm 14 mô hình LLM, trong đó bảy mô hình vượt qua hầu hết các bài kiểm tra của tôi. Các chatbot khác, bao gồm một số chatbot vốn được đánh giá cao trong lập trình, chỉ vượt qua một bài kiểm tra duy nhất. Đáng chú ý, Microsoft Copilot không vượt qua bất kỳ bài kiểm tra nào.

Tôi đề cập đến những chatbot này vì nhiều người sẽ thắc mắc, và tôi đã kiểm tra chúng một cách kỹ lưỡng. Một số bot có thể hoạt động tốt trong những lĩnh vực khác, nên nếu bạn chỉ tò mò về khả năng của chúng, tôi sẽ cung cấp những đánh giá tổng quát.

DeepSeek R1

Không giống như DeepSeek V3, phiên bản nâng cao DeepSeek R1 không thể hiện được khả năng suy luận khi đối mặt với các bài kiểm tra lập trình. Đáng ngạc nhiên là lỗi phát sinh không phải là một vấn đề quá phức tạp, ngay cả với một AI cơ bản – đó chỉ là việc xử lý biểu thức chính quy trong bài kiểm tra về hàm chuỗi.

Đây chính là lý do tại sao chúng tôi tiến hành các thử nghiệm thực tế này. Không thể đoán trước khi nào AI sẽ mắc lỗi hoặc đưa ra kết quả không chính xác. Trước khi tin vào những lời ca ngợi về việc DeepSeek R1 có thể vượt mặt ChatGPT, hãy tự mình kiểm tra nó với các bài toán lập trình. Cho đến hiện tại, dù tôi ấn tượng với khả năng sử dụng tài nguyên hiệu quả hơn và tính mã nguồn mở của nó, nhưng chất lượng mã đầu ra vẫn chưa ổn định.

GitHub Copilot

GitHub Copilot tích hợp rất tốt với VS Code, giúp lập trình viên có thể nhận được gợi ý mã nhanh chóng và thuận tiện, đặc biệt trong ngữ cảnh công việc. Tuy nhiên, điều đáng tiếc là mã mà nó tạo ra thường chứa nhiều lỗi.

Tôi không thể khuyến nghị sử dụng GitHub Copilot cho VS Code vào lúc này. Việc chỉ chèn các đoạn mã do AI tạo ra mà không kiểm tra kỹ lưỡng có thể gây ra rủi ro lớn – và Copilot hiện tại vẫn chưa đạt mức độ đáng tin cậy để sử dụng trong môi trường sản xuất. Có lẽ nên thử lại vào năm sau.

Meta AI

Meta AI, trợ lý AI đa năng của Facebook, không thể vượt qua ba trong bốn bài kiểm tra lập trình mà tôi thực hiện.

Dù AI này có thể tạo ra giao diện người dùng bắt mắt, nhưng nó lại không cung cấp chức năng thực tế. Tuy nhiên, điểm đáng chú ý là nó có thể phát hiện một lỗi lập trình khá tinh vi của tôi – điều không phải AI nào cũng làm được. Vì vậy, tôi khá bất ngờ khi nó lại thất bại trong một bài kiểm tra đơn giản về biểu thức chính quy.

Meta Code Llama

Meta Code Llama là AI của Facebook được thiết kế riêng để hỗ trợ lập trình. Tôi đã thử nghiệm nó trên nền tảng Hugging Face.

Điều kỳ lạ là dù cả Meta AI và Meta Code Llama đều thất bại trong ba trong số bốn bài kiểm tra, nhưng chúng lại mắc lỗi ở những bài khác nhau. AI không thể đưa ra cùng một câu trả lời hai lần, và điều này khiến tôi bất ngờ. Có thể trong tương lai, hiệu suất của nó sẽ được cải thiện.

Claude 3.5 Sonnet

Anthropic quảng bá Claude 3.5 Sonnet là một chatbot lý tưởng cho lập trình. Tuy nhiên, sau khi chỉ vượt qua duy nhất một trong bốn bài kiểm tra, tôi không hoàn toàn đồng tình với nhận định đó.

Nếu mục tiêu không phải là lập trình, Claude có thể là một lựa chọn tốt hơn so với phiên bản miễn phí của ChatGPT. Theo đồng nghiệp Maria Diaz tại ZDNET, Claude có thể xử lý các tệp tải lên, làm việc với nhiều văn bản hơn GPT-3.5, cung cấp thông tin mới hơn khoảng một năm so với GPT-3.5 và có khả năng truy cập web.

Gemini Advanced

Gemini Advanced là phiên bản cao cấp (20 USD/tháng) của chatbot Gemini do Google phát triển. Tôi kỳ vọng nó sẽ đạt kết quả tốt hơn, nhưng nó cũng chỉ vượt qua một trong bốn bài kiểm tra.

Điều đáng ngạc nhiên là bài kiểm tra mà nó vượt qua lại là về một ngôn ngữ lập trình ít người biết đến, do một lập trình viên ở Úc phát triển. Nếu nó có thể xử lý ngôn ngữ hiếm này, tại sao lại không thể giải quyết những bài toán lập trình cơ bản hay các vấn đề về biểu thức chính quy?

Microsoft Copilot

Microsoft vốn nổi tiếng với các công cụ hỗ trợ lập trình hàng đầu. Vì vậy, tôi đã kỳ vọng Copilot sẽ có kết quả tốt hơn. Tuy nhiên, trên thực tế, nó lại thể hiện rất kém trong các bài kiểm tra.

Điểm tích cực duy nhất là Microsoft luôn không ngừng cải thiện sản phẩm của mình. Tôi sẽ kiểm tra lại trong tương lai để xem liệu Copilot có tiến bộ hay không.
Lưu ý quan trọng: Các AI tiến bộ rất nhanh, nên tôi sẽ cập nhật thường xuyên danh sách này, các bạn có thể quay lại theo dõi để update nha (ZDnet)

Chủ đề hot

Có thể bạn quan tâm