Hoàng Nam
Writer

ChatGPT ra mắt khiến tôi tò mò, và khi nó lập trình được một plugin WordPress hoạt động cho trang web của vợ tôi, tôi thực sự ngạc nhiên. Từ đó, tôi bắt đầu khám phá chatbot và lập trình AI, thử nghiệm 14 mô hình ngôn ngữ lớn (LLM) qua bốn bài kiểm tra thực tế.
Không phải chatbot nào cũng lập trình tốt. Sau gần hai năm, 5 trong số 14 LLM vẫn chưa tạo được plugin hoạt động. Tôi sẽ chia sẻ kết quả từng chatbot và khuyên dùng hai mô hình, dù bản cao cấp của chúng có giá khoảng 500k/tháng. Phiên bản miễn phí vẫn đủ dùng, nhưng các chatbot khác chưa đáng tin cậy để lập trình nghiêm túc.
AI hỗ trợ lập trình khá tốt, nhưng chỉ phù hợp với dự án nhỏ hoặc chỉnh sửa mã, không thể tạo ra toàn bộ ứng dụng. Giờ hãy cùng so sánh hiệu suất của các chatbot!
ChatGPT Plus - Chatbot AI tổng thể tốt nhất cho việc viết mã
Ưu điểm
- Đã vượt qua tất cả các bài kiểm tra
- Kết quả mã hóa vững chắc
- Ứng dụng Mac
- Ảo giác
- Chưa có ứng dụng Windows nào
- Đôi khi không hợp tác
- Giá: $20/tháng
- LLM: GPT-4o, GPT-4, GPT-3.5
- Giao diện trình duyệt máy tính để bàn: Có
- Ứng dụng Mac chuyên dụng: Có
- Ứng dụng Windows chuyên dụng: Không
- Xác thực đa yếu tố: Có
- Bài kiểm tra đã vượt qua: 4 trong số 4
Ngoài ra, Logitech's Prompt Builder, có thể bật lên bằng nút chuột, có thể được thiết lập để sử dụng GPT-4o đã nâng cấp và kết nối với tài khoản OpenAI của bạn, giúp bạn chỉ cần chạm nhẹ để chạy câu lệnh, rất tiện lợi.
Điều duy nhất tôi không thích là một trong những bài kiểm tra GPT-4o đưa ra câu trả lời có hai lựa chọn, và một trong những câu trả lời đó là sai. Tôi muốn nó chỉ đưa ra câu trả lời đúng. Mặc dù vậy, một bài kiểm tra nhanh đã xác nhận câu trả lời nào sẽ hiệu quả. Nhưng vấn đề đó hơi khó chịu. Tôi không gặp vấn đề đó trong GPT-4, vì vậy hiện tại, đó là cài đặt LLM mà tôi sử dụng với ChatGPT khi lập trình.
Perplexity Pro tốt nhất cho việc kiểm tra LLM
Ưu điểm
- Nhiều LLM
- Tiêu chí tìm kiếm được hiển thị
- Nguồn cung cấp tốt
- Chỉ đăng nhập bằng email
- Không có ứng dụng máy tính để bàn
- Giá: $20/tháng
- LLM: GPT-4o, Claude 3.5 Sonnet, Sonar Large, Claude 3 Opus, Llama 3.1 405B
- Giao diện trình duyệt máy tính để bàn: Có
- Ứng dụng Mac chuyên dụng: Không
- Ứng dụng Windows chuyên dụng: Không
- Xác thực đa yếu tố: Không
- Bài kiểm tra đã vượt qua: 4 trong số 4
Điểm khác biệt giữa Perplexity và các công cụ khác là nó có thể chạy nhiều LLM. Mặc dù không thể thiết lập LLM cho một phiên nhất định, bạn có thể dễ dàng vào phần cài đặt và chọn mô hình đang hoạt động.
Đối với lập trình, có lẽ bạn sẽ muốn gắn bó với GPT-4o, vì nó đã vượt qua tất cả các bài kiểm tra của chúng tôi. Nhưng có thể sẽ thú vị khi kiểm tra chéo mã trên các LLM khác nhau. Ví dụ, nếu bạn yêu cầu GPT-4o viết một số mã biểu thức chính quy, bạn có thể cân nhắc chuyển sang một LLM khác để xem LLM đó nghĩ gì về mã được tạo ra.
Như chúng ta sẽ thấy bên dưới, hầu hết các LLM đều không đáng tin cậy, vì vậy đừng coi kết quả là chân lý. Tuy nhiên, bạn có thể sử dụng kết quả để cung cấp cho bạn nhiều thứ hơn để kiểm tra trong mã gốc. Nó giống như một đánh giá mã do AI điều khiển.
Chỉ cần đừng quên chuyển về GPT-4o.
Grok - Chatbot AI tốt nhất dành cho fan X
Ưu điểm
- LLM khác với ChatGPT
- Mô tả tốt
- Truy cập miễn phí
- Chỉ có sẵn ở chế độ trình duyệt
- Truy cập miễn phí có thể chỉ là tạm thời
- Giá: Miễn phí (hiện tại)
- LLM: Grok-1 (Grok-2 và 3 tôi đều chưa thử khi viết bài này)
- Giao diện trình duyệt máy tính để bàn: Có
- Ứng dụng Mac chuyên dụng: Không
- Ứng dụng Windows chuyên dụng: Không
- Xác thực đa yếu tố: Có
- Bài kiểm tra đã vượt qua: 3 trong số 4
Không rõ có bao nhiêu DNA AI của Tesla và SpaceX đã được đưa vào Grok, nhưng chúng ta có thể cho rằng có thể sẽ có nhiều công việc hơn. Hiện tại, Grok là LLM duy nhất không dựa trên LLM OpenAI đã lọt vào danh sách được đề xuất.
Grok đã mắc một lỗi, nhưng đó là lỗi tương đối nhỏ có thể dễ dàng khắc phục bằng một lời nhắc toàn diện hơn một chút. Đúng, nó đã trượt bài kiểm tra. Nhưng bằng cách vượt qua những bài kiểm tra khác, và thậm chí hoàn thành gần như hoàn hảo bài kiểm tra mà nó đã vượt qua, nó đã giành được một vị trí ứng cử viên.
ChatGPT 3.5 - Chatbot AI miễn phí tốt nhất để lập trình
Ưu điểm
- Miễn phí
- Đã vượt qua hầu hết các bài kiểm tra
- Điều chỉnh nhanh chóng
- Có thể cắt ngang bạn giữa chừng bất cứ việc gì bạn đang làm
- Giá: Miễn phí
- LLM: GPT-4o, GPT-3.5
- Giao diện trình duyệt máy tính để bàn: Có
- Ứng dụng Mac chuyên dụng: Có
- Ứng dụng Windows chuyên dụng: Không
- Xác thực đa yếu tố: Có
- Đã vượt qua các bài kiểm tra: 3 trong số 4 ở chế độ GPT-3.5
OpenAI đối xử với người dùng ChatGPT miễn phí như thể họ đang ở những ghế rẻ tiền. Nếu lưu lượng truy cập cao hoặc máy chủ bận, phiên bản miễn phí của ChatGPT sẽ chỉ cung cấp GPT-3.5 cho người dùng miễn phí. Công cụ này sẽ chỉ cho phép bạn một số lượng truy vấn nhất định trước khi hạ cấp hoặc tắt bạn.
Đã có nhiều lần phiên bản miễn phí của ChatGPT thực sự báo cho tôi biết là tôi đã hỏi quá nhiều câu hỏi.
ChatGPT là một công cụ tuyệt vời, miễn là bạn không ngại bị tắt máy đôi khi. Ngay cả GPT-3.5 cũng làm tốt hơn trong các bài kiểm tra so với tất cả các chatbot khác và bài kiểm tra mà nó không vượt qua là đối với một công cụ lập trình khá mơ hồ do một lập trình viên đơn độc ở Úc tạo ra.
Vì vậy, nếu ngân sách là điều quan trọng với bạn và bạn có thể đợi khi hết hạn, hãy dùng ChatGPT miễn phí.
Perplexity free - Chatbot AI miễn phí tốt nhất cho việc lập trình và nghiên cứu
Ưu điểm
- Miễn phí
- Đã vượt qua hầu hết các bài kiểm tra
- Phạm vi các công cụ nghiên cứu
- Giới hạn ở GPT-3.5
- Bướm ga thúc đẩy kết quả
- Giá: Miễn phí
- LLM: GPT-3.5
- Giao diện trình duyệt máy tính để bàn: Có
- Ứng dụng Mac chuyên dụng: Không
- Ứng dụng Windows chuyên dụng: Không
- Xác thực đa yếu tố: Không
- Bài kiểm tra đã vượt qua: 3 trong số 4
Theo quan điểm lập trình, đó là toàn bộ câu chuyện. Nhưng theo quan điểm nghiên cứu và tổ chức, đồng nghiệp ZDNET của tôi là Steven Vaughan-Nichols thích Perplexity hơn các AI khác.
Anh ấy thích cách Perplexity cung cấp nguồn thông tin đầy đủ hơn cho các câu hỏi nghiên cứu, trích dẫn nguồn, sắp xếp các câu trả lời và đưa ra các câu hỏi để tìm kiếm thêm.
Vì vậy, nếu bạn đang lập trình nhưng cũng đang thực hiện các nghiên cứu khác, hãy cân nhắc sử dụng phiên bản miễn phí của Perplexity.
DeepSeek V3 - Chatbot mã nguồn mở tốt nhất hoạt động tốt nhất
Ưu điểm
- Miễn phí
- Nguồn mở
- Sử dụng tài nguyên hiệu quả
- Kiến thức chung yếu
- Hệ sinh thái nhỏ
- Tích hợp hạn chế
- Giá: Miễn phí cho chatbot, phí cho API
- LLM: DeepSeek MoE
- Giao diện trình duyệt máy tính để bàn: Có
- Ứng dụng Mac chuyên dụng: Không
- Ứng dụng Windows chuyên dụng: Không
- Xác thực đa yếu tố: Không
- Bài kiểm tra đã vượt qua: 3 trong số 4
Điểm yếu của DeepSeek V3 là kiến thức về các môi trường lập trình ít được biết đến hơn. Tuy nhiên, nó đã đánh bại Gemini của Google, Copilot của Microsoft và Meta AI của Meta, đây là một thành tựu khá lớn. Chúng tôi sẽ theo dõi chặt chẽ từng mô hình DeepSeek, vì vậy hãy chú ý theo dõi.
Chatbots cần tránh khi tìm kiếm trợ giúp lập trình
Tôi đã thử nghiệm 14 mô hình LLM, trong đó bảy mô hình vượt qua hầu hết các bài kiểm tra của tôi. Các chatbot khác, bao gồm một số chatbot vốn được đánh giá cao trong lập trình, chỉ vượt qua một bài kiểm tra duy nhất. Đáng chú ý, Microsoft Copilot không vượt qua bất kỳ bài kiểm tra nào.
Tôi đề cập đến những chatbot này vì nhiều người sẽ thắc mắc, và tôi đã kiểm tra chúng một cách kỹ lưỡng. Một số bot có thể hoạt động tốt trong những lĩnh vực khác, nên nếu bạn chỉ tò mò về khả năng của chúng, tôi sẽ cung cấp những đánh giá tổng quát.
DeepSeek R1
Không giống như DeepSeek V3, phiên bản nâng cao DeepSeek R1 không thể hiện được khả năng suy luận khi đối mặt với các bài kiểm tra lập trình. Đáng ngạc nhiên là lỗi phát sinh không phải là một vấn đề quá phức tạp, ngay cả với một AI cơ bản – đó chỉ là việc xử lý biểu thức chính quy trong bài kiểm tra về hàm chuỗi.Đây chính là lý do tại sao chúng tôi tiến hành các thử nghiệm thực tế này. Không thể đoán trước khi nào AI sẽ mắc lỗi hoặc đưa ra kết quả không chính xác. Trước khi tin vào những lời ca ngợi về việc DeepSeek R1 có thể vượt mặt ChatGPT, hãy tự mình kiểm tra nó với các bài toán lập trình. Cho đến hiện tại, dù tôi ấn tượng với khả năng sử dụng tài nguyên hiệu quả hơn và tính mã nguồn mở của nó, nhưng chất lượng mã đầu ra vẫn chưa ổn định.
GitHub Copilot
GitHub Copilot tích hợp rất tốt với VS Code, giúp lập trình viên có thể nhận được gợi ý mã nhanh chóng và thuận tiện, đặc biệt trong ngữ cảnh công việc. Tuy nhiên, điều đáng tiếc là mã mà nó tạo ra thường chứa nhiều lỗi.Tôi không thể khuyến nghị sử dụng GitHub Copilot cho VS Code vào lúc này. Việc chỉ chèn các đoạn mã do AI tạo ra mà không kiểm tra kỹ lưỡng có thể gây ra rủi ro lớn – và Copilot hiện tại vẫn chưa đạt mức độ đáng tin cậy để sử dụng trong môi trường sản xuất. Có lẽ nên thử lại vào năm sau.
Meta AI
Meta AI, trợ lý AI đa năng của Facebook, không thể vượt qua ba trong bốn bài kiểm tra lập trình mà tôi thực hiện.Dù AI này có thể tạo ra giao diện người dùng bắt mắt, nhưng nó lại không cung cấp chức năng thực tế. Tuy nhiên, điểm đáng chú ý là nó có thể phát hiện một lỗi lập trình khá tinh vi của tôi – điều không phải AI nào cũng làm được. Vì vậy, tôi khá bất ngờ khi nó lại thất bại trong một bài kiểm tra đơn giản về biểu thức chính quy.
Meta Code Llama
Meta Code Llama là AI của Facebook được thiết kế riêng để hỗ trợ lập trình. Tôi đã thử nghiệm nó trên nền tảng Hugging Face.Điều kỳ lạ là dù cả Meta AI và Meta Code Llama đều thất bại trong ba trong số bốn bài kiểm tra, nhưng chúng lại mắc lỗi ở những bài khác nhau. AI không thể đưa ra cùng một câu trả lời hai lần, và điều này khiến tôi bất ngờ. Có thể trong tương lai, hiệu suất của nó sẽ được cải thiện.
Claude 3.5 Sonnet
Anthropic quảng bá Claude 3.5 Sonnet là một chatbot lý tưởng cho lập trình. Tuy nhiên, sau khi chỉ vượt qua duy nhất một trong bốn bài kiểm tra, tôi không hoàn toàn đồng tình với nhận định đó.Nếu mục tiêu không phải là lập trình, Claude có thể là một lựa chọn tốt hơn so với phiên bản miễn phí của ChatGPT. Theo đồng nghiệp Maria Diaz tại ZDNET, Claude có thể xử lý các tệp tải lên, làm việc với nhiều văn bản hơn GPT-3.5, cung cấp thông tin mới hơn khoảng một năm so với GPT-3.5 và có khả năng truy cập web.
Gemini Advanced
Gemini Advanced là phiên bản cao cấp (20 USD/tháng) của chatbot Gemini do Google phát triển. Tôi kỳ vọng nó sẽ đạt kết quả tốt hơn, nhưng nó cũng chỉ vượt qua một trong bốn bài kiểm tra.Điều đáng ngạc nhiên là bài kiểm tra mà nó vượt qua lại là về một ngôn ngữ lập trình ít người biết đến, do một lập trình viên ở Úc phát triển. Nếu nó có thể xử lý ngôn ngữ hiếm này, tại sao lại không thể giải quyết những bài toán lập trình cơ bản hay các vấn đề về biểu thức chính quy?
Microsoft Copilot
Microsoft vốn nổi tiếng với các công cụ hỗ trợ lập trình hàng đầu. Vì vậy, tôi đã kỳ vọng Copilot sẽ có kết quả tốt hơn. Tuy nhiên, trên thực tế, nó lại thể hiện rất kém trong các bài kiểm tra.Điểm tích cực duy nhất là Microsoft luôn không ngừng cải thiện sản phẩm của mình. Tôi sẽ kiểm tra lại trong tương lai để xem liệu Copilot có tiến bộ hay không.
Lưu ý quan trọng: Các AI tiến bộ rất nhanh, nên tôi sẽ cập nhật thường xuyên danh sách này, các bạn có thể quay lại theo dõi để update nha (ZDnet)