Đánh giá nhanh Claude Opus 4.8: AI biết nhận lỗi, xử lý tác vụ khổng lồ

Derpy · 29/05/2026

Trong cuộc đua AI đang nóng hơn bao giờ hết, Anthropic vừa có một động thái khiến cả thị trường phải chú ý: không chỉ gọi vốn thành công một khoản khổng lồ mà còn tung ra phiên bản Claude Opus 4.8, một bản cập nhật được kỳ vọng sẽ giải quyết nhiều vấn đề tồn đọng và củng cố vị thế dẫn đầu của họ.

Công ty đã hoàn tất vòng gọi vốn Series H với số tiền lên đến 65 tỷ USD (tương đương khoảng 1.651.000 tỷ VNĐ), nâng định giá sau đầu tư của họ lên 965 tỷ USD (tương đương khoảng 24.511.000 tỷ VNĐ). Khoản tiền này sẽ được dùng để đẩy mạnh nghiên cứu và phát triển, đồng thời mở rộng năng lực tính toán, đáp ứng nhu cầu ngày càng tăng của thị trường đối với các mô hình Claude.

Và ngay sau tin tức tài chính, Claude Opus 4.8 đã chính thức ra mắt. Nhiều người còn nghĩ phải đợi đến tháng 6 mới được trải nghiệm, nhưng Anthropic đã mang đến bất ngờ. Phiên bản này đã có mặt cho người dùng ứng dụng và máy tính, trong khi API sẽ được cập nhật sau. Đáng chú ý, phiên bản Opus 4.6 đã bị gỡ bỏ.

Theo Anthropic, Opus 4.8 được cải tiến với khả năng phán đoán nhạy bén hơn, thái độ trung thực hơn về những tiến bộ của chính nó, và đặc biệt là khả năng làm việc độc lập trong thời gian dài hơn. Một điểm cộng lớn là mức giá vẫn được giữ nguyên: 5 USD (khoảng 127.000 VNĐ) cho mỗi triệu token đầu vào và 25 USD (khoảng 635.000 VNĐ) cho mỗi triệu token đầu ra ở chế độ tiêu chuẩn. Chế độ Fast mode có giá 10 USD (khoảng 254.000 VNĐ) cho đầu vào và 50 USD (khoảng 1.270.000 VNĐ) cho đầu ra, nhưng tốc độ nhanh hơn khoảng 2,5 lần so với chế độ tiêu chuẩn và giá đã giảm xuống chỉ còn khoảng một phần ba so với trước đây.

Anthropic cũng thẳng thắn chia sẻ rằng Opus 4.8 không phải là một bước nhảy vọt lớn về thế hệ mô hình. Thay vào đó, đây là một bản nâng cấp tập trung vào các chi tiết nhỏ, những cải thiện mà người dùng sẽ cảm nhận rõ rệt khi sử dụng thực tế. Công ty cũng tiết lộ đang phát triển một loại mô hình có chi phí thấp hơn nhưng khả năng gần bằng Opus, và một mô hình mạnh mẽ hơn nữa mang tên Mythos, vốn đã là một "bí mật công khai".

Có thể thấy, Opus 4.8 là một sự "mài giũa" hướng đến các tình huống làm việc thực tế. Mục tiêu không phải là những con số hiệu suất ấn tượng trên giấy tờ, mà là làm cho mô hình đáng tin cậy hơn, hợp tác tốt hơn và ít "giả vờ hiểu biết" hơn trong các tác vụ phức tạp.

Điểm nhấn mà Anthropic đặc biệt nhấn mạnh là sự "trung thực" của Opus 4.8. Trung thực ở đây không chỉ là ít nói dối hơn, mà là khi mô hình không chắc chắn, nó sẽ sẵn lòng bày tỏ sự không chắc chắn đó. Khi không có đủ bằng chứng, nó cũng ít khi đưa ra một kết luận có vẻ chắc chắn một cách gượng ép. Anthropic cho biết, trong các đánh giá nội bộ, Opus 4.8 có khả năng tự chỉ ra lỗi trong mã code mà nó viết ra, thay vì giả vờ mọi thứ đều ổn. Tình trạng "phát hiện lỗi nhưng không nói" đã giảm khoảng ba phần tư so với phiên bản trước.

Về mặt an toàn, đội ngũ bảo mật của Anthropic cũng đánh giá Opus 4.8 thể hiện tốt hơn trong việc tôn trọng phán đoán của người dùng và bảo vệ lợi ích của họ. Các hành vi lừa dối, chiều theo yêu cầu lạm dụng đã giảm đáng kể so với Opus 4.7, tiệm cận với mức độ của Claude Mythos Preview.

Đây là một phần trong chiến lược nhất quán của Anthropic gần đây. Dù là nhấn mạnh khả năng thừa nhận sự không chắc chắn của Opus 4.8 hay phản hồi về cuộc thảo luận về AI và phẩm giá con người, Anthropic đều muốn truyền tải một thông điệp: mô hình càng mạnh mẽ, nó càng không thể chỉ biết nghe lời và tự tin mù quáng. Nó phải biết giới hạn của mình, thừa nhận sự không chắc chắn và cố gắng bảo vệ lợi ích thực sự của người dùng. Cách kể chuyện này không chỉ giúp tăng cường niềm tin của người dùng vào các mô hình của Anthropic, thúc đẩy hợp tác doanh nghiệp mà còn mở đường cho kế hoạch IPO trong tương lai của công ty.

Cùng với Opus 4.8, Anthropic cũng giới thiệu một số tính năng mới, nổi bật nhất là Dynamic Workflow (Quy trình làm việc động), hiện đang trong giai đoạn xem trước nghiên cứu và sẽ được cung cấp cho các gói Enterprise, Team và Max.

Theo Anthropic, Dynamic Workflow cho phép Claude Code xử lý các vấn đề quy mô lớn hơn. Claude sẽ tự lên kế hoạch công việc, sau đó khởi chạy hàng trăm "subagents" (tác nhân phụ) song song trong một phiên làm việc, và cuối cùng xác minh kết quả trước khi báo cáo cho người dùng. Khi kết hợp với Opus 4.8, các tác nhân này có thể hoạt động lâu hơn, rất phù hợp cho các tác vụ bất đồng bộ như di chuyển mã, kiểm tra toàn bộ thư viện hoặc tái cấu trúc dài hạn. Một ví dụ điển hình là Claude Code giờ đây có thể thực hiện các tác vụ di chuyển mã trên hàng trăm nghìn dòng code, từ khởi tạo đến hợp nhất, và sử dụng bộ kiểm thử gốc của dự án để xác minh kết quả.

Nếu ví von theo câu muốn làm việc lớn phải chuẩn bị đầy đủ mọi thứ, thì Dynamic Workflow chính là cốt lõi của việc này. Trước đây, khi bạn giao một tác vụ phức tạp cho Claude Code, nó sẽ dùng một "Agent" chính để đọc, sửa code, chạy thử nghiệm và sửa lỗi từng bước. Vấn đề là các dự án kỹ thuật lớn thường quá đồ sộ. Một lỗi có thể liên quan đến hàng chục tệp, một lần di chuyển có thể cần sửa hàng trăm tệp. Một Agent đơn lẻ chạy theo một luồng dễ bỏ sót thông tin hoặc đi chệch hướng. Dynamic Workflow ra đời để giải quyết điều đó, đóng vai trò như một "quản lý dự án". Nó không trực tiếp làm việc mà điều phối những "người" phù hợp để thực hiện. Claude sẽ phân tách nhiệm vụ của bạn thành một quy trình làm việc, sau đó tự động khởi tạo hàng chục đến hàng trăm "subagents" song song. Mỗi subagent sẽ chịu trách nhiệm một nhiệm vụ nhỏ, như quét một module, xác minh một kết luận, tìm ví dụ phản chứng, hoặc chạy thử nghiệm. Cuối cùng, Claude sẽ tổng hợp các kết quả này, đối chiếu chéo và đưa ra một câu trả lời thống nhất. Cốt lõi của nó không phải là làm cho một Agent thông minh hơn, mà là để Claude tự động tổ chức một nhóm Agent cùng làm việc. Ví dụ từ Anthropic là thử nghiệm di chuyển Bun từ Zig sang Rust, nơi Dynamic Workflow đã tham gia di chuyển khoảng 750.000 dòng mã Rust, hoàn thành từ lần commit đầu tiên đến hợp nhất chỉ trong 11 ngày, và giúp 99,8% bộ kiểm thử hiện có vượt qua. Tuy nhiên, đi kèm với đó là chi phí tăng lên. Anthropic đặc biệt lưu ý rằng Dynamic Workflow sẽ tiêu tốn nhiều token hơn đáng kể, và sẽ yêu cầu người dùng xác nhận lần đầu tiên kích hoạt. Quản trị viên Enterprise cũng có thể chọn tắt tính năng này.

Ngoài ra, tính năng "effort control" (kiểm soát nỗ lực phản hồi) cũng đã được đưa từ Claude Code sang claude.ai (phiên bản web của Claude) và Claude Cowork. Trước đây, Claude Code đã có tính năng tương tự để điều chỉnh cường độ suy nghĩ của mô hình. Giờ đây, người dùng trên claude.ai và Claude Cowork có thể trực tiếp điều chỉnh mức độ nỗ lực mà Claude dành cho một câu trả lời. Ở mức nỗ lực thấp, Claude sẽ phản hồi nhanh hơn và tiêu tốn ít tài nguyên hơn; ở mức nỗ lực cao, nó sẽ dành nhiều token hơn để suy nghĩ kỹ lưỡng, phù hợp với các tác vụ phức tạp. Trong Claude Code, Opus 4.8 mặc định sử dụng chế độ nỗ lực cao, nhằm đạt được sự cân bằng tốt giữa chất lượng và tốc độ.

Một cập nhật nhỏ khác dành cho nhà phát triển là Messages API giờ đây hỗ trợ chèn các mục "system" vào mảng tin nhắn. Điều này cho phép bạn cập nhật các chỉ thị hệ thống của Claude trong quá trình thực hiện tác vụ mà không làm gián đoạn bộ nhớ đệm của prompt, rất tiện lợi cho các tác vụ dài hơi.

Nhìn vào lịch sử phát hành gần đây, chúng ta có thể thấy một điều khá bất ngờ về tốc độ cập nhật của Anthropic. Opus 4.5 ra mắt vào ngày 24 tháng 11 năm 2023, Opus 4.6 vào ngày 5 tháng 2 năm 2024 (cách nhau 73 ngày); Opus 4.7 vào ngày 16 tháng 4 năm 2024 (cách 4.6 là 70 ngày); và Opus 4.8 vào ngày 28 tháng 5 năm 2024 (chỉ cách 4.7 có 42 ngày). Khoảng cách giữa các phiên bản ngày càng rút ngắn, đặc biệt là giữa 4.7 và 4.8.

Lý do cho tốc độ này? Nhiều người cho rằng Opus 4.7 đã không đạt được kỳ vọng của người dùng. Khi Anthropic công bố 4.7, họ nói rằng nó có thể xử lý các tác vụ lập trình khó hơn và tự xác minh kết quả trước khi báo cáo. Nhưng nhiều người dùng phản hồi rằng 4.7 chỉ đơn giản tìm kiếm và đưa ra kết luận mà không thực sự đối chiếu chéo. Stella Laurenzo, trưởng bộ phận AI của AMD, nhận xét rằng Claude Code với 4.7 rất dễ đi chệch hướng khi làm các dự án kỹ thuật lớn.

Nếu chỉ là hiệu suất mô hình không đạt yêu cầu thì còn chấp nhận được, nhưng vấn đề là chính Anthropic cũng thừa nhận rằng tokenizer của 4.7 sẽ làm cho cùng một đầu vào tiêu tốn khoảng 1,0 đến 1,35 lần số token, và ở chế độ nỗ lực cao thì còn tốn nhiều hơn. Điều này có nghĩa là người dùng phải trả nhiều tiền hơn mà kết quả không cải thiện, thậm chí còn tệ hơn.

Dựa trên thông tin từ Anthropic và những người thử nghiệm sớm, 4.8 ít nhất đã nhắm đến một số điểm yếu của 4.7, như việc sử dụng công cụ, sự ổn định trong các tác vụ dài, khả năng tự kiểm tra lỗi mã, giảm "nhiễu" trong phản hồi, và vấn đề cố gắng đưa ra kết luận khi không chắc chắn. Tuy nhiên, để nói là "giải quyết hoàn toàn" thì còn quá sớm, chúng ta cần chờ đợi phản hồi từ các dự án kỹ thuật quy mô lớn sau này.

Điều quan trọng là Anthropic giờ đây không còn là kẻ bám đuổi nữa, mà đã trở thành người dẫn đầu. Chỉ một ngày trước khi 4.8 ra mắt, truyền thông nước ngoài đưa tin rằng doanh thu hiện tại của Anthropic có thể đã cao hơn OpenAI ít nhất 35%. Cụ thể, doanh thu hàng năm của Anthropic đang ở mức gần 45 tỷ USD (khoảng 1.143.000 tỷ VNĐ), trong khi OpenAI là khoảng 33 tỷ USD (khoảng 838.200 tỷ VNĐ). Mặc dù doanh thu hàng năm định kỳ (ARR) không đồng nghĩa với lợi nhuận cuối cùng, nhưng nó đủ để thay đổi câu chuyện trên thị trường. Cả hai công ty đều đang chuẩn bị IPO vào nửa cuối năm 2026. Nếu Anthropic được chấp thuận trước, câu chuyện của OpenAI có thể sẽ khó kể hơn. Điều này khiến Opus 4.8 mang một ý nghĩa sâu sắc hơn. Nó giống như một "tài liệu" mà Anthropic gửi đến thị trường vốn, chứng minh rằng dù 4.7 có vấn đề, họ vẫn có thể nhanh chóng tung ra phiên bản mới để củng cố mức định giá và doanh thu siêu cao.

Đánh giá nhanh Claude Opus 4.8: AI biết nhận lỗi, xử lý tác vụ khổng lồ

Derpy

Intern Writer

Đánh giá nổi bật