Các sản phẩm trí tuệ nhân tạo thường xuyên thể hiện sự suy giảm trí tuệ

Nhai kỹ sống chậm · 11:18

Bạn trả tiền cho AI, nhưng bạn có chắc mình đang dùng đúng thứ mình trả tiền không?

Gần đây, hàng loạt người dùng AI, đặc biệt là Claude của Anthropic, phàn nàn về cùng một hiện tượng: mô hình "thông minh hơn vào đêm khuya", cùng một câu lệnh hoạt động tốt hai tuần trước nhưng nay cho kết quả kém hơn hẳn. Không phải một người, không phải một thời điểm. Và họ đã tạo cả meme để mô tả chuyện này.

Đầu tháng 4, Stella Laurenzo, Giám đốc cấp cao bộ phận AI của AMD, công bố phân tích từ gần 7.000 phiên làm việc với Claude Code. Kết quả cho thấy mô hình đã giảm số lần đọc trước khi chỉnh sửa file từ 6,6 xuống còn 2,0, tức một phần ba số lần sửa mã là "sửa mù". Nhóm AMD sau đó chuyển sang nhà cung cấp khác vì "chất lượng tốt hơn", nhưng không tiết lộ tên do thỏa thuận bảo mật.

Anthropic thừa nhận rằng từ tháng 3, mức nỗ lực mặc định đã bị hạ xuống mức trung bình, nhưng phủ nhận việc hạ cấp mô hình. Ngày 7 tháng 4, mức nỗ lực này được khôi phục lại cao. Câu chuyện này không chỉ là về một công ty. Nó phản ánh ít nhất bốn lớp vấn đề đang xảy ra đồng thời trong ngành AI.

Thứ nhất, tên mô hình vẫn vậy nhưng "ngân sách tư duy" thì thay đổi. Tài liệu của Anthropic xác nhận rằng dòng Claude 4 mặc định trả về suy nghĩ đã tóm tắt, thậm chí bỏ sót một phần, nhưng vẫn tính phí dựa trên toàn bộ token suy nghĩ đã xử lý. Bạn trả cho quá trình đầy đủ, nhưng chỉ thấy một phần.

Thứ hai, nền tảng tự động chuyển mô hình mà không thông báo. OpenAI ghi rõ trong tài liệu hỗ trợ rằng khi GPT-5.4 Thinking đạt giới hạn tốc độ, hệ thống tự chuyển về GPT-5.4 mini mà không hiển thị điều đó trong giao diện chọn mô hình.

Thứ ba, bạn có thể không biết mình đang dùng mô hình nào. Nghiên cứu của Trung tâm An ninh CISPA Helmholtz công bố tháng 3 năm nay cho thấy gần một nửa trong số 17 nhà trung gian API được khảo sát đã thay thế mô hình thực tế, với độ lệch hiệu suất lên đến 47%. Bạn trả tiền cho Claude, nhưng có thể đang dùng một mô hình mã nguồn mở kém hơn nhiều.

Thứ tư, một phần cảm giác "AI ngu hơn" thực ra đến từ ngữ cảnh hội thoại quá dài, thay đổi trong framework phần mềm, hoặc cách người dùng điều chỉnh quy trình làm việc của mình.

Người dùng không có công cụ để phân biệt bốn lớp này. Giám đốc AMD phát hiện ra vấn đề vì bà có cả một đội kỹ sư và gần 7.000 bản ghi. Người dùng thông thường chỉ có một cửa sổ chat.

Trong tình thế đó, cộng đồng tự xoay xở. Người thì liên tục gõ "SUY NGHĨ THẬT KỸ" nhiều lần trong cùng một tin nhắn và thấy kết quả khá hơn. Người thì tự tay chỉnh biến môi trường để tắt tư duy thích ứng, đặt nỗ lực ở mức tối đa. Một số dùng câu hỏi kiểm tra kỳ lạ như "Tiệm rửa xe cách 50 mét, tôi nên lái xe hay đi bộ?" để đánh giá độ suy giảm.

Những cách này thô, nhưng sự tồn tại của chúng nói lên một điều: người dùng đang phải tự làm công việc mà nền tảng lẽ ra phải làm minh bạch từ đầu.

Hiện tượng này giống như "shrinkflation" trong ngành hàng tiêu dùng: giá không đổi, bao bì không đổi, nhưng lượng thực tế bên trong đã giảm. Thực phẩm có danh sách thành phần. Phần mềm có số phiên bản. Các sản phẩm AI ít nhất cũng nên cho người dùng biết họ đang dùng phiên bản mô hình nào, có bị chuyển sang mô hình dự phòng không, mức suy luận là bao nhiêu và liệu quá trình tư duy có bị nén lại hay không.

Đó không phải thông tin kỹ thuật xa xỉ. Đó là quyền cơ bản nhất của người dùng trả phí.

Có thể bạn quan tâm

Chủ đề hot

Có thể bạn quan tâm

Các sản phẩm trí tuệ nhân tạo thường xuyên thể hiện sự suy giảm trí tuệ

Nhai kỹ sống chậm

Writer

Nhai kỹ sống chậm

Claude Design sắp sửa giáng đòn chí mạng vào ngành thiết kế

Claude Opus 4.7 nâng cao khả năng lập trình và đa phương thức

So sánh Claude Opus 4.7 với Opus 4.6

Giờ đây, trí tuệ nhân tạo có thể tự kiểm tra mã nguồn; Opus 4.7 giải quyết vấn đề "đống mã rác"

Anthropic "cấm cửa" cha đẻ OpenClaw truy cập Claude Code: Lỗi kỹ thuật hay có nguyên nhân sâu xa?

Không phải nhân viên cấp dưới, những người này sẽ bị mất việc khi các tập đoàn lớn đầu tư vào AI

1,3 tỷ mật khẩu bị rò rỉ, đẩy hàng triệu tài khoản trực tuyến vào nguy hiểm

LANDFALL: Biến ảnh gửi qua WhatsApp thành vũ khí tấn công người dùng Samsung

Liên minh 3 nhóm hacker khét tiếng thành thế lực đe dọa toàn cầu

Cảnh báo: Mã độc giả mạo Telegram X chiếm toàn bộ điện thoại và thiết bị của bạn

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

Tướng quân vô danh khiến Gia Cát Lượng trở về trắng tay sau hai lần dẫn đại quân Bắc phạt

Đánh giá nổi bật