Nhai kỹ sống chậm
Writer
Bạn trả tiền cho AI, nhưng bạn có chắc mình đang dùng đúng thứ mình trả tiền không?
Gần đây, hàng loạt người dùng AI, đặc biệt là Claude của Anthropic, phàn nàn về cùng một hiện tượng: mô hình "thông minh hơn vào đêm khuya", cùng một câu lệnh hoạt động tốt hai tuần trước nhưng nay cho kết quả kém hơn hẳn. Không phải một người, không phải một thời điểm. Và họ đã tạo cả meme để mô tả chuyện này.
Đầu tháng 4, Stella Laurenzo, Giám đốc cấp cao bộ phận AI của AMD, công bố phân tích từ gần 7.000 phiên làm việc với Claude Code. Kết quả cho thấy mô hình đã giảm số lần đọc trước khi chỉnh sửa file từ 6,6 xuống còn 2,0, tức một phần ba số lần sửa mã là "sửa mù". Nhóm AMD sau đó chuyển sang nhà cung cấp khác vì "chất lượng tốt hơn", nhưng không tiết lộ tên do thỏa thuận bảo mật.
Anthropic thừa nhận rằng từ tháng 3, mức nỗ lực mặc định đã bị hạ xuống mức trung bình, nhưng phủ nhận việc hạ cấp mô hình. Ngày 7 tháng 4, mức nỗ lực này được khôi phục lại cao. Câu chuyện này không chỉ là về một công ty. Nó phản ánh ít nhất bốn lớp vấn đề đang xảy ra đồng thời trong ngành AI.
Thứ nhất, tên mô hình vẫn vậy nhưng "ngân sách tư duy" thì thay đổi. Tài liệu của Anthropic xác nhận rằng dòng Claude 4 mặc định trả về suy nghĩ đã tóm tắt, thậm chí bỏ sót một phần, nhưng vẫn tính phí dựa trên toàn bộ token suy nghĩ đã xử lý. Bạn trả cho quá trình đầy đủ, nhưng chỉ thấy một phần.
Thứ hai, nền tảng tự động chuyển mô hình mà không thông báo. OpenAI ghi rõ trong tài liệu hỗ trợ rằng khi GPT-5.4 Thinking đạt giới hạn tốc độ, hệ thống tự chuyển về GPT-5.4 mini mà không hiển thị điều đó trong giao diện chọn mô hình.
Thứ ba, bạn có thể không biết mình đang dùng mô hình nào. Nghiên cứu của Trung tâm An ninh CISPA Helmholtz công bố tháng 3 năm nay cho thấy gần một nửa trong số 17 nhà trung gian API được khảo sát đã thay thế mô hình thực tế, với độ lệch hiệu suất lên đến 47%. Bạn trả tiền cho Claude, nhưng có thể đang dùng một mô hình mã nguồn mở kém hơn nhiều.
Thứ tư, một phần cảm giác "AI ngu hơn" thực ra đến từ ngữ cảnh hội thoại quá dài, thay đổi trong framework phần mềm, hoặc cách người dùng điều chỉnh quy trình làm việc của mình.
Người dùng không có công cụ để phân biệt bốn lớp này. Giám đốc AMD phát hiện ra vấn đề vì bà có cả một đội kỹ sư và gần 7.000 bản ghi. Người dùng thông thường chỉ có một cửa sổ chat.
Trong tình thế đó, cộng đồng tự xoay xở. Người thì liên tục gõ "SUY NGHĨ THẬT KỸ" nhiều lần trong cùng một tin nhắn và thấy kết quả khá hơn. Người thì tự tay chỉnh biến môi trường để tắt tư duy thích ứng, đặt nỗ lực ở mức tối đa. Một số dùng câu hỏi kiểm tra kỳ lạ như "Tiệm rửa xe cách 50 mét, tôi nên lái xe hay đi bộ?" để đánh giá độ suy giảm.
Những cách này thô, nhưng sự tồn tại của chúng nói lên một điều: người dùng đang phải tự làm công việc mà nền tảng lẽ ra phải làm minh bạch từ đầu.
Hiện tượng này giống như "shrinkflation" trong ngành hàng tiêu dùng: giá không đổi, bao bì không đổi, nhưng lượng thực tế bên trong đã giảm. Thực phẩm có danh sách thành phần. Phần mềm có số phiên bản. Các sản phẩm AI ít nhất cũng nên cho người dùng biết họ đang dùng phiên bản mô hình nào, có bị chuyển sang mô hình dự phòng không, mức suy luận là bao nhiêu và liệu quá trình tư duy có bị nén lại hay không.
Đó không phải thông tin kỹ thuật xa xỉ. Đó là quyền cơ bản nhất của người dùng trả phí.
Gần đây, hàng loạt người dùng AI, đặc biệt là Claude của Anthropic, phàn nàn về cùng một hiện tượng: mô hình "thông minh hơn vào đêm khuya", cùng một câu lệnh hoạt động tốt hai tuần trước nhưng nay cho kết quả kém hơn hẳn. Không phải một người, không phải một thời điểm. Và họ đã tạo cả meme để mô tả chuyện này.
Đầu tháng 4, Stella Laurenzo, Giám đốc cấp cao bộ phận AI của AMD, công bố phân tích từ gần 7.000 phiên làm việc với Claude Code. Kết quả cho thấy mô hình đã giảm số lần đọc trước khi chỉnh sửa file từ 6,6 xuống còn 2,0, tức một phần ba số lần sửa mã là "sửa mù". Nhóm AMD sau đó chuyển sang nhà cung cấp khác vì "chất lượng tốt hơn", nhưng không tiết lộ tên do thỏa thuận bảo mật.
Anthropic thừa nhận rằng từ tháng 3, mức nỗ lực mặc định đã bị hạ xuống mức trung bình, nhưng phủ nhận việc hạ cấp mô hình. Ngày 7 tháng 4, mức nỗ lực này được khôi phục lại cao. Câu chuyện này không chỉ là về một công ty. Nó phản ánh ít nhất bốn lớp vấn đề đang xảy ra đồng thời trong ngành AI.
Thứ nhất, tên mô hình vẫn vậy nhưng "ngân sách tư duy" thì thay đổi. Tài liệu của Anthropic xác nhận rằng dòng Claude 4 mặc định trả về suy nghĩ đã tóm tắt, thậm chí bỏ sót một phần, nhưng vẫn tính phí dựa trên toàn bộ token suy nghĩ đã xử lý. Bạn trả cho quá trình đầy đủ, nhưng chỉ thấy một phần.
Thứ hai, nền tảng tự động chuyển mô hình mà không thông báo. OpenAI ghi rõ trong tài liệu hỗ trợ rằng khi GPT-5.4 Thinking đạt giới hạn tốc độ, hệ thống tự chuyển về GPT-5.4 mini mà không hiển thị điều đó trong giao diện chọn mô hình.
Thứ ba, bạn có thể không biết mình đang dùng mô hình nào. Nghiên cứu của Trung tâm An ninh CISPA Helmholtz công bố tháng 3 năm nay cho thấy gần một nửa trong số 17 nhà trung gian API được khảo sát đã thay thế mô hình thực tế, với độ lệch hiệu suất lên đến 47%. Bạn trả tiền cho Claude, nhưng có thể đang dùng một mô hình mã nguồn mở kém hơn nhiều.
Thứ tư, một phần cảm giác "AI ngu hơn" thực ra đến từ ngữ cảnh hội thoại quá dài, thay đổi trong framework phần mềm, hoặc cách người dùng điều chỉnh quy trình làm việc của mình.
Người dùng không có công cụ để phân biệt bốn lớp này. Giám đốc AMD phát hiện ra vấn đề vì bà có cả một đội kỹ sư và gần 7.000 bản ghi. Người dùng thông thường chỉ có một cửa sổ chat.
Trong tình thế đó, cộng đồng tự xoay xở. Người thì liên tục gõ "SUY NGHĨ THẬT KỸ" nhiều lần trong cùng một tin nhắn và thấy kết quả khá hơn. Người thì tự tay chỉnh biến môi trường để tắt tư duy thích ứng, đặt nỗ lực ở mức tối đa. Một số dùng câu hỏi kiểm tra kỳ lạ như "Tiệm rửa xe cách 50 mét, tôi nên lái xe hay đi bộ?" để đánh giá độ suy giảm.
Những cách này thô, nhưng sự tồn tại của chúng nói lên một điều: người dùng đang phải tự làm công việc mà nền tảng lẽ ra phải làm minh bạch từ đầu.
Hiện tượng này giống như "shrinkflation" trong ngành hàng tiêu dùng: giá không đổi, bao bì không đổi, nhưng lượng thực tế bên trong đã giảm. Thực phẩm có danh sách thành phần. Phần mềm có số phiên bản. Các sản phẩm AI ít nhất cũng nên cho người dùng biết họ đang dùng phiên bản mô hình nào, có bị chuyển sang mô hình dự phòng không, mức suy luận là bao nhiêu và liệu quá trình tư duy có bị nén lại hay không.
Đó không phải thông tin kỹ thuật xa xỉ. Đó là quyền cơ bản nhất của người dùng trả phí.