Ngay cả Jensen Huang cũng không hiểu nổi "tờ tiền token": Minh bạch về giá, mù mờ về giá trị

Mr. Darcy
Mr. Darcy
Phản hồi: 0

Mr. Darcy

Editor
Thành viên BQT
Giá token AI trông rất minh bạch. Nhưng giá trị thực sự đằng sau nó thì không ai biết chắc, kể cả người bán.

Tháng 3 năm ngoái, Jensen Huang đứng trên sân khấu GTC 2026 và tuyên bố token là đơn vị kinh tế cốt lõi của kỷ nguyên AI. Mở bất kỳ trang giá nào của các mô hình lớn, bạn cũng thấy sự đồng nhất gần như tuyệt đối: mấy triệu token thì bao nhiêu tiền, đầu vào bao nhiêu, đầu ra bao nhiêu. Trông rất chuẩn mực, rất chuyên nghiệp.

Nhưng sự thật lại hoàn toàn ngược lại.

Tháng 4 năm 2026, GPT-5.4 của OpenAI có giá đầu vào 2,5 đô la mỗi triệu token, đầu ra 15 đô la. Claude Opus 4.6 của Anthropic thì 5 đô la và 25 đô la. Nhìn vào hai con số đó, Anthropic đắt gấp đôi. Nhưng chỉ so sánh vậy là vô nghĩa, vì chiến lược cửa sổ ngữ cảnh, logic tính phí công cụ và mức chiết khấu bộ nhớ đệm giữa hai bên đủ để xóa bỏ hoặc thậm chí đảo ngược chênh lệch đó.

Giá token rất rõ ràng. Còn giá trị bên trong mỗi token thì là hộp đen.
1776304897932.png

Cùng một token, trí thông minh khác nhau
Một token về mặt kỹ thuật không phải là điều bí ẩn. Số lượng token đầu vào và đầu ra có thể ước tính được, dù không hoàn toàn chính xác. Vấn đề là token không đơn giản là đơn vị đo lường như kilowatt-giờ hay gigabyte. Token đo lường trí thông minh, và "tỷ giá hối đoái" giữa token với khả năng thực sự của mô hình mới là điều không ai nắm rõ.

Đầu tháng 4 năm 2026, Stella Laurenzo, Giám đốc Chiến lược AI của AMD, công bố phân tích dựa trên gần 6.900 phiên Claude Code. Dữ liệu cho thấy từ cuối tháng 2, độ sâu suy luận của Claude Opus 4.6 giảm mạnh. Cụ thể, số lần mô hình đọc lại file trước khi chỉnh sửa mã giảm từ 6,6 xuống còn 2,0 lần, tức giảm khoảng 67%. Mô hình đã ngừng đọc kỹ trước khi sửa.

Lý do phía sau được Boris Cherny, người tạo ra Claude Code, xác nhận sau đó: Anthropic đã kích hoạt "tư duy thích ứng" từ ngày 9 tháng 2 và tiếp tục điều chỉnh mức nỗ lực mặc định từ cao xuống trung bình vào ngày 3 tháng 3. Người dùng muốn mô hình suy luận đầy đủ thì phải tự nhập lệnh thủ công.

Vấn đề không phải là Anthropic thay đổi cài đặt, mà là họ không thông báo rõ ràng. Nhiều lập trình viên chỉ bắt đầu nghi ngờ "mô hình kém thông minh hơn" sau khi chất lượng mã đã giảm sút rõ rệt, nhưng rất khó chứng minh vì bản chất xác suất của các mô hình lớn cho phép bác bỏ mọi nghi ngờ bằng lý do "môi trường kiểm thử không nhất quán".

Đây là biến số nguy hiểm nhất: cùng một triệu token, chất lượng suy luận có thể khác nhau đáng kể tùy lúc cao điểm hay thấp điểm, tùy cài đặt mặc định hay thủ công, tùy người dùng còn hạn mức hay gần chạm giới hạn. Số lượng và giá cả minh bạch, nhưng "trí thông minh" bên trong mỗi token thì không.

Trong kinh tế học, người ta gọi đây là "điều chỉnh chất lượng": khi chất lượng sản phẩm giảm mà giá danh nghĩa không đổi, thực chất giá thực đã tăng. Điều đó nguy hiểm hơn và khó phát hiện hơn so với tăng giá công khai.

Tỷ lệ truy cập bộ nhớ đệm quyết định bạn trả bao nhiêu

Còn một lớp chi phí ẩn khác nằm dưới bảng giá.

Tháng 2 năm 2026, một bản cập nhật Claude Code khiến tỷ lệ truy cập bộ nhớ đệm trên các nền tảng bên thứ ba giảm mạnh. Không phải Anthropic cố tình phá hoại, mà là tác dụng phụ từ việc tối ưu hóa hệ thống riêng của họ đã làm vỡ cấu trúc bộ nhớ đệm mà các mô hình khác đang dựa vào.

Hệ quả rất cụ thể. Một lập trình viên theo dõi dữ liệu sử dụng Claude Code trong một tuần và phát hiện rằng trong điều kiện bình thường, 91% token đến từ bộ nhớ đệm với giá chỉ bằng một phần mười giá thông thường. Nếu bộ nhớ đệm hoàn toàn thất bại, chi phí đầu vào tăng lên gấp 5,7 lần.
Boris Cherny chính ông cũng thừa nhận: khi dùng cửa sổ ngữ cảnh 1 triệu token, chi phí khi không tìm thấy bộ nhớ đệm là rất lớn. Nếu bạn rời máy hơn một giờ rồi quay lại phiên cũ, thông thường sẽ không có bộ nhớ đệm nào cả.

Theo một phân tích đang lan truyền trong cộng đồng, khi phát hiện người dùng vào chế độ vượt hạn mức, Claude Code âm thầm giảm thời gian lưu bộ nhớ đệm từ 1 giờ xuống còn 5 phút. Dừng quá 5 phút là tái tạo ngữ cảnh hoàn toàn, phí trừ thẳng vào số dư vượt mức. Tháng 4, một số người dùng Pro cho biết họ chỉ gửi được 2 yêu cầu trong 5 giờ.

Giá giảm 300 lần, chi phí vẫn mất kiểm soát
Trong ba năm, giá token giảm khoảng 300 lần. Nhưng chi phí AI của các công ty lại ngày càng khó kiểm soát hơn, vì mức dùng tăng nhanh hơn nhiều so với tốc độ giảm giá.

Nhóm sáu người tại Branch8, một công ty thương mại điện tử châu Á Thái Bình Dương, chi 2.400 đô la (khoảng 60 triệu đồng) trong tháng đầu dùng Claude Code. Sau tám tuần tối ưu hóa, bao gồm hạn mức token hàng ngày, giới hạn ngân sách cho mô hình suy luận và chuyển bớt tác vụ từ Opus sang Sonnet, họ giảm được xuống còn 680 đô la (khoảng 17 triệu đồng). Quản lý chi tiêu token đã trở thành một kỹ năng chuyên biệt.

Tại hội nghị Nutanix .NEXT 2026, một CIO kể về trường hợp một lập trình viên bị tính phí token bất ngờ lên tới 100.000 đô la (khoảng 2,5 tỷ đồng) rồi phải đi giải trình với CFO trong một cuộc họp mà ông gọi là "vô cùng xấu hổ". Một cuộc khảo sát 372 công ty xác nhận xu hướng này: 84% doanh nghiệp cho biết chi phí AI đang ăn vào lợi nhuận nhiều hơn dự kiến, và chỉ 15% giữ được sai số ngân sách trong vòng 10%.

Về phía các công ty AI lớn, chi phí cũng không nhỏ. Chi phí suy luận của OpenAI đạt 8,4 tỷ đô la năm 2025 và dự kiến tăng lên 14,1 tỷ đô la năm 2026. Anthropic đã huy động tổng cộng hơn 64 tỷ đô la vốn đầu tư. Cả hai đều chưa có lợi nhuận.

Ngành công nghiệp đang tìm một "điểm neo" cho giá trị
Câu hỏi cốt lõi là: ai có thể xác định chính xác giá trị của một token?

Hiện tại, không ai làm được. Nhà sản xuất không đo được giá trị kinh doanh mà sản phẩm tạo ra cho từng người dùng. Người dùng không thể hiểu quá trình suy luận bên trong để biết mỗi token có "xứng đáng với giá tiền" hay không. Nhà đầu tư chỉ thấy đường cong tăng trưởng tiêu thụ, không thấy tỷ lệ chuyển đổi giá trị thực sự.

Token hiện tại về bản chất là định giá "quyền sử dụng sức mạnh tính toán": bạn mua cơ hội để mô hình "suy nghĩ" thay cho bạn. Còn suy nghĩ đó sâu hay nông, có giải quyết được vấn đề của bạn không thì nằm ngoài phạm vi lời hứa của mức giá.

Token chưa trở thành hàng hóa có thể định giá chuẩn hóa. Chúng là đơn vị tạm thời mà cả ngành đang buộc phải dùng, trong khi vẫn chưa tìm ra được thước đo giá trị thực sự.

Giá token rất rõ. Nhưng giá trị bên trong mỗi token thì vẫn là ẩn số, với tất cả mọi người.
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
http://textlink.linktop.vn/?adslk=aHR0cHM6Ly92bnJldmlldy52bi90aHJlYWRzL25nYXktY2EtamVuc2VuLWh1YW5nLWN1bmcta2hvbmctaGlldS1ub2ktdG8tdGllbi10b2tlbi1taW5oLWJhY2gtdmUtZ2lhLW11LW1vLXZlLWdpYS10cmkuODE4NjYv
Top