Quang Trương
Pearl
Vì sao AI ngày càng thông minh hơn nhưng lại đang “mắc kẹt” chỉ vì… bộ nhớ?
Chính sự thay đổi này khiến bộ nhớ trở thành điểm nghẽn lớn nhất. Các mô hình nền tảng ngày nay đã lên tới hàng nghìn tỷ tham số, cửa sổ ngữ cảnh kéo dài tới hàng triệu token. Chi phí để “nhớ” mọi thứ tăng nhanh hơn cả khả năng xử lý của phần cứng.
Về mặt kỹ thuật, trí nhớ đó nằm trong bộ nhớ đệm Key-Value, thường được gọi là bộ nhớ KV. Với AI tác nhân, KV không còn là thứ tồn tại trong một lượt suy luận ngắn mà trở thành bộ nhớ dài hạn, tăng tuyến tính theo độ dài chuỗi và theo số công cụ, phiên làm việc mà tác nhân đi qua.
Vấn đề là kiến trúc phần cứng hiện nay không được sinh ra để xử lý loại dữ liệu như vậy.
Cách thứ nhất cực kỳ đắt đỏ vì HBM là tài nguyên khan hiếm và giá cao. Cách thứ hai thì rẻ hơn nhưng đổi lại là độ trễ tính bằng mili giây, đủ để phá vỡ trải nghiệm suy luận thời gian thực. Kết quả là GPU đắt tiền phải ngồi chờ dữ liệu, vừa tốn điện vừa lãng phí hiệu năng.
Điều này tạo ra một loại dữ liệu rất đặc biệt. Bộ nhớ KV không giống dữ liệu doanh nghiệp truyền thống. Nó được tạo ra trong quá trình suy luận, cần tốc độ cao, độ trễ thấp, nhưng lại không cần các cơ chế bền vững, sao lưu, kiểm tra phức tạp như hệ thống lưu trữ thông thường. Thế nhưng hiện nay nó vẫn đang bị ép sống chung với những kiến trúc không phù hợp.
Đây chính là khoảng trống mà NVIDIA muốn lấp đầy.
Tầng này sử dụng flash kết nối Ethernet, được thiết kế riêng cho suy luận AI, không phải cho lưu trữ đa năng. Nhờ bộ xử lý dữ liệu BlueField-4, phần quản lý dữ liệu ngữ cảnh được tách khỏi CPU máy chủ. Kết quả là mỗi cụm máy có thể chia sẻ dung lượng lên tới mức petabyte mà không chiếm dụng bộ nhớ HBM đắt đỏ.
Điểm hay nằm ở chỗ hệ thống có thể “chuẩn bị trước” ngữ cảnh cho GPU. Dữ liệu cần thiết được đưa lên đúng lúc, giảm thời gian GPU nhàn rỗi. Với các tác vụ có ngữ cảnh dài, tốc độ xử lý token mỗi giây có thể tăng gấp 5 lần. Đồng thời, vì loại bỏ được nhiều lớp giao thức không cần thiết, hiệu quả năng lượng cũng cao hơn khoảng 5 lần so với cách làm truyền thống.
Đằng sau đó là cả một hệ sinh thái phần mềm điều phối như NVIDIA Dynamo, NIXL và DOCA, đảm bảo khối KV được di chuyển đúng nơi, đúng thời điểm. Nhiều nhà cung cấp hạ tầng lớn đã bắt đầu xây dựng giải pháp dựa trên kiến trúc này và dự kiến đưa ra thị trường trong nửa cuối năm.
Việc xuất hiện một tầng bộ nhớ ngữ cảnh chuyên dụng không chỉ là câu chuyện kỹ thuật, nó buộc doanh nghiệp phải thay đổi cách nhìn về dữ liệu và hạ tầng.
Bộ nhớ KV cần được coi là một loại dữ liệu riêng, tạm thời nhưng cực kỳ nhạy cảm với độ trễ. Điều phối hệ thống trở thành yếu tố sống còn, vì phần mềm phải hiểu được cấu trúc hạ tầng để đặt tác vụ gần nơi dữ liệu đang nằm. Mật độ tính toán tăng cao hơn trên mỗi mét vuông cũng đồng nghĩa với áp lực lớn hơn lên làm mát và phân phối điện năng.
Mô hình cũ, nơi tính toán và lưu trữ chậm được tách biệt hoàn toàn, không còn phù hợp với AI tác nhân có trí nhớ và khả năng suy luận dài hạn. Khi đưa thêm một tầng ngữ cảnh chuyên biệt, doanh nghiệp có thể tách sự tăng trưởng của bộ nhớ khỏi chi phí GPU, cho phép nhiều tác nhân chia sẻ cùng một không gian nhớ, tiết kiệm năng lượng và mở rộng quy mô dễ hơn.
Có lẽ trong chu kỳ đầu tư hạ tầng tiếp theo, câu hỏi quan trọng không chỉ là dùng GPU nào, mà là hệ thống bộ nhớ có thực sự phù hợp với AI mà chúng ta muốn xây dựng hay chưa. Với Việt Nam, nơi chi phí hạ tầng và năng lượng luôn là bài toán lớn, câu hỏi này lại càng đáng để suy nghĩ. (artificialintelligence)
Khi AI không còn là chatbot, bộ nhớ trở thành vấn đề sống còn
Nếu từng làm việc với các chatbot AI thế hệ đầu, bạn sẽ thấy chúng giống như những cuộc trò chuyện ngắn hạn. Hỏi xong, trả lời xong, gần như không có khái niệm “ghi nhớ”. Nhưng AI tác nhân thì khác. Nó không chỉ trả lời mà còn lập kế hoạch, sử dụng công cụ, theo dõi mục tiêu và duy trì ngữ cảnh xuyên suốt nhiều bước, nhiều phiên làm việc.Chính sự thay đổi này khiến bộ nhớ trở thành điểm nghẽn lớn nhất. Các mô hình nền tảng ngày nay đã lên tới hàng nghìn tỷ tham số, cửa sổ ngữ cảnh kéo dài tới hàng triệu token. Chi phí để “nhớ” mọi thứ tăng nhanh hơn cả khả năng xử lý của phần cứng.
Về mặt kỹ thuật, trí nhớ đó nằm trong bộ nhớ đệm Key-Value, thường được gọi là bộ nhớ KV. Với AI tác nhân, KV không còn là thứ tồn tại trong một lượt suy luận ngắn mà trở thành bộ nhớ dài hạn, tăng tuyến tính theo độ dài chuỗi và theo số công cụ, phiên làm việc mà tác nhân đi qua.
Vấn đề là kiến trúc phần cứng hiện nay không được sinh ra để xử lý loại dữ liệu như vậy.
GPU nhanh nhưng bộ nhớ thì không theo kịp
Các hệ thống hiện tại buộc phải chọn một trong hai cách, giữ toàn bộ ngữ cảnh trong bộ nhớ GPU HBM hoặc đẩy nó sang bộ nhớ chậm hơn như RAM hay lưu trữ dùng chung.Cách thứ nhất cực kỳ đắt đỏ vì HBM là tài nguyên khan hiếm và giá cao. Cách thứ hai thì rẻ hơn nhưng đổi lại là độ trễ tính bằng mili giây, đủ để phá vỡ trải nghiệm suy luận thời gian thực. Kết quả là GPU đắt tiền phải ngồi chờ dữ liệu, vừa tốn điện vừa lãng phí hiệu năng.
Điều này tạo ra một loại dữ liệu rất đặc biệt. Bộ nhớ KV không giống dữ liệu doanh nghiệp truyền thống. Nó được tạo ra trong quá trình suy luận, cần tốc độ cao, độ trễ thấp, nhưng lại không cần các cơ chế bền vững, sao lưu, kiểm tra phức tạp như hệ thống lưu trữ thông thường. Thế nhưng hiện nay nó vẫn đang bị ép sống chung với những kiến trúc không phù hợp.
Đây chính là khoảng trống mà NVIDIA muốn lấp đầy.
Một tầng bộ nhớ mới cho kỷ nguyên AI tác nhân
Trong kiến trúc Rubin, NVIDIA giới thiệu nền tảng Inference Context Memory Storage, hay ICMS. Cách dễ hiểu nhất là tạo ra một tầng bộ nhớ trung gian, thường được gọi là G3.5, nằm giữa GPU và hệ thống lưu trữ dùng chung.Tầng này sử dụng flash kết nối Ethernet, được thiết kế riêng cho suy luận AI, không phải cho lưu trữ đa năng. Nhờ bộ xử lý dữ liệu BlueField-4, phần quản lý dữ liệu ngữ cảnh được tách khỏi CPU máy chủ. Kết quả là mỗi cụm máy có thể chia sẻ dung lượng lên tới mức petabyte mà không chiếm dụng bộ nhớ HBM đắt đỏ.
Điểm hay nằm ở chỗ hệ thống có thể “chuẩn bị trước” ngữ cảnh cho GPU. Dữ liệu cần thiết được đưa lên đúng lúc, giảm thời gian GPU nhàn rỗi. Với các tác vụ có ngữ cảnh dài, tốc độ xử lý token mỗi giây có thể tăng gấp 5 lần. Đồng thời, vì loại bỏ được nhiều lớp giao thức không cần thiết, hiệu quả năng lượng cũng cao hơn khoảng 5 lần so với cách làm truyền thống.
Đằng sau đó là cả một hệ sinh thái phần mềm điều phối như NVIDIA Dynamo, NIXL và DOCA, đảm bảo khối KV được di chuyển đúng nơi, đúng thời điểm. Nhiều nhà cung cấp hạ tầng lớn đã bắt đầu xây dựng giải pháp dựa trên kiến trúc này và dự kiến đưa ra thị trường trong nửa cuối năm.
Việc xuất hiện một tầng bộ nhớ ngữ cảnh chuyên dụng không chỉ là câu chuyện kỹ thuật, nó buộc doanh nghiệp phải thay đổi cách nhìn về dữ liệu và hạ tầng.
Bộ nhớ KV cần được coi là một loại dữ liệu riêng, tạm thời nhưng cực kỳ nhạy cảm với độ trễ. Điều phối hệ thống trở thành yếu tố sống còn, vì phần mềm phải hiểu được cấu trúc hạ tầng để đặt tác vụ gần nơi dữ liệu đang nằm. Mật độ tính toán tăng cao hơn trên mỗi mét vuông cũng đồng nghĩa với áp lực lớn hơn lên làm mát và phân phối điện năng.
Mô hình cũ, nơi tính toán và lưu trữ chậm được tách biệt hoàn toàn, không còn phù hợp với AI tác nhân có trí nhớ và khả năng suy luận dài hạn. Khi đưa thêm một tầng ngữ cảnh chuyên biệt, doanh nghiệp có thể tách sự tăng trưởng của bộ nhớ khỏi chi phí GPU, cho phép nhiều tác nhân chia sẻ cùng một không gian nhớ, tiết kiệm năng lượng và mở rộng quy mô dễ hơn.
Có lẽ trong chu kỳ đầu tư hạ tầng tiếp theo, câu hỏi quan trọng không chỉ là dùng GPU nào, mà là hệ thống bộ nhớ có thực sự phù hợp với AI mà chúng ta muốn xây dựng hay chưa. Với Việt Nam, nơi chi phí hạ tầng và năng lượng luôn là bài toán lớn, câu hỏi này lại càng đáng để suy nghĩ. (artificialintelligence)