Trường Sơn
Writer
Anthropic muốn tự làm chip AI. Đây là dấu hiệu cho thấy cuộc chiến phần cứng đang thực sự bắt đầu.
Mùa xuân năm 2026, Reuters đưa tin Anthropic đang nghiên cứu khả năng tự thiết kế chip AI riêng. Công ty sở hữu Claude, với doanh thu hàng năm vượt 30 tỷ đô la (khoảng 750 tỷ đồng), đang xem xét chuyển từ vai trò người mua sức mạnh tính toán sang người tự định hình nó.
Kế hoạch vẫn còn rất sơ khai. Chưa có đội ngũ chuyên trách, chưa có lộ trình cụ thể, và Anthropic hoàn toàn có thể chọn tiếp tục mua chip thay vì tự làm. Nhưng ngay cả việc họ đặt câu hỏi đó ra đã nói lên rất nhiều điều.
Hiện tại, Anthropic đang dùng TPU của Google và chip Trainium của Amazon để huấn luyện và vận hành Claude. Tuần này, họ vừa ký thỏa thuận dài hạn với Google và Broadcom. Cách làm hai hướng song song này, vừa mua chip bên ngoài vừa âm thầm nghiên cứu tự phát triển, rất giống Meta và Microsoft vài năm trước. Cả hai hiện đều đã có chip độc quyền của riêng mình.
Chi phí thiết kế một con chip AI cao cấp ước tính khoảng 500 triệu đô la (hơn 12.000 tỷ đồng). Con số lớn, nhưng điều đáng chú ý hơn là tín hiệu đằng sau nó.
Suy luận mới là chiến trường chính
Trong hai năm qua, trọng tâm của ngành AI đã dịch chuyển đáng kể. Trước đây, phần lớn nhu cầu tính toán nằm ở giai đoạn huấn luyện mô hình, kéo dài hàng tuần đến hàng tháng, cần các cụm GPU khổng lồ chạy song song. Đây là lãnh địa mà Nvidia gần như không có đối thủ.
Nhưng suy luận thì khác. Suy luận là thứ diễn ra mỗi khi bạn hỏi một câu và AI trả lời, tính bằng mili giây, đòi hỏi độ trễ thấp, tốc độ cao và tiêu thụ điện ít. GPU không được thiết kế tối ưu cho việc này.
Theo dự báo của Barclays, đến năm 2026, điện toán suy luận sẽ chiếm hơn 70% tổng nhu cầu tính toán AI, gấp 4,5 lần so với phần huấn luyện. Ai kiểm soát được suy luận, người đó nắm tương lai của thị trường chip AI.
Nvidia hiểu rõ điều này. Cuối năm ngoái, họ hợp tác với Groq, một startup chuyên chip suy luận đã từng tạo ra kiến trúc LPU (Bộ xử lý ngôn ngữ) có tốc độ tạo từ nhanh gấp 10 lần GPU thông thường trong khi chỉ tiêu thụ một phần mười điện năng. Thỏa thuận này được truyền thông ước tính trị giá khoảng 20 tỷ đô la, dù Nvidia gọi đây là cấp phép công nghệ và thu hút nhân tài chứ không phải mua lại truyền thống.
Bằng cách đưa Groq vào hệ sinh thái của mình, Nvidia đã loại bỏ một trong những lựa chọn thay thế mạnh nhất trên thị trường. Các công ty không muốn phụ thuộc hoàn toàn vào Nvidia giờ có ít lựa chọn hơn đáng kể.
Những gã khổng lồ đang tự trang bị
Nhưng các ông lớn điện toán đám mây đã không ngồi yên chờ đợi.
Google có TPU, thế hệ thứ bảy mang tên Ironwood được ra mắt cuối năm 2025, hiệu năng cải thiện gấp 4 lần so với thế hệ trước, kết nối được tới 9.216 chip trong một cụm. Anthropic đã tuyên bố sẽ dùng tới một triệu TPU để huấn luyện và triển khai các dòng Claude tương lai, đây chính là bằng chứng thương mại mạnh nhất cho Ironwood.
Amazon có Trainium, được phát triển bởi công ty con Annapurna Labs, tập trung vào việc giảm chi phí hạ tầng đám mây và giảm phụ thuộc vào nhà cung cấp ngoài. AWS còn ký thỏa thuận nhiều năm với Cerebras, một startup dùng toàn bộ tấm wafer bán dẫn như một con chip duy nhất (gọi là Wafer-Level Engine), với tốc độ suy luận được công bố nhanh hơn tới 25 lần so với GPU Nvidia. OpenAI cũng đã ký hợp đồng hơn 10 tỷ đô la với Cerebras. Đến tháng 2 năm 2026, Cerebras hoàn thành vòng gọi vốn 1 tỷ đô la, nâng định giá lên khoảng 23 tỷ đô la.
Lý do các ông lớn đổ xô vào chip suy luận chuyên dụng (ASIC) là rất thực tế: GPU của Nvidia tiêu thụ khoảng 700 watt, trong khi chip suy luận chuyên dụng cùng sức mạnh chỉ cần dưới 200 watt. Với hàng trăm nghìn chip vận hành liên tục, sự khác biệt này có thể tiết kiệm hàng trăm triệu đô la mỗi năm.
Meta và Broadcom vừa ký thỏa thuận sản xuất 1 gigawatt chip huấn luyện và suy luận, thêm một tên mới vào danh sách đang ngày càng dài.
Intel tìm lại vị trí, CoreWeave trở thành hạ tầng
Intel, từng là vua của chip máy tính cá nhân nhưng gần như mất hút trong kỷ nguyên GPU, đang quay lại bằng con đường khác. Đầu năm 2026, SambaNova công bố giải pháp suy luận kết hợp giữa GPU, bộ xử lý Intel Xeon 6 và chip RDU của SambaNova, thiết kế riêng cho các tác vụ AI dạng tác nhân thông minh. Dữ liệu thử nghiệm cho thấy tốc độ biên dịch của Xeon 6 nhanh hơn 50% so với chip máy chủ dùng kiến trúc Arm, và hiệu năng cơ sở dữ liệu vector nhanh hơn tới 70%.
Ở phía cung cấp hạ tầng, CoreWeave đang trở thành cái tên không thể bỏ qua. Meta đã cam kết mua tổng cộng hơn 35 tỷ đô la sức mạnh tính toán từ CoreWeave tính đến năm 2032, chiếm khoảng 40% tổng đơn tồn đọng 87,8 tỷ đô la của công ty này. Năm 2025, CoreWeave đạt doanh thu 5,13 tỷ đô la, vận hành khoảng 600.000 GPU tại 43 trung tâm dữ liệu với tổng công suất 850 megawatt. Họ đang mở rộng rất nhanh và cần huy động vốn liên tục để duy trì tốc độ đó.
Cuộc chiến vẫn chưa ngã ngũ
Điều khác biệt của lần này so với cuộc chuyển dịch từ CPU sang GPU trước đây là không có một kiến trúc nào đủ sức thống trị tất cả. GPU xử lý phần điền dữ liệu song song, chip suy luận chuyên dụng đảm nhiệm phần giải mã, CPU lo lập lịch và điều phối. Đây là một hệ sinh thái phân công lao động phức tạp, không phải cuộc thay thế một đổi một.
Với Anthropic, tự làm chip là cách để tránh bị phụ thuộc vào nhà cung cấp thượng nguồn, nhưng chu kỳ phát triển dài và chi phí khổng lồ khiến con đường này không hề đơn giản. Với Nvidia, hệ sinh thái CUDA vẫn là lợi thế rất lớn, nhưng khoảng cách hiệu năng trên mỗi đồng chi phí ở khâu suy luận đang là mục tiêu mà tất cả đối thủ đang nhắm vào.
Ranh giới chiến tuyến đã được vạch ra. Danh sách người chơi vẫn đang tăng lên. Và kết quả thực sự vẫn chưa được định đoạt.
Mùa xuân năm 2026, Reuters đưa tin Anthropic đang nghiên cứu khả năng tự thiết kế chip AI riêng. Công ty sở hữu Claude, với doanh thu hàng năm vượt 30 tỷ đô la (khoảng 750 tỷ đồng), đang xem xét chuyển từ vai trò người mua sức mạnh tính toán sang người tự định hình nó.
Kế hoạch vẫn còn rất sơ khai. Chưa có đội ngũ chuyên trách, chưa có lộ trình cụ thể, và Anthropic hoàn toàn có thể chọn tiếp tục mua chip thay vì tự làm. Nhưng ngay cả việc họ đặt câu hỏi đó ra đã nói lên rất nhiều điều.
Hiện tại, Anthropic đang dùng TPU của Google và chip Trainium của Amazon để huấn luyện và vận hành Claude. Tuần này, họ vừa ký thỏa thuận dài hạn với Google và Broadcom. Cách làm hai hướng song song này, vừa mua chip bên ngoài vừa âm thầm nghiên cứu tự phát triển, rất giống Meta và Microsoft vài năm trước. Cả hai hiện đều đã có chip độc quyền của riêng mình.
Chi phí thiết kế một con chip AI cao cấp ước tính khoảng 500 triệu đô la (hơn 12.000 tỷ đồng). Con số lớn, nhưng điều đáng chú ý hơn là tín hiệu đằng sau nó.
Suy luận mới là chiến trường chính
Trong hai năm qua, trọng tâm của ngành AI đã dịch chuyển đáng kể. Trước đây, phần lớn nhu cầu tính toán nằm ở giai đoạn huấn luyện mô hình, kéo dài hàng tuần đến hàng tháng, cần các cụm GPU khổng lồ chạy song song. Đây là lãnh địa mà Nvidia gần như không có đối thủ.
Nhưng suy luận thì khác. Suy luận là thứ diễn ra mỗi khi bạn hỏi một câu và AI trả lời, tính bằng mili giây, đòi hỏi độ trễ thấp, tốc độ cao và tiêu thụ điện ít. GPU không được thiết kế tối ưu cho việc này.
Theo dự báo của Barclays, đến năm 2026, điện toán suy luận sẽ chiếm hơn 70% tổng nhu cầu tính toán AI, gấp 4,5 lần so với phần huấn luyện. Ai kiểm soát được suy luận, người đó nắm tương lai của thị trường chip AI.
Nvidia hiểu rõ điều này. Cuối năm ngoái, họ hợp tác với Groq, một startup chuyên chip suy luận đã từng tạo ra kiến trúc LPU (Bộ xử lý ngôn ngữ) có tốc độ tạo từ nhanh gấp 10 lần GPU thông thường trong khi chỉ tiêu thụ một phần mười điện năng. Thỏa thuận này được truyền thông ước tính trị giá khoảng 20 tỷ đô la, dù Nvidia gọi đây là cấp phép công nghệ và thu hút nhân tài chứ không phải mua lại truyền thống.
Bằng cách đưa Groq vào hệ sinh thái của mình, Nvidia đã loại bỏ một trong những lựa chọn thay thế mạnh nhất trên thị trường. Các công ty không muốn phụ thuộc hoàn toàn vào Nvidia giờ có ít lựa chọn hơn đáng kể.
Những gã khổng lồ đang tự trang bị
Nhưng các ông lớn điện toán đám mây đã không ngồi yên chờ đợi.
Google có TPU, thế hệ thứ bảy mang tên Ironwood được ra mắt cuối năm 2025, hiệu năng cải thiện gấp 4 lần so với thế hệ trước, kết nối được tới 9.216 chip trong một cụm. Anthropic đã tuyên bố sẽ dùng tới một triệu TPU để huấn luyện và triển khai các dòng Claude tương lai, đây chính là bằng chứng thương mại mạnh nhất cho Ironwood.
Amazon có Trainium, được phát triển bởi công ty con Annapurna Labs, tập trung vào việc giảm chi phí hạ tầng đám mây và giảm phụ thuộc vào nhà cung cấp ngoài. AWS còn ký thỏa thuận nhiều năm với Cerebras, một startup dùng toàn bộ tấm wafer bán dẫn như một con chip duy nhất (gọi là Wafer-Level Engine), với tốc độ suy luận được công bố nhanh hơn tới 25 lần so với GPU Nvidia. OpenAI cũng đã ký hợp đồng hơn 10 tỷ đô la với Cerebras. Đến tháng 2 năm 2026, Cerebras hoàn thành vòng gọi vốn 1 tỷ đô la, nâng định giá lên khoảng 23 tỷ đô la.
Lý do các ông lớn đổ xô vào chip suy luận chuyên dụng (ASIC) là rất thực tế: GPU của Nvidia tiêu thụ khoảng 700 watt, trong khi chip suy luận chuyên dụng cùng sức mạnh chỉ cần dưới 200 watt. Với hàng trăm nghìn chip vận hành liên tục, sự khác biệt này có thể tiết kiệm hàng trăm triệu đô la mỗi năm.
Meta và Broadcom vừa ký thỏa thuận sản xuất 1 gigawatt chip huấn luyện và suy luận, thêm một tên mới vào danh sách đang ngày càng dài.
Intel tìm lại vị trí, CoreWeave trở thành hạ tầng
Intel, từng là vua của chip máy tính cá nhân nhưng gần như mất hút trong kỷ nguyên GPU, đang quay lại bằng con đường khác. Đầu năm 2026, SambaNova công bố giải pháp suy luận kết hợp giữa GPU, bộ xử lý Intel Xeon 6 và chip RDU của SambaNova, thiết kế riêng cho các tác vụ AI dạng tác nhân thông minh. Dữ liệu thử nghiệm cho thấy tốc độ biên dịch của Xeon 6 nhanh hơn 50% so với chip máy chủ dùng kiến trúc Arm, và hiệu năng cơ sở dữ liệu vector nhanh hơn tới 70%.
Ở phía cung cấp hạ tầng, CoreWeave đang trở thành cái tên không thể bỏ qua. Meta đã cam kết mua tổng cộng hơn 35 tỷ đô la sức mạnh tính toán từ CoreWeave tính đến năm 2032, chiếm khoảng 40% tổng đơn tồn đọng 87,8 tỷ đô la của công ty này. Năm 2025, CoreWeave đạt doanh thu 5,13 tỷ đô la, vận hành khoảng 600.000 GPU tại 43 trung tâm dữ liệu với tổng công suất 850 megawatt. Họ đang mở rộng rất nhanh và cần huy động vốn liên tục để duy trì tốc độ đó.
Cuộc chiến vẫn chưa ngã ngũ
Điều khác biệt của lần này so với cuộc chuyển dịch từ CPU sang GPU trước đây là không có một kiến trúc nào đủ sức thống trị tất cả. GPU xử lý phần điền dữ liệu song song, chip suy luận chuyên dụng đảm nhiệm phần giải mã, CPU lo lập lịch và điều phối. Đây là một hệ sinh thái phân công lao động phức tạp, không phải cuộc thay thế một đổi một.
Với Anthropic, tự làm chip là cách để tránh bị phụ thuộc vào nhà cung cấp thượng nguồn, nhưng chu kỳ phát triển dài và chi phí khổng lồ khiến con đường này không hề đơn giản. Với Nvidia, hệ sinh thái CUDA vẫn là lợi thế rất lớn, nhưng khoảng cách hiệu năng trên mỗi đồng chi phí ở khâu suy luận đang là mục tiêu mà tất cả đối thủ đang nhắm vào.
Ranh giới chiến tuyến đã được vạch ra. Danh sách người chơi vẫn đang tăng lên. Và kết quả thực sự vẫn chưa được định đoạt.