A-Train The Seven
...'cause for once, I didn't hate myself.
OpenAI đang điều chỉnh chiến lược phát triển chip AI của mình. Thay vì tự xây dựng mạng lưới nhà máy sản xuất chip như kế hoạch ban đầu, công ty đang tập trung vào việc phát triển chip AI chuyên dụng cho tác vụ suy luận, hợp tác với Broadcom trong thiết kế và TSMC trong sản xuất. Đồng thời, OpenAI tiếp tục bổ sung thêm chip từ Nvidia và AMD để đáp ứng nhu cầu hiện tại.
Ban đầu, với mong muốn giảm sự phụ thuộc vào Nvidia, OpenAI đã cân nhắc việc tự phát triển chip cho cả huấn luyện và suy luận, đồng thời hỗ trợ xây dựng hàng loạt nhà máy sản xuất chip (do các xưởng đúc nổi tiếng như TSMC và Samsung Foundry vận hành). Tuy nhiên, chi phí cao và thời gian triển khai dài đã khiến kế hoạch này trở nên không khả thi. Do đó, OpenAI đã ưu tiên thiết kế chip AI tùy chỉnh cho suy luận cùng với Broadcom và sản xuất chúng tại TSMC. Hiện tại, OpenAI sẽ tiếp tục sử dụng GPU từ Nvidia và AMD cho việc huấn luyện.
Trong khi các GPU AI hiệu năng cao như Nvidia H100 và H200 đang được sử dụng rộng rãi cho việc huấn luyện các mô hình ngôn ngữ lớn, dẫn đến tình trạng khan hiếm, nhu cầu về chip suy luận AI được dự đoán sẽ tăng trưởng khi ngày càng nhiều ứng dụng AI ra mắt thị trường. Chip suy luận tùy chỉnh của OpenAI dự kiến sẽ được phát hành vào năm 2026. Theo Reuters, thời điểm này có thể được điều chỉnh dựa trên nhu cầu dự án, nhưng trọng tâm vẫn là các tác vụ suy luận giúp tăng cường khả năng phản hồi thời gian thực của AI.
Để hỗ trợ việc phát triển chip mới này, OpenAI đã tập hợp một đội ngũ khoảng 20 kỹ sư, dẫn đầu bởi các chuyên gia giàu kinh nghiệm như Thomas Norrie và Richard Ho, những người trước đây từng làm việc trên bộ xử lý Tensor (TPU) của Google. Đội ngũ này đóng vai trò quan trọng trong việc thúc đẩy thiết kế nội bộ, cho phép tùy chỉnh và tối ưu hóa hiệu quả hơn.
Hiện tại, OpenAI đang áp dụng chiến lược tương tự như Amazon Web Services, Google, Meta và Microsoft. Các công ty này đều sở hữu chip riêng cho AI hoặc tác vụ đa năng, đôi khi được đồng phát triển với Broadcom. Bên cạnh chiến lược phát triển chip nội bộ, OpenAI cũng đa dạng hóa nguồn cung phần cứng để giảm sự phụ thuộc vào Nvidia, công ty đang thống trị thị trường GPU AI và phần cứng huấn luyện AI. OpenAI dự định triển khai AMD Instinct MI300X thông qua nền tảng đám mây Azure của Microsoft, giúp đa dạng hóa danh mục phần cứng.
Mặc dù ChatGPT rất phổ biến, OpenAI dự kiến sẽ lỗ 5 tỷ USD trong năm nay so với doanh thu 3,7 tỷ USD do chi phí vận hành cao, bao gồm chi phí đám mây, điện và phần cứng. Việc đa dạng hóa phần cứng có thể giúp công ty giảm chi phí phần cứng, và chip tùy chỉnh được kỳ vọng sẽ giảm mức tiêu thụ điện năng, nhưng điều này sẽ chỉ xảy ra vào năm 2026.
Trong khi OpenAI đang tìm kiếm các đối tác để mở rộng nguồn cung phần cứng, công ty vẫn thận trọng để không làm ảnh hưởng đến mối quan hệ với Nvidia, khi công ty này tiếp tục phát triển các GPU hiệu năng cao nhất ngành cho AI. Do đó, OpenAI có thể vẫn sẽ phụ thuộc vào Nvidia nếu muốn huấn luyện các mô hình AI tốt nhất.
GPU Blackwell thế hệ tiếp theo của Nvidia dành cho AI và HPC được kỳ vọng sẽ mang lại những cải tiến đáng kể về hiệu năng so với GPU Hopper hiện tại, cho phép các công ty như OpenAI huấn luyện các mô hình AI phức tạp hơn. Tuy nhiên, GPU Blackwell tiêu thụ nhiều năng lượng hơn so với Hopper. Vì vậy, mặc dù tổng chi phí sở hữu, khi xét đến hiệu năng, có thể thấp hơn so với các sản phẩm tiền nhiệm, nhưng việc vận hành chúng có thể tốn kém hơn, làm tăng chi phí của OpenAI.
Ban đầu, với mong muốn giảm sự phụ thuộc vào Nvidia, OpenAI đã cân nhắc việc tự phát triển chip cho cả huấn luyện và suy luận, đồng thời hỗ trợ xây dựng hàng loạt nhà máy sản xuất chip (do các xưởng đúc nổi tiếng như TSMC và Samsung Foundry vận hành). Tuy nhiên, chi phí cao và thời gian triển khai dài đã khiến kế hoạch này trở nên không khả thi. Do đó, OpenAI đã ưu tiên thiết kế chip AI tùy chỉnh cho suy luận cùng với Broadcom và sản xuất chúng tại TSMC. Hiện tại, OpenAI sẽ tiếp tục sử dụng GPU từ Nvidia và AMD cho việc huấn luyện.
Trong khi các GPU AI hiệu năng cao như Nvidia H100 và H200 đang được sử dụng rộng rãi cho việc huấn luyện các mô hình ngôn ngữ lớn, dẫn đến tình trạng khan hiếm, nhu cầu về chip suy luận AI được dự đoán sẽ tăng trưởng khi ngày càng nhiều ứng dụng AI ra mắt thị trường. Chip suy luận tùy chỉnh của OpenAI dự kiến sẽ được phát hành vào năm 2026. Theo Reuters, thời điểm này có thể được điều chỉnh dựa trên nhu cầu dự án, nhưng trọng tâm vẫn là các tác vụ suy luận giúp tăng cường khả năng phản hồi thời gian thực của AI.
Để hỗ trợ việc phát triển chip mới này, OpenAI đã tập hợp một đội ngũ khoảng 20 kỹ sư, dẫn đầu bởi các chuyên gia giàu kinh nghiệm như Thomas Norrie và Richard Ho, những người trước đây từng làm việc trên bộ xử lý Tensor (TPU) của Google. Đội ngũ này đóng vai trò quan trọng trong việc thúc đẩy thiết kế nội bộ, cho phép tùy chỉnh và tối ưu hóa hiệu quả hơn.
Hiện tại, OpenAI đang áp dụng chiến lược tương tự như Amazon Web Services, Google, Meta và Microsoft. Các công ty này đều sở hữu chip riêng cho AI hoặc tác vụ đa năng, đôi khi được đồng phát triển với Broadcom. Bên cạnh chiến lược phát triển chip nội bộ, OpenAI cũng đa dạng hóa nguồn cung phần cứng để giảm sự phụ thuộc vào Nvidia, công ty đang thống trị thị trường GPU AI và phần cứng huấn luyện AI. OpenAI dự định triển khai AMD Instinct MI300X thông qua nền tảng đám mây Azure của Microsoft, giúp đa dạng hóa danh mục phần cứng.
Mặc dù ChatGPT rất phổ biến, OpenAI dự kiến sẽ lỗ 5 tỷ USD trong năm nay so với doanh thu 3,7 tỷ USD do chi phí vận hành cao, bao gồm chi phí đám mây, điện và phần cứng. Việc đa dạng hóa phần cứng có thể giúp công ty giảm chi phí phần cứng, và chip tùy chỉnh được kỳ vọng sẽ giảm mức tiêu thụ điện năng, nhưng điều này sẽ chỉ xảy ra vào năm 2026.
Trong khi OpenAI đang tìm kiếm các đối tác để mở rộng nguồn cung phần cứng, công ty vẫn thận trọng để không làm ảnh hưởng đến mối quan hệ với Nvidia, khi công ty này tiếp tục phát triển các GPU hiệu năng cao nhất ngành cho AI. Do đó, OpenAI có thể vẫn sẽ phụ thuộc vào Nvidia nếu muốn huấn luyện các mô hình AI tốt nhất.
GPU Blackwell thế hệ tiếp theo của Nvidia dành cho AI và HPC được kỳ vọng sẽ mang lại những cải tiến đáng kể về hiệu năng so với GPU Hopper hiện tại, cho phép các công ty như OpenAI huấn luyện các mô hình AI phức tạp hơn. Tuy nhiên, GPU Blackwell tiêu thụ nhiều năng lượng hơn so với Hopper. Vì vậy, mặc dù tổng chi phí sở hữu, khi xét đến hiệu năng, có thể thấp hơn so với các sản phẩm tiền nhiệm, nhưng việc vận hành chúng có thể tốn kém hơn, làm tăng chi phí của OpenAI.