Sasha
Writer
Amazon cho biết cụm chip siêu lớn (megacluster) của hãng dành cho startup trí tuệ nhân tạo Anthropic sẽ là một trong những cụm chip lớn nhất thế giới và máy chủ khổng lồ mới của họ sẽ giúp giảm chi phí AI, đồng thời sẽ là một giải pháp thay thế cho Nvidia.
Amazon Web Services (AWS), bộ phận điện toán đám mây của Amazon, hôm 4/12 đã công bố kế hoạch ra mắt “Ultracluster", một siêu máy tính AI khổng lồ bao gồm hàng trăm nghìn chip Trainium tự sản xuất cùng một máy chủ mới, cũng là sản phẩm “nhà trồng được” của phòng thí nghiệm thiết kế chip AI của AWS.
Cụm chip “Ultracluster" của AWS sẽ được công ty khởi nghiệp về AI Anthropic sử dụng. Đây là startup vừa được Amazon bơm thêm 4 tỷ USD vốn đầu tư. Cụm chip này có tên là “Dự án Rainier” sẽ được đặt tại Hoa Kỳ. Theo Dave Brown, phó chủ tịch dịch vụ mạng và điện toán của AWS, khi hoàn thành vào năm 2025, đây sẽ là một trong những cụm lớn nhất thế giới để đào tạo các mô hình AI.
AWS cũng đã công bố một máy chủ mới có tên là Ultraserver bao gồm 64 chip kết nối tại hội nghị re:Invent thường niên của mình tại Las Vegas tổ chức vào ngày 3/12. Ngoài ra, AWS đã công bố Apple là một trong những khách hàng chip mới nhất của mình.
Kết hợp lại, các thông báo trên nhấn mạnh cam kết của AWS đối với Trainium, chip do công ty thiết kế nội bộ, đang định vị là một giải pháp thay thế khả thi cho các bộ vi xử lý đồ họa (GPU) của gã khổng lồ chip Nvidia bán ra.
Theo công ty nghiên cứu IDC, thị trường chất bán dẫn AI ước tính đạt 117,5 tỷ USD vào năm 2024 và sẽ đạt mức dự kiến là 193,3 tỷ USD vào cuối năm 2027. Nvidia chiếm khoảng 95% thị trường chip AI, theo nghiên cứu của IDC vừa công bố đầu tháng 12.
Matt Garman, giám đốc điều hành của Amazon Web Services cho biết: "Hiện nay, thực sự chỉ có một lựa chọn về GPU và đó chỉ là Nvidia. Chúng tôi nghĩ rằng khách hàng sẽ đánh giá cao việc có nhiều lựa chọn".
Một phần quan trọng trong chiến lược AI của Amazon là cập nhật chip tùy chỉnh để không chỉ có thể giảm chi phí AI cho khách hàng doanh nghiệp mà còn giúp công ty kiểm soát tốt hơn chuỗi cung ứng của mình. Điều đó cũng có thể khiến AWS ít phụ thuộc hơn vào Nvidia.
Qiong Zhao, một kỹ sư thử nghiệm ASIC tại Annapurna Labs, chạy nhiều thử nghiệm khác nhau trên chip Trainium2 mới.
Nhưng không thiếu các công ty muốn giành được thị phần từ doanh thu chip của Nvidia, bao gồm các công ty khởi nghiệp về chip AI như Groq, Cerebras Systems và SambaNova Systems. Các đối tác đám mây của Amazon, Microsoft và Google, cũng đang tự xây dựng chip AI và hướng đến mục tiêu giảm sự phụ thuộc vào Nvidia.
Amazon đã tự phát triển phần cứng cho khách hàng từ trước năm 2018, khi công ty này phát hành một bộ xử lý trung tâm có tên là Graviton dựa trên kiến trúc bộ xử lý từ nhà thiết kế chip ARM của Anh. Các giám đốc điều hành của Amazon cho biết công ty đặt mục tiêu thực hiện cùng một chiến lược đã giúp Graviton thành công, chứng minh với khách hàng rằng đây là lựa chọn có chi phí thấp hơn nhưng không kém phần hiệu quả so với công ty dẫn đầu thị trường.
Trọng tâm trong chiến lược tự làm chip của Amazon
Trọng tâm về tự phát triển chip của AWS nằm ở Austin (Texas, Mỹ), nơi có phòng thí nghiệm chip AI do Annapurna Labs điều hành. Annapurna Labs là công ty vi điện tử của Israel được Amazon mua lại với giá khoảng 350 triệu USD vào năm 2015.
Rami Sinno, giám đốc kỹ thuật tại Annapurna Labs ở Austin, Texas.
Phòng thí nghiệm chip đã ở đó kể từ những ngày khởi nghiệp của Annapurna, khi công ty này tìm cách đặt trụ sở tại một địa điểm mà các công ty chip lớn đã có văn phòng, Gadi Hutt, giám đốc kỹ thuật sản phẩm đã gia nhập công ty trước khi Amazon mua lại, cho biết.
Bên trong, các kỹ sư có thể ở trên sàn lắp ráp một ngày trong khi hàn vào ngày hôm sau, Rami Sinno, giám đốc kỹ thuật của phòng thí nghiệm cho biết. Họ làm bất cứ điều gì cần làm ngay lập tức, kiểu tư duy vội vã thường thấy ở các công ty khởi nghiệp hơn là các công ty nghìn tỷ đô la như Amazon.
Rami Sinno cho biết đó là do thiết kế, vì Annapurna không tìm kiếm các chuyên gia như phần còn lại của ngành. Ví dụ, công ty tìm kiếm một nhà thiết kế bo mạch, người cũng thông thạo về tính toàn vẹn của tín hiệu và cung cấp điện, và người cũng có thể viết mã.
“Chúng tôi thiết kế chip, lõi, máy chủ đầy đủ và giá đỡ cùng một lúc. Chúng tôi không đợi chip sẵn sàng để có thể thiết kế bo mạch xung quanh nó,” Sinno cho biết. “Điều này cho phép nhóm thực hiện siêu, siêu nhanh.”
AWS đã công bố Inferentia vào năm 2018, một con chip máy học chuyên dụng cho suy luận, là quá trình chạy dữ liệu qua mô hình AI để tạo ra đầu ra. James Hamilton, phó chủ tịch cấp cao và kỹ sư xuất sắc của Amazon cho biết, nhóm đã theo đuổi suy luận trước tiên vì đây là nhiệm vụ ít đòi hỏi hơn so với đào tạo.
Đến năm 2020, Annapurna đã sẵn sàng triển khai Trainium, con chip đầu tiên để khách hàng đào tạo các mô hình AI. Năm ngoái, Amazon đã công bố chip Trainium2, công ty cho biết hiện đã có sẵn để tất cả khách hàng sử dụng. AWS cũng cho biết hiện đang nghiên cứu các máy chủ dựa trên Trainium3, con chip mới mạnh hơn gấp bốn lần so với máy chủ dựa trên Trainium2.
Càng lớn càng tốt
Khi các mô hình AI và tập dữ liệu ngày càng lớn hơn, thì các chip và cụm chip cung cấp năng lượng cho chúng cũng vậy. Các gã khổng lồ công nghệ không chỉ mua thêm chip từ Nvidia hoặc tự thiết kế chip; giờ đây họ đang cố gắng đóng gói càng nhiều chip càng tốt vào một nơi.
Đó là một mục tiêu của cụm chip của Amazon, được xây dựng như một sự hợp tác giữa Annapurna và Anthropic: để công ty khởi nghiệp AI sử dụng cụm chip này để đào tạo và chạy các mô hình AI trong tương lai của mình. AWS cho biết cụm này lớn hơn năm lần, theo exaflop, so với cụm đào tạo hiện tại của Anthropic. Để so sánh, xAI của Elon Musk gần đây đã chế tạo một siêu máy tính mà họ gọi là Colossus với 100.000 chip Nvidia Hopper.
Ultraserver mới sử dụng hàng loạt chip Trainium2 trong "Quiet Lab" tại Annapurna Labs.
Hamilton cho biết: "Bạn càng mở rộng quy mô máy chủ, bạn càng ít cần phải giải quyết một vấn đề nhất định và cụm đào tạo tổng thể hoạt động hiệu quả hơn". "Ngay khi bạn nhận ra điều đó, bạn bắt đầu làm việc chăm chỉ để có được từng máy chủ lớn nhất và có khả năng nhất có thể".
Máy chủ Ultraserver của Amazon liên kết 64 chip thành một gói duy nhất, kết hợp bốn máy chủ, mỗi máy chủ chứa 16 chip Tranium. Brown cho biết một số máy chủ GPU Nvidia, để so sánh, chứa tám chip. Để liên kết chúng lại với nhau để hoạt động như một máy chủ duy nhất, có thể đạt tới 83,2 petaflop tính toán. Bí quyết bí mật khác của Amazon là mạng lưới của họ: tạo ra một công nghệ mà họ gọi là NeuronLink có thể giúp cả bốn máy chủ giao tiếp với nhau.
Amazon cho biết đó là tất cả những gì họ có thể đưa vào Ultraserver mà không làm quá nhiệt.
Nhưng thông điệp không hoàn toàn là "Hãy chọn chúng tôi hoặc Nvidia", Brown và các giám đốc điều hành khác của Amazon cho biết. Amazon cho biết họ đang nói với khách hàng rằng họ có thể gắn bó với bất kỳ sự kết hợp phần cứng nào họ thích trên nền tảng đám mây của mình.
Eiso Kant, đồng sáng lập kiêm giám đốc công nghệ của công ty khởi nghiệp về mã hóa AI Poolside, cho biết họ đang tiết kiệm được khoảng 40% giá so với việc chạy các mô hình AI của mình trên GPU của Nvidia. Nhưng nhược điểm là công ty khởi nghiệp này cần phải dành nhiều thời gian hơn cho các kỹ sư của mình để phần mềm chip liên quan của Amazon hoạt động.
Benoit Dupin, giám đốc cấp cao về máy học và AI tại Apple, đã phát biểu trên sân khấu sự kiện của AWS vào ngày 3/12 rằng Apple đang thử nghiệm chip Trainium2 và dự kiến sẽ tiết kiệm được khoảng 50%.
Amazon Web Services (AWS), bộ phận điện toán đám mây của Amazon, hôm 4/12 đã công bố kế hoạch ra mắt “Ultracluster", một siêu máy tính AI khổng lồ bao gồm hàng trăm nghìn chip Trainium tự sản xuất cùng một máy chủ mới, cũng là sản phẩm “nhà trồng được” của phòng thí nghiệm thiết kế chip AI của AWS.
Cụm chip “Ultracluster" của AWS sẽ được công ty khởi nghiệp về AI Anthropic sử dụng. Đây là startup vừa được Amazon bơm thêm 4 tỷ USD vốn đầu tư. Cụm chip này có tên là “Dự án Rainier” sẽ được đặt tại Hoa Kỳ. Theo Dave Brown, phó chủ tịch dịch vụ mạng và điện toán của AWS, khi hoàn thành vào năm 2025, đây sẽ là một trong những cụm lớn nhất thế giới để đào tạo các mô hình AI.
AWS cũng đã công bố một máy chủ mới có tên là Ultraserver bao gồm 64 chip kết nối tại hội nghị re:Invent thường niên của mình tại Las Vegas tổ chức vào ngày 3/12. Ngoài ra, AWS đã công bố Apple là một trong những khách hàng chip mới nhất của mình.
Kết hợp lại, các thông báo trên nhấn mạnh cam kết của AWS đối với Trainium, chip do công ty thiết kế nội bộ, đang định vị là một giải pháp thay thế khả thi cho các bộ vi xử lý đồ họa (GPU) của gã khổng lồ chip Nvidia bán ra.
Theo công ty nghiên cứu IDC, thị trường chất bán dẫn AI ước tính đạt 117,5 tỷ USD vào năm 2024 và sẽ đạt mức dự kiến là 193,3 tỷ USD vào cuối năm 2027. Nvidia chiếm khoảng 95% thị trường chip AI, theo nghiên cứu của IDC vừa công bố đầu tháng 12.
Matt Garman, giám đốc điều hành của Amazon Web Services cho biết: "Hiện nay, thực sự chỉ có một lựa chọn về GPU và đó chỉ là Nvidia. Chúng tôi nghĩ rằng khách hàng sẽ đánh giá cao việc có nhiều lựa chọn".
Một phần quan trọng trong chiến lược AI của Amazon là cập nhật chip tùy chỉnh để không chỉ có thể giảm chi phí AI cho khách hàng doanh nghiệp mà còn giúp công ty kiểm soát tốt hơn chuỗi cung ứng của mình. Điều đó cũng có thể khiến AWS ít phụ thuộc hơn vào Nvidia.
Qiong Zhao, một kỹ sư thử nghiệm ASIC tại Annapurna Labs, chạy nhiều thử nghiệm khác nhau trên chip Trainium2 mới.
Nhưng không thiếu các công ty muốn giành được thị phần từ doanh thu chip của Nvidia, bao gồm các công ty khởi nghiệp về chip AI như Groq, Cerebras Systems và SambaNova Systems. Các đối tác đám mây của Amazon, Microsoft và Google, cũng đang tự xây dựng chip AI và hướng đến mục tiêu giảm sự phụ thuộc vào Nvidia.
Amazon đã tự phát triển phần cứng cho khách hàng từ trước năm 2018, khi công ty này phát hành một bộ xử lý trung tâm có tên là Graviton dựa trên kiến trúc bộ xử lý từ nhà thiết kế chip ARM của Anh. Các giám đốc điều hành của Amazon cho biết công ty đặt mục tiêu thực hiện cùng một chiến lược đã giúp Graviton thành công, chứng minh với khách hàng rằng đây là lựa chọn có chi phí thấp hơn nhưng không kém phần hiệu quả so với công ty dẫn đầu thị trường.
Trọng tâm trong chiến lược tự làm chip của Amazon
Trọng tâm về tự phát triển chip của AWS nằm ở Austin (Texas, Mỹ), nơi có phòng thí nghiệm chip AI do Annapurna Labs điều hành. Annapurna Labs là công ty vi điện tử của Israel được Amazon mua lại với giá khoảng 350 triệu USD vào năm 2015.
Rami Sinno, giám đốc kỹ thuật tại Annapurna Labs ở Austin, Texas.
Phòng thí nghiệm chip đã ở đó kể từ những ngày khởi nghiệp của Annapurna, khi công ty này tìm cách đặt trụ sở tại một địa điểm mà các công ty chip lớn đã có văn phòng, Gadi Hutt, giám đốc kỹ thuật sản phẩm đã gia nhập công ty trước khi Amazon mua lại, cho biết.
Bên trong, các kỹ sư có thể ở trên sàn lắp ráp một ngày trong khi hàn vào ngày hôm sau, Rami Sinno, giám đốc kỹ thuật của phòng thí nghiệm cho biết. Họ làm bất cứ điều gì cần làm ngay lập tức, kiểu tư duy vội vã thường thấy ở các công ty khởi nghiệp hơn là các công ty nghìn tỷ đô la như Amazon.
Rami Sinno cho biết đó là do thiết kế, vì Annapurna không tìm kiếm các chuyên gia như phần còn lại của ngành. Ví dụ, công ty tìm kiếm một nhà thiết kế bo mạch, người cũng thông thạo về tính toàn vẹn của tín hiệu và cung cấp điện, và người cũng có thể viết mã.
“Chúng tôi thiết kế chip, lõi, máy chủ đầy đủ và giá đỡ cùng một lúc. Chúng tôi không đợi chip sẵn sàng để có thể thiết kế bo mạch xung quanh nó,” Sinno cho biết. “Điều này cho phép nhóm thực hiện siêu, siêu nhanh.”
AWS đã công bố Inferentia vào năm 2018, một con chip máy học chuyên dụng cho suy luận, là quá trình chạy dữ liệu qua mô hình AI để tạo ra đầu ra. James Hamilton, phó chủ tịch cấp cao và kỹ sư xuất sắc của Amazon cho biết, nhóm đã theo đuổi suy luận trước tiên vì đây là nhiệm vụ ít đòi hỏi hơn so với đào tạo.
Đến năm 2020, Annapurna đã sẵn sàng triển khai Trainium, con chip đầu tiên để khách hàng đào tạo các mô hình AI. Năm ngoái, Amazon đã công bố chip Trainium2, công ty cho biết hiện đã có sẵn để tất cả khách hàng sử dụng. AWS cũng cho biết hiện đang nghiên cứu các máy chủ dựa trên Trainium3, con chip mới mạnh hơn gấp bốn lần so với máy chủ dựa trên Trainium2.
Càng lớn càng tốt
Khi các mô hình AI và tập dữ liệu ngày càng lớn hơn, thì các chip và cụm chip cung cấp năng lượng cho chúng cũng vậy. Các gã khổng lồ công nghệ không chỉ mua thêm chip từ Nvidia hoặc tự thiết kế chip; giờ đây họ đang cố gắng đóng gói càng nhiều chip càng tốt vào một nơi.
Đó là một mục tiêu của cụm chip của Amazon, được xây dựng như một sự hợp tác giữa Annapurna và Anthropic: để công ty khởi nghiệp AI sử dụng cụm chip này để đào tạo và chạy các mô hình AI trong tương lai của mình. AWS cho biết cụm này lớn hơn năm lần, theo exaflop, so với cụm đào tạo hiện tại của Anthropic. Để so sánh, xAI của Elon Musk gần đây đã chế tạo một siêu máy tính mà họ gọi là Colossus với 100.000 chip Nvidia Hopper.
Ultraserver mới sử dụng hàng loạt chip Trainium2 trong "Quiet Lab" tại Annapurna Labs.
Hamilton cho biết: "Bạn càng mở rộng quy mô máy chủ, bạn càng ít cần phải giải quyết một vấn đề nhất định và cụm đào tạo tổng thể hoạt động hiệu quả hơn". "Ngay khi bạn nhận ra điều đó, bạn bắt đầu làm việc chăm chỉ để có được từng máy chủ lớn nhất và có khả năng nhất có thể".
Máy chủ Ultraserver của Amazon liên kết 64 chip thành một gói duy nhất, kết hợp bốn máy chủ, mỗi máy chủ chứa 16 chip Tranium. Brown cho biết một số máy chủ GPU Nvidia, để so sánh, chứa tám chip. Để liên kết chúng lại với nhau để hoạt động như một máy chủ duy nhất, có thể đạt tới 83,2 petaflop tính toán. Bí quyết bí mật khác của Amazon là mạng lưới của họ: tạo ra một công nghệ mà họ gọi là NeuronLink có thể giúp cả bốn máy chủ giao tiếp với nhau.
Amazon cho biết đó là tất cả những gì họ có thể đưa vào Ultraserver mà không làm quá nhiệt.
Nhưng thông điệp không hoàn toàn là "Hãy chọn chúng tôi hoặc Nvidia", Brown và các giám đốc điều hành khác của Amazon cho biết. Amazon cho biết họ đang nói với khách hàng rằng họ có thể gắn bó với bất kỳ sự kết hợp phần cứng nào họ thích trên nền tảng đám mây của mình.
Eiso Kant, đồng sáng lập kiêm giám đốc công nghệ của công ty khởi nghiệp về mã hóa AI Poolside, cho biết họ đang tiết kiệm được khoảng 40% giá so với việc chạy các mô hình AI của mình trên GPU của Nvidia. Nhưng nhược điểm là công ty khởi nghiệp này cần phải dành nhiều thời gian hơn cho các kỹ sư của mình để phần mềm chip liên quan của Amazon hoạt động.
Benoit Dupin, giám đốc cấp cao về máy học và AI tại Apple, đã phát biểu trên sân khấu sự kiện của AWS vào ngày 3/12 rằng Apple đang thử nghiệm chip Trainium2 và dự kiến sẽ tiết kiệm được khoảng 50%.