Sau DeepSeek, một công ty Trung Quốc nữa vừa công bố đột phá về AI dựa trên chip nội

Sasha
Sasha
Phản hồi: 0

Sasha

Writer
Theo hãng tin Bloomberg, công ty Ant Group được Jack Ma hậu thuẫn đã sử dụng chất bán dẫn do Trung Quốc sản xuất để phát triển các kỹ thuật đào tạo mô hình AI giúp cắt giảm chi phí 20%.

Theo các nguồn tin chia sẻ với Bloomberg, Ant Group đã sử dụng chip trong nước, bao gồm chip từ công ty liên kết Alibaba Group Holding và Huawei Technologies để đào tạo các mô hình bằng phương pháp học máy Mixture of Experts. Kết quả thu được tương tự như chip của Nvidia như H800. Ant vẫn đang sử dụng Nvidia để phát triển AI nhưng hiện chủ yếu dựa vào các giải pháp thay thế, bao gồm Advanced Micro Devices và chip Trung Quốc cho các mô hình mới nhất của mình.

1742800076987.png

Các mô hình này đánh dấu sự tham gia của Ant Group vào cuộc đua giữa các công ty Trung Quốc và Mỹ đang diễn ra nhanh chóng kể từ khi DeepSeek chứng minh cách đào tạo các mô hình có khả năng với chi phí thấp hơn nhiều so với hàng tỷ USD do OpenAI và Google đầu tư. Điều này nhấn mạnh cách các công ty Trung Quốc đang cố gắng sử dụng các giải pháp thay thế tại địa phương cho các chất bán dẫn Nvidia tiên tiến nhất. Mặc dù không phải là tiên tiến nhất, nhưng H800 là bộ xử lý tương đối mạnh và hiện đang bị Mỹ cấm bán cho Trung Quốc.

Đầu tháng này, Ant Group đã công bố một bài báo nghiên cứu khẳng định rằng các mô hình AI của họ đôi khi vượt trội hơn Meta trong một số tiêu chuẩn nhất định.Nếu chúng hoạt động như quảng cáo, các nền tảng của Ant Group có thể đánh dấu một bước tiến nữa cho sự phát triển trí tuệ nhân tạo của Trung Quốc bằng cách cắt giảm chi phí suy luận hoặc hỗ trợ các dịch vụ AI.

Khi các công ty đổ nhiều tiền vào AI, các mô hình học máy Mixture of Experts (MoE) đã nổi lên như một lựa chọn phổ biến, được Google và công ty khởi nghiệp DeepSeek tại Hàng Châu công nhận khi sử dụng, cùng nhiều công ty khác. Kỹ thuật đó chia các nhiệm vụ thành các tập dữ liệu nhỏ hơn, rất giống với việc có một nhóm chuyên gia, mỗi người tập trung vào một phân đoạn của công việc, giúp quy trình hiệu quả hơn.

Tuy nhiên, việc đào tạo các mô hình MoE thường dựa vào các chip hiệu suất cao như các đơn vị xử lý đồ họa mà Nvidia bán. Cho đến nay, chi phí vẫn là rào cản đối với nhiều công ty nhỏ và hạn chế việc áp dụng rộng rãi hơn. Ant đã và đang tìm cách đào tạo LLM hiệu quả hơn và loại bỏ hạn chế đó. Tiêu đề bài báo của công ty nêu rõ điều này, vì công ty đặt mục tiêu mở rộng mô hình "mà không cần GPU cao cấp".

Điều đó trái ngược với Nvidia. Tổng giám đốc điều hành Jensen Huang đã lập luận rằng nhu cầu tính toán sẽ tăng ngay cả khi có các mô hình hiệu quả hơn như R1 của DeepSeek, đưa ra giả thuyết rằng các công ty sẽ cần chip tốt hơn để tạo ra nhiều doanh thu hơn, chứ không phải chip rẻ hơn để cắt giảm chi phí. Ông vẫn trung thành với chiến lược xây dựng GPU lớn với nhiều lõi xử lý, bóng bán dẫn và dung lượng bộ nhớ tăng lên.

Ant cho biết chi phí đào tạo 1 nghìn tỷ token bằng phần cứng hiệu suất cao là khoảng 6,35 triệu nhân dân tệ (880.000 USD), nhưng phương pháp tối ưu hóa của công ty sẽ cắt giảm xuống còn 5,1 triệu nhân dân tệ bằng phần cứng có thông số kỹ thuật thấp hơn. Token là đơn vị thông tin mà mô hình thu thập để tìm hiểu về thế giới và đưa ra phản hồi hữu ích cho các truy vấn của người dùng.

Theo những nguồn tin chia sẻ với Blomberg, Ant có kế hoạch tận dụng bước đột phá gần đây trong các mô hình ngôn ngữ lớn mà công ty đã phát triển, Ling-Plus và Ling-Lite, cho các giải pháp AI công nghiệp bao gồm chăm sóc sức khỏe và tài chính.

Ant đã mua nền tảng trực tuyến Haodf.com của Trung Quốc vào năm nay để tăng cường các dịch vụ trí tuệ nhân tạo trong lĩnh vực chăm sóc sức khỏe. Công ty cũng có một ứng dụng "trợ lý cuộc sống" AI có tên là Zhixiaobao và một dịch vụ tư vấn tài chính AI Maxiaocai.

Về khả năng hiểu tiếng Anh, Ant cho biết trong bài báo của mình rằng mô hình Ling-Lite hoạt động tốt hơn trong một chuẩn mực quan trọng so với một trong những mô hình Llama của Meta. Cả hai mô hình Ling-Lite và Ling-Plus đều vượt trội hơn các mô hình tương đương của DeepSeek trong các chuẩn mực tiếng Trung.

"Nếu bạn tìm thấy một điểm tấn công để đánh bại bậc thầy kung fu giỏi nhất thế giới, bạn vẫn có thể nói rằng mình đã đánh bại họ, đó là lý do tại sao ứng dụng trong thế giới thực lại quan trọng", Robin Yu, giám đốc công nghệ của nhà cung cấp giải pháp AI có trụ sở tại Bắc Kinh Shengshang Tech cho biết.

Ant đã biến các mô hình Ling thành mã nguồn mở. Ling-Lite chứa 16,8 tỷ tham số, là các cài đặt có thể điều chỉnh hoạt động như núm xoay và mặt số để điều khiển hiệu suất của mô hình. Ling-Plus có 290 tỷ tham số, được coi là tương đối lớn trong lĩnh vực mô hình ngôn ngữ. Để so sánh, các chuyên gia ước tính rằng GPT-4.5 của ChatGPT có 1,8 nghìn tỷ tham số, theo MIT Technology Review. DeepSeek-R1 có 671 tỷ.

Ant đã phải đối mặt với những thách thức trong một số lĩnh vực đào tạo, bao gồm cả tính ổn định. Ngay cả những thay đổi nhỏ trong phần cứng hoặc cấu trúc của mô hình cũng dẫn đến các vấn đề, bao gồm cả sự gia tăng trong tỷ lệ lỗi của mô hình, báo cáo cho biết.
 


Đăng nhập một lần thảo luận tẹt ga
Top