Nvidia ra mắt mô hình AI mới siêu gọn nhẹ mà độ chính xác lại cao

Homelander The Seven

I will laser every f****** one of you!
Nvidia và Mistral AI vừa giới thiệu Mistral-NeMo-Minitron 8B, một mô hình ngôn ngữ nhỏ (LM) với độ chính xác "tiên tiến" trong một kích thước cực kỳ gọn nhẹ. LM mới này là phiên bản thu nhỏ của NeMo 12B, được cắt giảm từ 12 tỷ xuống còn 8 tỷ tham số.

Theo Bryan Catanzaro, Phó chủ tịch nghiên cứu học sâu tại Nvidia, mô hình ngôn ngữ 8 tỷ tham số mới này được thu nhỏ bằng hai phương pháp tối ưu hóa AI khác nhau: cắt tỉa (pruning) và chưng cất (distillation). "Cắt tỉa thu nhỏ mạng nơ-ron bằng cách loại bỏ các trọng số mô hình ít đóng góp nhất vào độ chính xác. Trong quá trình chưng cất, nhóm nghiên cứu đã đào tạo lại mô hình đã cắt tỉa này trên một tập dữ liệu nhỏ để tăng đáng kể độ chính xác, vốn đã giảm sau quá trình cắt tỉa."

Những tối ưu hóa này cho phép các nhà phát triển đào tạo mô hình ngôn ngữ tối ưu hóa trên "một phần nhỏ của tập dữ liệu ban đầu", giúp tiết kiệm chi phí tính toán thô lên tới 40 lần. Thông thường, các mô hình AI phải cân bằng giữa kích thước và độ chính xác, nhưng với kỹ thuật cắt tỉa và chưng cất mới của Nvidia và Mistral AI, các mô hình ngôn ngữ có thể đạt được cả hai yếu tố này.

Mistral-NeMo-Minitron 8B, với những cải tiến này, được cho là dẫn đầu 9 điểm chuẩn AI dựa trên ngôn ngữ với kích thước tương tự. Lượng điện toán được tiết kiệm đủ để Minitron 8B chạy cục bộ trên máy tính xách tay và máy trạm, giúp nó hoạt động nhanh hơn và an toàn hơn so với các dịch vụ đám mây.

1724398583319.png


Nvidia đã thiết kế Minitron 8B hướng đến phần cứng máy tính phổ thông. LM được đóng gói dưới dạng dịch vụ vi mô Nvidia NIM, và mô hình AI được tối ưu hóa cho độ trễ thấp, cải thiện thời gian phản hồi. Nvidia cung cấp dịch vụ mô hình tùy chỉnh AI Foundry để điều chỉnh Minitron 8B, cho phép nó hoạt động trên các hệ thống ít mạnh hơn, chẳng hạn như điện thoại thông minh. Mặc dù độ chính xác và hiệu suất sẽ không cao bằng, nhưng Nvidia khẳng định mô hình này vẫn là một LM có độ chính xác cao, chỉ yêu cầu một phần nhỏ dữ liệu đào tạo và cơ sở hạ tầng tính toán so với thông thường.

Cắt tỉa và chưng cất dường như là bước đột phá tiếp theo trong việc tối ưu hóa hiệu suất của trí tuệ nhân tạo. Về mặt lý thuyết, không có gì ngăn cản các nhà phát triển áp dụng những kỹ thuật tối ưu hóa này cho tất cả các mô hình ngôn ngữ hiện tại, giúp tăng đáng kể hiệu suất trên diện rộng, bao gồm cả các mô hình ngôn ngữ lớn chỉ có thể được vận hành bởi các hệ thống máy chủ tăng tốc AI.
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Top