Microsoft đang áp dụng phát triển SLM như thế nào

Mạnh Quân
Mạnh Quân
Phản hồi: 0
Microsoft đã ra mắt các mẫu mới nhất trong gia đình Phi, cung cấp khả năng nói, nhìn và văn bản để trao quyền cho các nhà phát triển với khả năng AI.
1740712034579.png

Khi nói đến cuộc đua AI, lớn hơn không phải lúc nào cũng tốt hơn. Thật vậy, tính thực tiễn của việc phát triển và triển khai các mô hình ngôn ngữ lớn (LLM) mạnh mẽ nhưng tốn nhiều tài nguyên có thể mang lại nhiều thách thức như cơ hội.
Sự phức tạp bao gồm chi phí năng lượng, chi phí vận hành cao hơn và khó khăn trong việc nhúng các mô hình lớn với nhu cầu tính toán cao trên các thiết bị có nguồn lực hạn chế đang làm nảy sinh một giải pháp thay thế: mô hình ngôn ngữ nhỏ (SLM).
Những công cụ AI nhỏ hơn này đang ngày càng được ưa chuộng bằng cách cung cấp cho các công ty, nhà phát triển và cá nhân những lợi thế quan trọng liên quan đến hiệu quả, chi phí và khả năng tùy chỉnh để thực hiện tốt các nhiệm vụ cụ thể.
Tận dụng nhu cầu này, Microsoft đã cho ra mắt Phi-4, phiên bản mới nhất của dòng SLM được thiết kế riêng để nâng cao hiệu suất và hiệu suất.
Dòng Phi được tạo ra để trao quyền cho các nhà phát triển với khả năng AI tiên tiến, mang lại hiệu suất ngang bằng nhiều đối thủ lớn hơn nhưng với chi phí thấp và độ trễ thấp.
Phi-4 phát triển dựa trên các khả năng này với hai mô hình mới: Phi-4-đa phương thức, có khả năng xử lý giọng nói, hình ảnh và văn bản đồng thời để tạo ra các ứng dụng sáng tạo và nhận biết ngữ cảnh, và Phi-4 mini, vượt trội trong các tác vụ dựa trên văn bản để cung cấp độ chính xác cao và khả năng mở rộng trong một hình thức nhỏ gọn.
Cả hai đều có sẵn trong Azure Ai Foundry, HuggingFace và NVIDIA API Catalog.

Phi-4: trao quyền đổi mới​

Weizhu Chen, Phó chủ tịch AI tạo sinh tại Microsoft, cho biết: “Phi-4-multimodal đánh dấu một cột mốc mới trong quá trình phát triển AI của Microsoft với tư cách là mô hình ngôn ngữ đa phương thức đầu tiên của chúng tôi”, đồng thời nói thêm rằng mô hình này được xây dựng dựa trên phản hồi trực tiếp của khách hàng để tích hợp xử lý giọng nói, hình ảnh và văn bản thành một kiến trúc thống nhất duy nhất.

Ông cho biết: “Bằng cách tận dụng các kỹ thuật học liên phương thức tiên tiến, mô hình này cho phép tương tác tự nhiên hơn và có nhận thức về ngữ cảnh, cho phép các thiết bị hiểu và lý luận trên nhiều phương thức đầu vào cùng lúc”.

“Cho dù là diễn giải ngôn ngữ nói, phân tích hình ảnh hay xử lý thông tin văn bản, nó đều mang lại khả năng suy luận hiệu quả cao, độ trễ thấp – đồng thời tối ưu hóa việc thực thi trên thiết bị và giảm chi phí tính toán.”

Kiến trúc mới của Phi-4-multimodal nâng cao hiệu quả và khả năng mở rộng, kết hợp vốn từ vựng lớn hơn để cải thiện khả năng xử lý và hỗ trợ khả năng đa ngôn ngữ.

Chen cho biết điều này làm cho nó rất phù hợp để triển khai trên các thiết bị và nền tảng điện toán biên.

Mô hình này đã chứng minh được hiệu suất cạnh tranh so với các đối thủ lớn hơn trong một số lĩnh vực. Nó vượt trội hơn các mô hình chuyên biệt khác về cả nhận dạng giọng nói tự động và dịch giọng nói và đã đứng đầu bảng xếp hạng Huggingface OpenASR với tỷ lệ lỗi từ là 6,14%, vượt qua kỷ lục trước đó là 6,5% tính đến tháng 2 năm 2025.

Ngoài ra, đây là một trong số ít mô hình mở có thể triển khai tóm tắt giọng nói thành công và đạt được mức hiệu suất tương đương với mô hình GPT-4o.

Phi-4-mini là mô hình tham số 3.8B được thiết kế để đạt tốc độ và hiệu quả. Nó cũng vượt trội hơn các mô hình lớn hơn trong các tác vụ dựa trên văn bản như lý luận, toán học, mã hóa và hướng dẫn theo sau. Nó mang lại độ chính xác và khả năng mở rộng cao, khiến nó trở thành giải pháp mạnh mẽ cho các ứng dụng AI tiên tiến.

Tùy chỉnh và sử dụng​

Kích thước nhỏ hơn của Phi-4 có nghĩa là cả hai mô hình đều có thể được sử dụng trong môi trường suy luận bị hạn chế về mặt tính toán và nhu cầu tính toán thấp hơn khiến chúng trở thành lựa chọn có chi phí thấp hơn với độ trễ tốt hơn, đặc biệt là đối với các tác vụ phân tích.

Theo Microsoft, SLM lý tưởng cho các tác vụ và ứng dụng bao gồm được nhà sản xuất nhúng trực tiếp vào điện thoại thông minh, tích hợp vào xe như hệ thống trợ lý trên xe và tự động hóa các tính toán và báo cáo phức tạp trong ngành dịch vụ tài chính.

SLM đang gia tăng​

Sự ra mắt của Phi-4 chứng minh sự phát triển của SLM như một giải pháp thay thế khả thi cho các nhiệm vụ đơn giản hơn và là giải pháp cho các tổ chức có nguồn lực hạn chế, nơi chúng có thể dễ dàng được tinh chỉnh hơn để đáp ứng các nhu cầu cụ thể.

Phát biểu trên blog của Microsoft vào năm 2024, Giám đốc sản phẩm chính của Trí tuệ nhân tạo tạo ra tại công ty, Sonali Yadav, đã nhắc đến sự tăng trưởng này và nói rằng: “Những gì chúng ta sẽ bắt đầu thấy không phải là sự chuyển dịch từ lớn sang nhỏ, mà là sự chuyển dịch từ một danh mục mô hình đơn lẻ sang danh mục các mô hình, nơi khách hàng có khả năng đưa ra quyết định về mô hình nào là tốt nhất cho tình huống của họ”.
Phi-4 những con số đáng chú ý
  • 5.6B - Các tham số trong mô hình đa phương thức Phi-4, ít hơn hầu hết các hệ thống đa phương thức cạnh tranh
  • 6,14% - Tỷ lệ lỗi từ trên bảng xếp hạng Huggingface OpenASR, lập kỷ lục chuẩn mực mới
  • 128.000 - Chiều dài chuỗi mã thông báo tối đa được hỗ trợ bởi mô hình Phi-4-mini, cho phép xử lý văn bản mở rộng
Ngoài ra, đây là một trong số ít mô hình mở có thể triển khai tóm tắt giọng nói thành công và đạt được mức hiệu suất tương đương với mô hình GPT-4o.

Phi-4-mini là mô hình tham số 3.8B được thiết kế để đạt tốc độ và hiệu quả. Nó cũng vượt trội hơn các mô hình lớn hơn trong các tác vụ dựa trên văn bản như lý luận, toán học, mã hóa và hướng dẫn theo sau. Nó mang lại độ chính xác và khả năng mở rộng cao, khiến nó trở thành giải pháp mạnh mẽ cho các ứng dụng AI tiên tiến.

Tùy chỉnh và sử dụng​

Kích thước nhỏ hơn của Phi-4 có nghĩa là cả hai mô hình đều có thể được sử dụng trong môi trường suy luận bị hạn chế về mặt tính toán và nhu cầu tính toán thấp hơn khiến chúng trở thành lựa chọn có chi phí thấp hơn với độ trễ tốt hơn, đặc biệt là đối với các tác vụ phân tích.

Theo Microsoft, SLM lý tưởng cho các tác vụ và ứng dụng bao gồm được nhà sản xuất nhúng trực tiếp vào điện thoại thông minh, tích hợp vào xe như hệ thống trợ lý trên xe và tự động hóa các tính toán và báo cáo phức tạp trong ngành dịch vụ tài chính.

SLM đang gia tăng​

Sự ra mắt của Phi-4 chứng minh sự phát triển của SLM như một giải pháp thay thế khả thi cho các nhiệm vụ đơn giản hơn và là giải pháp cho các tổ chức có nguồn lực hạn chế, nơi chúng có thể dễ dàng được tinh chỉnh hơn để đáp ứng các nhu cầu cụ thể.

Trên bài blog của Microsoft năm 2024, Giám đốc sản phẩm chính của Trí tuệ nhân tạo tạo ra tại công ty, Sonali Yadav, đã nhắc đến sự tăng trưởng này và nói rằng: “Những gì chúng ta sẽ bắt đầu thấy không phải là sự chuyển dịch từ lớn sang nhỏ, mà là sự chuyển dịch từ một danh mục mô hình đơn lẻ sang danh mục các mô hình, nơi khách hàng có khả năng đưa ra quyết định về mô hình nào là tốt nhất cho tình huống của họ”.

Microsoft không phải là công ty công nghệ duy nhất theo đuổi phát triển SLM. IBM gần đây đã công bố thế hệ tiếp theo của họ mô hình ngôn ngữ lớn Granite, tập trung vào các hệ thống nhỏ gọn và hiệu quả được thiết kế cho các ứng dụng kinh doanh thực tế.

Các mẫu Granite 3.2 của công ty tiếp tục chiến lược tập trung vào các mẫu máy nhỏ hơn được thiết kế để cung cấp các khả năng cụ thể mà không cần nhu cầu tính toán cao.

Bản phát hành bao gồm một mô hình ngôn ngữ thị giác mới có khả năng xử lý các tác vụ hiểu tài liệu mà theo IBM, có hiệu suất tương đương với các đối thủ cạnh tranh lớn hơn.

Công ty cũng đã tích hợp lý luận 'chuỗi suy nghĩ' vào phiên bản tham số 2B và 8B của Granite 3.2, có thể chia nhỏ các tác vụ phức tạp thành các bước nhỏ hơn tương tự như lý luận của con người.
Sriram Raghavan, Phó chủ tịch IBM AI Research cho biết: “Kỷ nguyên tiếp theo của AI là về hiệu quả, sự tích hợp và tác động thực tế - nơi các doanh nghiệp có thể đạt được kết quả mạnh mẽ mà không cần chi tiêu quá nhiều cho điện toán”.

Cũng như các bản cập nhật Granite, IBM đã phát hành thế hệ tiếp theo của các mô hình TinyTimeMixers. Mặc dù chỉ chứa ít hơn 10 triệu tham số, nhưng chúng có khả năng dự báo dữ liệu chuỗi thời gian lên đến hai năm trong tương lai.

Điều này khiến chúng có thể áp dụng cho các nhiệm vụ như lập kế hoạch chuỗi cung ứng, quản lý hàng tồn kho bán lẻ và phân tích xu hướng tài chính.

Raghavan lưu ý: “Những phát triển Granite mới nhất của IBM tập trung vào các giải pháp mở cho thấy một bước tiến nữa trong việc giúp AI dễ tiếp cận hơn, tiết kiệm chi phí hơn và có giá trị hơn đối với các doanh nghiệp hiện đại”.
 


Đăng nhập một lần thảo luận tẹt ga
Top