Tại sao thu nhỏ các mô hình ngôn ngữ lớn là tương lai của AI tổng quát?

Thoại Viết Hoàng · 16/08/2023

Các mô hình ngôn ngữ nhỏ hơn có thể dựa trên một tỷ tham số hoặc ít hơn, nhưng nhỏ hơn nhiều so với các LLM nền tảng như ChatGPT và Bard.

Các tập đoàn có định cấm sử dụng ChatGPT không?

Tại sao thu nhỏ các mô hình ngôn ngữ lớn là tương lai của AI tổng quát?

Các doanh nghiệp rất muốn khai thác sức mạnh của AI tổng hợp, nhưng các mô hình ngôn ngữ lớn như ChatGPT đưa ra những thách thức rõ ràng đối với việc sử dụng của công ty. Một nghiên cứu trong tháng này cho thấy 75% các tổ chức đang xem xét hoặc đã thực hiện các lệnh cấm đối với các ứng dụng AI tổng quát, với lý do bảo mật, quyền riêng tư và các mối quan tâm khác. Chi phí đào tạo LLM cao cũng được coi là một rào cản đáng kể đối với việc áp dụng.
Để nhận được giá trị từ AI tổng quát, con đường phía trước nằm ở các mô hình ngôn ngữ nhỏ hơn, đòi hỏi ít thời gian và tài nguyên hơn để duy trì và có thể được vận hành bên trong vành đai bảo mật hiện có của công ty. Các mô hình ngôn ngữ nhỏ hơn có thể nhanh hơn và chính xác hơn vì chúng được tối ưu hóa cho một nhóm tác vụ hẹp hơn so với các mô hình làm tất cả đã thu hút được hầu hết sự chú ý cho đến nay.
LLM công khai như ChatGPT được gọi là mô hình “nền tảng” và chúng được tạo ra bằng cách thu thập một lượng lớn thông tin từ internet để trả lời các câu hỏi về hầu hết mọi chủ đề—từ cách nướng bánh cho đến cách cân đối danh mục đầu tư chứng khoán. Họ làm khá tốt các câu hỏi về kiến thức chung, nhưng họ dễ mắc lỗi vì họ cố gắng làm quá nhiều và họ sử dụng một lượng lớn sức mạnh tính toán để xây dựng và duy trì.
Điều họ không giỏi là trả lời các câu hỏi dành riêng cho tổ chức của bạn, bởi vì họ không có quyền truy cập vào dữ liệu nhạy cảm về khách hàng, tài chính và các dữ liệu độc quyền khác mà các doanh nghiệp luôn khóa sau vành đai bảo mật của họ. Việc cung cấp dữ liệu của tổ chức vào LLM công khai đơn giản không phải là một lựa chọn đối với hầu hết các công ty vì rủi ro bảo mật và quyền riêng tư quá cao.
Đây là một cơ hội bị lãng phí vì trí tuệ nhân tạo có thể là một công cụ vô cùng mạnh mẽ cho các doanh nghiệp. Với dữ liệu phù hợp, nhân viên điều hành tài khoản có thể đặt câu hỏi như: “Hãy chỉ cho tôi những khách hàng dễ bị rời bỏ và đề xuất các ưu đãi để giữ chân họ.” Một nhà tiếp thị có thể hỏi: “Hãy cho tôi ý tưởng chiến dịch cho lần ra mắt sản phẩm mới của chúng tôi trong Q4 dựa trên những gì đã hiệu quả với những lần ra mắt tương tự trong quá khứ.”
Chìa khóa để kích hoạt các loại câu hỏi này là các mô hình ngôn ngữ nhỏ hơn mà các công ty có thể vận hành và đào tạo trong môi trường đám mây an toàn của họ. Các mô hình này có thể được tùy chỉnh bằng cách đào tạo chúng trên dữ liệu nhạy cảm nhất của doanh nghiệp, vì dữ liệu đó không bao giờ phải được đưa vào LLM công khai và vì chúng là các mô hình nhỏ hơn nên chúng yêu cầu chi phí thấp hơn đáng kể.
NHƯ THẾ NÀO LÀ NHỎ?
Theo báo cáo, các LLM như ChatGPT được đào tạo về hơn 100 tỷ “tham số” hoặc các giá trị xác định cách thức hoạt động của mô hình. Điều đó khiến việc xây dựng và vận hành chúng vô cùng tốn kém—chi phí ước tính để đào tạo ChatGPT là 4 triệu USD.
Các mô hình ngôn ngữ nhỏ hơn có thể dựa trên một tỷ tham số hoặc ít hơn—vẫn khá lớn, nhưng nhỏ hơn nhiều so với các LLM nền tảng như ChatGPT và Bard. Chúng được đào tạo trước để hiểu từ vựng và lời nói của con người, vì vậy chi phí gia tăng để tùy chỉnh chúng bằng cách sử dụng dữ liệu của công ty và ngành cụ thể sẽ thấp hơn rất nhiều. Có một số tùy chọn cho các LLM được đào tạo trước này có thể được tùy chỉnh nội bộ, bao gồm AI21 và Reka, cũng như các LLM nguồn mở như Alpaca và Vicuna.
Các mô hình ngôn ngữ nhỏ hơn không chỉ tiết kiệm chi phí hơn mà còn chính xác hơn nhiều, bởi vì thay vì đào tạo chúng trên tất cả dữ liệu có sẵn công khai—cả tốt lẫn xấu—chúng được đào tạo và tối ưu hóa trên dữ liệu được kiểm tra cẩn thận để giải quyết chính xác các trường hợp sử dụng mà một doanh nghiệp quan tâm.
Điều đó không có nghĩa là chúng bị giới hạn trong dữ liệu nội bộ của công ty. Các mô hình ngôn ngữ nhỏ hơn có thể kết hợp dữ liệu của bên thứ ba về nền kinh tế, giá cả hàng hóa, thời tiết hoặc bất kỳ tập dữ liệu nào cần thiết và kết hợp chúng với tập dữ liệu độc quyền của họ. Các nguồn dữ liệu này được cung cấp rộng rãi từ các nhà cung cấp dịch vụ dữ liệu, những người đảm bảo thông tin luôn cập nhật, chính xác và rõ ràng.
TIẾP THEO LÀ GÌ CHO LLMS
Sắp tới, chúng ta có thể chỉ còn vài chục LLM nền tảng được sử dụng rộng rãi trên thế giới, được vận hành bởi những gã khổng lồ công nghệ như Meta, Google và Baidu. Giống như các công cụ tìm kiếm ngày nay, các LLM khổng lồ này yêu cầu nguồn lực khổng lồ để duy trì và nền kinh tế không hỗ trợ hàng trăm chatbot như Bard và ChatGPT.
Tuy nhiên, tôi nhìn thấy một tương lai với hàng ngàn mô hình ngôn ngữ nhỏ hơn, hoạt động ở cấp công ty hoặc bộ phận và cung cấp những hiểu biết có giá trị cho nhân viên. Những mô hình nhỏ hơn này có thể vô cùng hữu ích và là chìa khóa để mở ra sức mạnh thực sự của AI sáng tạo dành cho doanh nghiệp.
Tham khảo bài viết gốc tại đây: