Nó có thể chạy trên điện thoại di động, với 1 nghìn tỷ dữ liệu đào tạo! StableLM-3B-4E1T đã có mặt tại đây

Đoàn Thúy Hà

Editor
Thành viên BQT
Vào ngày 2 tháng 10 theo giờ Mỹ, nền tảng mã nguồn mở nổi tiếng Stable.ai đã thông báo trên trang web chính thức của mình về việc ra mắt mô hình ngôn ngữ lớn mã nguồn mở StableLM-3B-4E1T. (Địa chỉ nguồn mở: )
Được biết, Stable LM 3B là mô hình ngôn ngữ lớn cơ bản chủ yếu dành cho các thiết bị di động như điện thoại di động và máy tính xách tay, giúp giảm đáng kể yêu cầu về tài nguyên máy tính mà vẫn đảm bảo hiệu suất.
StableLM 3B hỗ trợ các chức năng như tạo văn bản/mã, tóm tắt tóm tắt, tinh chỉnh dữ liệu, suy luận thông thường và giải các bài toán. Độ dài ngữ cảnh chung là 4096. (gọi tắt là "LM 3B Stable")
Nó có thể chạy trên điện thoại di động, với 1 nghìn tỷ dữ liệu đào tạo! StableLM-3B-4E1T đã có mặt tại đây
Với sự phổ biến của ChatGPT, đã có một "sự bùng nổ phát triển mô hình lớn" mạnh mẽ trên khắp thế giới. Tuy nhiên, hầu hết các mô hình đều yêu cầu một lượng lớn tài nguyên máy tính phải được đào tạo trước và tinh chỉnh, đồng thời chúng cũng có yêu cầu cao về môi trường hoạt động của các ứng dụng Generative AI được phát triển. Qualcomm thậm chí còn phát hành một chip AI tổng hợp dành riêng cho thiết bị di động để giải quyết vấn đề về sức mạnh tính toán.
Stability.ai hy vọng sẽ mã nguồn mở Stable LM 3B để giúp các nhà phát triển không có tài nguyên máy tính khổng lồ tạo ra các sản phẩm AI tổng quát nhỏ và gọn có thể chạy an toàn và ổn định trên thiết bị di động.

Bộ dữ liệu huấn luyện StableLM 3B​

Mặc dù mô hình chỉ có 3 tỷ tham số nhưng nó sử dụng bộ dữ liệu đào tạo khổng lồ gồm 1 nghìn tỷ mã thông báo bao gồm văn bản, mã, Wikipedia, ArXiv, sách, C4 và các dữ liệu khác.
Tập dữ liệu này được lọc và trộn từ nhiều tập dữ liệu quy mô lớn nguồn mở, bao gồm Falcon RefinedWeb, RedPajama-Data, The Pile và StarCoder.
Điều này giúp Stable LM 3B vượt qua các mô hình cùng kích thước với ít tài nguyên hơn và thậm chí còn mạnh hơn một số mô hình lớn có 7 tỷ hoặc 10 tỷ tham số.
Nó có thể chạy trên điện thoại di động, với 1 nghìn tỷ dữ liệu đào tạo! StableLM-3B-4E1T đã có mặt tại đây

Quy trình đào tạo StableLM 3B​

StableLM 3B bắt đầu với quá trình đào tạo chính xác bfloat16 là 972k và độ dài ngữ cảnh toàn cầu là 4096, thay vì cải tiến nhiều giai đoạn từ 2048 đến 4096 như StableLM-Alpha v2.
Stability.ai đã sử dụng AdamW để tối ưu hóa hiệu suất và sử dụng khởi động tuyến tính cho 4800 bước đầu tiên, sau đó là lịch trình phân rã cosine để giảm tốc độ học xuống 4% so với mức cao nhất.
Sự bất ổn sớm được cho là do thời gian lưu trú kéo dài trong khu vực có tỷ lệ học tập cao. Vì mô hình tương đối nhỏ nên dropout không được sử dụng.
Nó có thể chạy trên điện thoại di động, với 1 nghìn tỷ dữ liệu đào tạo! StableLM-3B-4E1T đã có mặt tại đây
Trong quá trình đào tạo, Stability.ai đánh giá các tiêu chuẩn ngôn ngữ tự nhiên và quan sát những cải thiện ổn định từ quá trình đào tạo khi kết thúc lịch trình giảm tốc độ học tập. Vì lý do này, các nhà phát triển đã quyết định giảm tuyến tính tốc độ học xuống 0, tương tự như những gì Zhai và cộng sự đã làm, với hy vọng đạt được hiệu suất tốt hơn.
Ngoài ra, giai đoạn đầu của quá trình đào tạo trước còn dựa vào API chú ý nhanh và khả năng hỗ trợ sẵn có của nó cho việc che dấu nhân quả hình tam giác. Điều này buộc mô hình phải xử lý các tài liệu khác nhau theo trình tự được đóng gói theo cách tương tự.
Trong giai đoạn hạ nhiệt, Stability.ai đặt lại ID vị trí và mặt nạ chú ý tại các điểm đánh dấu EOD cho tất cả các chuỗi được đóng gói sau khi quan sát bằng thực nghiệm chất lượng mẫu được cải thiện (tức là: giảm trùng lặp) trong các thử nghiệm đồng thời.
Nó có thể chạy trên điện thoại di động, với 1 nghìn tỷ dữ liệu đào tạo! StableLM-3B-4E1T đã có mặt tại đây
Về phần cứng, StableLM-3B được đào tạo trên cụm tính toán của Stability AI. Cụm chứa 256 card đồ họa NVIDIA A100 40GB. Khóa đào tạo bắt đầu vào ngày 23 tháng 8 năm 2023 và mất khoảng 30 ngày để hoàn thành.
Về mặt kiểm tra hiệu suất, StableLM-3B đã được thử nghiệm trong khung đánh giá khai thác đánh giá lm không mẫu. Kết quả cho thấy hiệu năng không hề thua kém so với model có 7 tỷ thông số, thậm chí còn mạnh hơn một số model có 10 tỷ thông số.
Nó có thể chạy trên điện thoại di động, với 1 nghìn tỷ dữ liệu đào tạo! StableLM-3B-4E1T đã có mặt tại đây
Tài liệu của bài viết này được lấy từ trang web chính thức của Stability.ai. Nếu có bất kỳ vi phạm nào, vui lòng liên hệ với chúng tôi để xóa nó.
>> Top 10 thương vụ M&A tiềm năng trong lĩnh vực AI: Microsoft có thể mua lại Hugging Face
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Top