Nhóm AI ổn định giới thiệu FreeWilly1 và FreeWilly2: Các mô hình ngôn ngữ lớn truy cập mở mới (LLM)

FreeWilly1 và người kế nhiệm FreeWilly2 là các Mô hình ngôn ngữ lớn (LLM) mã nguồn mở mới mạnh mẽ được phát triển bởi nhóm CarperAI của Stability AI.
Cả hai mô hình đều thể hiện xuất sắc trong các cuộc thi lập luận sử dụng nhiều thước đo khác nhau.
Nhóm AI ổn định giới thiệu FreeWilly1 và FreeWilly2: Các mô hình ngôn ngữ lớn truy cập mở mới (LLM)
Tinh chỉnh có giám sát (SFT) ở định dạng Alpaca tiêu chuẩn công nghiệp đã được sử dụng để tinh chỉnh mô hình FreeWilly1, được xây dựng dựa trên mô hình nền tảng LLaMA 65B ban đầu. FreeWilly2 sử dụng mô hình cơ sở LLaMA 2 70B để đạt được hiệu suất ngang với GPT-3.5 trong một số tác vụ.
Quá trình đào tạo các mô hình FreeWilly bị ảnh hưởng nặng nề bởi phương pháp đột phá của Microsoft, được mô tả trong bài viết “Orca: Học tập tiến bộ từ các dấu vết giải thích phức tạp của GPT-4”. Nhóm đã nhắc các mô hình ngôn ngữ có hướng dẫn chất lượng cao để tạo bản sao tập dữ liệu của chúng tôi, chứa 600.000 điểm dữ liệu (khoảng 10% kích thước tập dữ liệu được sử dụng trong tác phẩm gốc của Orca).
Sử dụng phương pháp này, các nhà nghiên cứu đã tạo ra 500.000 trường hợp sử dụng mô hình LLM ít phức tạp hơn và thêm 100.000 trường hợp sử dụng mô hình LLM phức tạp hơn. Họ đã sàng lọc kỹ lưỡng các bộ dữ liệu này, loại bỏ các trường hợp bắt nguồn từ tiêu chuẩn đánh giá để đảm bảo so sánh hợp lệ. Cách tiếp cận của họ đối với các bộ dữ liệu được tạo tổng hợp được xác thực bởi các mô hình FreeWilly hoạt động cực kỳ tốt trên nhiều điểm chuẩn mặc dù đào tạo chỉ bằng một phần mười kích thước mẫu được sử dụng trong bài báo gốc của Orca.
Các nhà nghiên cứu đã sử dụng lm-eval-khai thác của EleutherAI, mà họ đã thêm AGIEval, để tiến hành đánh giá các mô hình này. Các phát hiện cho thấy rằng cả hai mô hình FreeWilly đều xuất sắc khi giải quyết các vấn đề khó khăn trong các lĩnh vực chuyên ngành như luật và toán học, thực hiện lập luận phức tạp và nhận ra sắc thái ngôn ngữ.
Nhóm nghiên cứu tin rằng hai mô hình cải thiện khả năng nắm bắt ngôn ngữ nói của chúng ta và mở ra những khả năng không thể trước đây. Họ hy vọng sẽ thấy tất cả những ứng dụng sáng tạo của các mô hình này trong trí tuệ nhân tạo.
Tham khảo bài viết gốc tại đây
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Top