Sóng AI
Writer

Các nhà nghiên cứu từ các trường đại học hàng đầu như Carnegie Mellon, Stanford, Harvard và Princeton đã công bố nghiên cứu về hiện tượng "huấn luyện quá mức thảm họa" (catastrophic overtraining) trong mô hình ngôn ngữ lớn.
Nghiên cứu có tên "Overtrained Language Models Are Harder to Fine-Tune" (Mô hình ngôn ngữ được huấn luyện quá mức khó tinh chỉnh hơn) do Jacob Mitchell Springer dẫn đầu, hiện có sẵn trên arXiv.
Phát hiện chính: việc huấn luyện trước kéo dài có thể làm cho mô hình ngôn ngữ khó tinh chỉnh hơn, cuối cùng làm giảm hiệu suất của chúng.
Nhóm nghiên cứu đã so sánh hai phiên bản của mô hình nguồn mở OLMo-1B của AI2: một phiên bản được huấn luyện trước với 2,3 nghìn tỷ token và phiên bản khác với 3 nghìn tỷ token.
Mặc dù được huấn luyện với lượng dữ liệu nhiều hơn 30%, mô hình 3T-token lại hoạt động kém hơn sau khi tinh chỉnh hướng dẫn, với hiệu suất giảm hơn 2% trên nhiều tiêu chuẩn đánh giá.
Nguyên nhân được xác định là "độ nhạy tiến triển" (progressive sensitivity): khi mô hình trải qua huấn luyện trước kéo dài, các tham số trở nên nhạy cảm hơn với thay đổi.
Độ mong manh tăng cao này khiến mô hình dễ bị suy giảm trong quá trình tinh chỉnh sau đó, dẫn đến hiện tượng "quên lãng" (forgetting) - khả năng ban đầu của mô hình xuống cấp khi dữ liệu huấn luyện mới được đưa vào.
Nghiên cứu xác định "điểm uốn" trong quá trình huấn luyện trước, sau đó việc huấn luyện thêm dẫn đến hiệu suất giảm dần và thậm chí âm đối với kết quả tinh chỉnh. Đối với mô hình OLMo-1B, ngưỡng này xuất hiện khoảng 2,5 nghìn tỷ token.
Các phân tích được thực hiện trên nhiều tác vụ khác nhau, bao gồm tinh chỉnh hướng dẫn sử dụng bộ dữ liệu như Anthropic-HH và TULU, và tinh chỉnh đa phương thức sử dụng framework LLaVA.
Nhóm nghiên cứu cũng xây dựng mô hình lý thuyết sử dụng mạng tuyến tính để hiểu rõ hơn tại sao huấn luyện quá mức dẫn đến độ nhạy cảm tăng cao.
Kết luận: nhà cung cấp và người huấn luyện mô hình phải cân nhắc đánh đổi giữa việc cải thiện khả năng của mô hình cơ sở thông qua huấn luyện trước kéo dài và rủi ro suy giảm khả năng đó trong quá trình tinh chỉnh.
Đối với doanh nghiệp muốn tinh chỉnh mô hình nguồn mở, nghiên cứu này cho thấy việc tinh chỉnh các mô hình tham số thấp hơn được huấn luyện với ít dữ liệu hơn có khả năng tạo ra mô hình sản xuất đáng tin cậy hơn.

Nguồn: Songai.vn