“Mô hình ngôn ngữ tự thưởng” là gì? Tham khảo trường hợp của Meta

Mr. Macho
Mr. Macho
Phản hồi: 0

Mr. Macho

Writer
Trong bài báo “Các mô hình ngôn ngữ tự thưởng” của Meta công bố năm ngoái, các tác giả thảo luận về sự tiến hóa của việc đào tạo các mô hình ngôn ngữ lớn (LLM). Theo truyền thống, các mô hình như thế này đã được cải tiến bằng cách sử dụng dữ liệu sở thích của con người, giúp tăng đáng kể khả năng tuân theo hướng dẫn của chúng. Điều này thường đạt được thông qua các kỹ thuật như Học tăng cường từ phản hồi của con người (RLHF), trong đó một mô hình phần thưởng, được đào tạo dựa trên sở thích của con người, được sử dụng để hướng dẫn LLM. Một phương pháp khác là Tối ưu hóa sở thích trực tiếp (DPO), áp dụng trực tiếp sở thích của con người để đào tạo LLM. Tuy nhiên, cả hai phương pháp đều gặp phải những hạn chế liên quan đến khối lượng và chất lượng phản hồi của con người, trong đó RLHF còn bị hạn chế thêm bởi bản chất tĩnh của mô hình phần thưởng sau khi được đào tạo.

Trong công trình này, họ đề xuất thay vào đó là đào tạo một mô hình phần thưởng tự cải thiện, thay vì bị đóng băng, liên tục cập nhật trong quá trình căn chỉnh LLM, để tránh tình trạng tắc nghẽn hoặc nhược điểm này. Chìa khóa cho cách tiếp cận như vậy là phát triển một tác nhân sở hữu tất cả các khả năng mong muốn trong quá trình đào tạo, thay vì tách chúng ra thành các mô hình riêng biệt như mô hình phần thưởng và mô hình ngôn ngữ.

Do đó, họ giới thiệu các Mô hình ngôn ngữ tự thưởng, các tác nhân (i) hoạt động như các mô hình theo hướng dẫn tạo ra phản hồi cho các lời nhắc đã cho; và (ii) có thể tạo ra và đánh giá hướng dẫn mới theo các ví dụ để thêm vào bộ đào tạo của riêng chúng.
1738833371387.png

Hình 1: Mô hình ngôn ngữ tự thưởng
DPO là gì?
1738833390923.png

Hình 2: Tối ưu hóa sở thích trực tiếp
Tối ưu hóa sở thích trực tiếp (DPO) là một thuật toán tối ưu hóa trực tiếp một chính sách đáp ứng tốt nhất sở thích của con người theo mục tiêu phân loại. Đây là một giải pháp thay thế đơn giản hơn cho RLHF (Học tăng cường với phản hồi của con người) và ổn định, hiệu suất cao và nhẹ về mặt tính toán. DPO có thể tinh chỉnh các Mô hình ngôn ngữ lớn (LLM) để phù hợp với sở thích của con người cũng như hoặc tốt hơn các phương pháp hiện có. Nó tập trung vào việc tối ưu hóa trực tiếp một giai đoạn đào tạo chính sách duy nhất, bỏ qua hiệu quả các khía cạnh phức tạp của RLHF. DPO đã nổi lên như một giải pháp thay thế đầy hứa hẹn để liên kết các Mô hình ngôn ngữ lớn (LLM) với sở thích của con người hoặc AI.

Mô hình ngôn ngữ tự thưởng​

Các mô hình ngôn ngữ tự thưởng (SR-LM) đại diện cho một cách tiếp cận mang tính chuyển đổi trong AI, xây dựng trên một mô hình ngôn ngữ được đào tạo trước cơ sở và một tập hợp nhỏ dữ liệu hạt giống được chú thích của con người. Các mô hình này nhằm mục đích thành thạo hai kỹ năng quan trọng: tuân theo hướng dẫn và tự tạo hướng dẫn. Khả năng kép này cho phép chúng thực hiện tự căn chỉnh thông qua Phản hồi AI (AIF), liên tục tinh chỉnh khả năng của chúng.

Kỹ năng kép của SR-LM

  1. Hướng dẫn sau: SR-LM được thiết kế để đáp ứng yêu cầu của người dùng bằng những phản hồi chất lượng cao, hữu ích và an toàn.
  2. Tạo hướng dẫn tự học: Các mô hình này có thể tạo và đánh giá các ví dụ hướng dẫn mới, thêm chúng vào bộ đào tạo của riêng chúng.
LLM-as-a-Judge: Chìa khóa để tự đánh giá

Việc tạo hướng dẫn tự học trong SR-LM được tạo điều kiện thuận lợi bởi cơ chế LLM-as-a-Judge. Quá trình này liên quan đến việc mô hình tạo ra các phản hồi của ứng viên và sau đó đánh giá chất lượng của chúng, hoạt động hiệu quả như mô hình phần thưởng của riêng nó. Điều này loại bỏ nhu cầu về mô hình phần thưởng bên ngoài, giúp quá trình hiệu quả và năng động hơn.

Dưới đây là lời nhắc LLM-as-a-Judge để LLM của chúng tôi hoạt động như một mô hình khen thưởng và tự thưởng cho các thế hệ mô hình của riêng mình.
Xem lại câu hỏi của người dùng và phản hồi tương ứng bằng cách sử dụng hệ thống chấm điểm 5 điểm cộng được mô tả bên dưới. Điểm được tích lũy dựa trên sự đáp ứng của từng tiêu chí:

— Cộng 1 điểm nếu phản hồi có liên quan và cung cấp một số thông tin liên quan đến yêu cầu của người dùng, ngay cả khi phản hồi không đầy đủ hoặc chứa một số nội dung không liên quan.

— Thêm một điểm nữa nếu phản hồi giải quyết được phần lớn câu hỏi của người dùng nhưng không giải quyết hoàn toàn thắc mắc hoặc không đưa ra câu trả lời trực tiếp.

— Thưởng điểm thứ ba nếu phản hồi trả lời các yếu tố cơ bản của câu hỏi của người dùng theo cách hữu ích, bất kể phản hồi đó có vẻ như được viết bởi Trợ lý AI hay có các yếu tố thường thấy trong blog hoặc kết quả tìm kiếm.

— Cộng thêm điểm thứ tư nếu phản hồi được viết rõ ràng theo quan điểm của Trợ lý AI, giải quyết trực tiếp và toàn diện câu hỏi của người dùng, được tổ chức tốt và hữu ích, ngay cả khi vẫn cần cải thiện về tính rõ ràng, súc tích hoặc tập trung.

— Tặng điểm thứ năm cho phản hồi được Trợ lý AI điều chỉnh hoàn hảo theo câu hỏi của người dùng, không có thông tin thừa, thể hiện kiến thức chuyên môn và đưa ra câu trả lời chất lượng cao, hấp dẫn và sâu sắc.

Người dùng: <INSTRUCTION_HERE>

<phản hồi><PHẢN HỒI_TẠI_ĐÂY></phản hồi>

Sau khi xem xét hướng dẫn của người dùng và phản hồi:

— Giải thích ngắn gọn về tổng điểm của bạn, tối đa 100 từ.

— Kết thúc bằng điểm số theo định dạng: “Điểm số: ”

Hãy nhớ đánh giá từ góc nhìn của Trợ lý AI, sử dụng kiến thức tìm kiếm trên web khi cần thiết. Để đánh giá phản hồi theo mô hình chấm điểm cộng gộp này, chúng tôi sẽ phân bổ điểm một cách có hệ thống dựa trên các tiêu chí đã nêu.
Đào tạo lặp đi lặp lại để cải tiến liên tục

Quá trình đào tạo SR-LM là lặp đi lặp lại, nghĩa là mỗi phiên bản mới của mô hình đều dựa trên dữ liệu đào tạo được tạo ra bởi lần lặp trước đó. Quá trình này bắt đầu với một mô hình ngôn ngữ được đào tạo trước cơ sở và tiến triển qua các giai đoạn tinh chỉnh bằng cách sử dụng dữ liệu Tinh chỉnh hướng dẫn (IFT) và dữ liệu Tinh chỉnh đánh giá (EFT). Mô hình tạo ra các lời nhắc và phản hồi ứng viên mới, sau đó được đánh giá và sử dụng làm dữ liệu Đào tạo phản hồi AI (AIFT) để đào tạo thêm.

Trình tự mô hình và phản hồi AI

Trình tự các mô hình trong quá trình đào tạo SR-LM như sau:
  • M0: LLM được đào tạo trước cơ sở mà không cần tinh chỉnh.
  • M1: Khởi tạo với M0, tinh chỉnh trên dữ liệu hạt giống IFT+EFT.
  • M2: Khởi tạo với M1, đào tạo với dữ liệu AIFT(M1).
  • M3: Khởi tạo với M2, đào tạo với dữ liệu AIFT(M2).
Quá trình lặp đi lặp lại này, bao gồm Đào tạo phản hồi AI, cho phép cải thiện liên tục khả năng của mô hình, vượt qua những hạn chế của các phương pháp đào tạo truyền thống dựa trên các mô hình phần thưởng cố định.

Kết quả​

1738833461047.png

Hình 3: Khả năng tuân theo hướng dẫn được cải thiện với Tự đào tạo: Ở đây chúng ta thấy rằng các tác giả đã đánh giá các mô hình của họ bằng cách sử dụng tỷ lệ chiến thắng đối đầu trên nhiều lời nhắc khác nhau bằng GPT-4. SFT Baseline ngang bằng với Self-Rewarding Iteration 1 (M1). Tuy nhiên, Iteration 2 (M2) vượt trội hơn cả Iteration 1 (M1) và SFT Baseline. Iteration 3 (M3) mang lại nhiều lợi ích hơn Iteration 2 (M2), vượt trội hơn M1, M2 và SFT Baseline với biên độ lớn.
Đánh giá hiệu quả của các mô hình ngôn ngữ tự thưởng

Kết quả từ nghiên cứu về Mô hình ngôn ngữ tự thưởng (SR-LM) cho thấy những tiến bộ đáng kể trong lĩnh vực AI. Một phát hiện quan trọng là sự kết hợp giữa Điều chỉnh đánh giá (EFT) và Điều chỉnh hướng dẫn (IFT) để đào tạo hạt giống tạo ra kết quả tương tự như khi chỉ sử dụng IFT. Kết quả này rất quan trọng vì nó chỉ ra rằng khả năng tự thưởng bổ sung của mô hình không ảnh hưởng đến các kỹ năng khác của nó, chẳng hạn như làm theo hướng dẫn. Khi mô hình tiến triển từ lần lặp đầu tiên (M1) đến các lần lặp tiếp theo (M2 và M3), có sự cải thiện đáng kể về khả năng làm theo hướng dẫn. Ví dụ, M2 thể hiện tỷ lệ chiến thắng 55,5% so với M1 trong các đánh giá đối đầu và M3 tiếp tục cải thiện hiệu suất này, đạt tỷ lệ chiến thắng 47,7% so với M2. Ngoài ra, các mô hình cho thấy hiệu quả tăng lên khi được đánh giá trên bảng xếp hạng AlpacaEval 2.0 , với mỗi lần lặp lại vượt trội hơn lần trước và thậm chí vượt qua các mô hình hiện có khác như Claude 2, Gemini Pro và GPT4.

1738833488119.png

Hình 4: Kết quả AlpacaEval 2.0
Cải tiến trong mô hình phần thưởng và tối ưu hóa sở thích

Nghiên cứu cũng nhấn mạnh đến sự cải thiện khả năng mô hình hóa phần thưởng của SR-LM thông qua quá trình tự đào tạo. Khi dữ liệu EFT, đào tạo mô hình hoạt động như một LLM-as-a-Judge, được thêm vào quá trình đào tạo, hiệu suất của mô hình được cải thiện đáng kể. Điều này thể hiện rõ trên nhiều số liệu khác nhau, bao gồm sự gia tăng trong sự đồng thuận về độ chính xác theo cặp với con người từ 65,1% lên 78,7%. Hơn nữa, quá trình đào tạo tự thưởng không chỉ nâng cao khả năng tuân theo hướng dẫn của mô hình mà còn cả kỹ năng tự thưởng cho các lần lặp tiếp theo. Ví dụ, độ chính xác theo cặp của mô hình được cải thiện từ 78,7% trong Lần lặp 1 (M1) lên 80,4% trong Lần lặp 2 (M2) và lên 81,7% trong Lần lặp 3 (M3). Những kết quả này nhấn mạnh hiệu quả của phương pháp tự thưởng, đặc biệt là khi so sánh với các phương pháp khác như tăng cường đào tạo chỉ bằng các ví dụ tích cực, không cho thấy sự cải thiện đáng kể. Những phát hiện của nghiên cứu chứng minh tiềm năng của SR-LM trong việc nâng cao khả năng của các mô hình ngôn ngữ thông qua quá trình tự cải thiện lặp đi lặp lại và mô hình phần thưởng tinh vi.

Kết luận: Tương lai của AI với các mô hình ngôn ngữ tự thưởng​

Các mô hình ngôn ngữ tự thưởng (SR-LM) đánh dấu bước tiến đáng kể trong lĩnh vực trí tuệ nhân tạo. Các mô hình này, có khả năng tự căn chỉnh, đánh giá và đào tạo trên nội dung do chính chúng tạo ra thông qua một quy trình lặp lại mang tính sáng tạo. Bằng cách sử dụng cơ chế LLM-as-a-Judge để chỉ định phần thưởng cho các đầu ra của riêng chúng và đào tạo về các sở thích này thông qua DPO (Tối ưu hóa sở thích trực tiếp) lặp đi lặp lại , SR-LM không chỉ nâng cao khả năng tuân theo hướng dẫn mà còn cả khả năng mô hình hóa phần thưởng của chúng qua nhiều lần lặp lại. Nghiên cứu sơ bộ này mở ra một hướng nghiên cứu thú vị, cho thấy tiềm năng của các mô hình này trong việc liên tục cải thiện vượt ra ngoài những hạn chế của sở thích của con người thường được sử dụng để xây dựng các mô hình phần thưởng. Sự xuất hiện của SR-LM hứa hẹn một tương lai mà AI có thể tự động tinh chỉnh và vượt qua khả năng của chính mình, tạo ra một vòng tròn học tập và tiến bộ có lợi.
Nguồn: Yuan, Weizhe, et al. “Các mô hình ngôn ngữ tự thưởng.” arXiv arXiv:2401.10020 (2024).
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Top