Công ty VinAI của Vingroup vừa công bố chatbot dành cho người Việt có tên rất "nhạy cảm"

Công ty VinAI nghiên cứu về trí tuệ nhân tạo thuộc Vingroup vừa chia sẻ trên Github dự án chatbot PhoGPT dành cho người Việt.
Theo giới thiệu trên Github, kho lưu trữ mã nguồn Git dựa trên nền web cho các dự án phát triển phần mềm, PhoGPT là mô hình dựa trên bộ giải mã Transformer, kết hợp Triton và ALiBi để ngoại suy độ dài ngữ cảnh. Bằng cách sử dụng thư viện llm-foundry của Mosaicml llm, VinAI đào tạo trước PhoGPT từ đầu trên kho văn bản tiếng Việt đào tạo trước 41GB. Kho dữ liệu đào tạo trước này bao gồm 1GB văn bản Wikipedia và một biến thể 40GB được loại bỏ trùng lặp của tập dữ liệu tin tức (phiên bản 21/05/2021).
Công ty VinAI của Vingroup vừa công bố chatbot dành cho người Việt có tên rất nhạy cảm
Các nhà nghiên cứu VinAI tinh chỉnh PhoGPT được đào tạo trước để hướng dẫn tiếp theo, sử dụng bộ dữ liệu bao gồm 150K cặp câu lệnh và phản hồi bằng tiếng Việt. Bộ dữ liệu này được xây dựng bằng cách ghép các nguồn sau:
(i) 67K cặp từ tập con tiếng Việt của Bactrian-X ;
(ii) 40K cặp ShareGPT không có mã và toán, dịch từ tiếng Anh sang tiếng Việt bằng VinAI Translate;
(iii) 40K lời nhắc bao gồm nhận thức về sự căm ghét, xúc phạm, độc hại và an toàn, phần lớn bao gồm cả những lời nhắc được dịch sang tiếng Việt; và
(iv) 1000 cặp để trả lời câu hỏi dựa trên ngữ cảnh, 500 để viết thơ, 500 cho viết luận, 500 cho sửa lỗi chính tả và 500 cho tóm tắt từng tài liệu.
Công ty VinAI của Vingroup vừa công bố chatbot dành cho người Việt có tên rất nhạy cảm
Kết quả cho thấy PhoGPT chỉ thua ChatGPT trong hầu hết các trường hợp, còn lại cao hơn các LLMA khác.
Tuy nhiên, nhà phát triển cho biết PhoGPT có những hạn chế nhất định. Ví dụ, nó không giỏi trong các nhiệm vụ liên quan đến lý luận, mã hóa hoặc toán học. PhoGPT đôi khi có thể tạo ra lời nói có hại, căm thù, phản hồi thiên vị hoặc trả lời các câu hỏi không an toàn.Họ khuyến cáo người dùng nên thận trọng khi tương tác với PhoGPT vì có thể tạo ra kết quả đầu ra không chính xác.
Anh em có thể tìm hiểu chi tiết PhoGPT trên Github tại link này.
 
Top