Đại học Bắc Kinh và Huawei giới thiệu công cụ phát hiện nội dung do ChatGPT tạo ra

Bằng cách đề xuất một sơ đồ dựa trên học PU đa quy mô, tác giả đã giải quyết vấn đề nhận dạng câu ngắn cho trình phát hiện văn bản. Nghiên cứu này đã tiến một bước vững chắc về vấn đề phát hiện văn bản AI. Hy vọng sẽ có nhiều nghiên cứu tương tự trong tương lai để kiểm soát nội dung AIGC tốt hơn và ngăn chặn việc lạm dụng nội dung do AI tạo ra.
Đại học Bắc Kinh và Huawei giới thiệu công cụ phát hiện nội dung do ChatGPT tạo ra
Với sự cải tiến liên tục của các mô hình lớn tổng quát, kho dữ liệu do chúng tạo ra đang dần tiếp cận hàng tỉ người dùng. Mặc dù mô hình lớn đang giải phóng vô số tài liệu, nhưng nó cũng đã bị một số kẻ lách luật lợi dụng với khả năng làm giả rất mạnh, gây ra hàng loạt vấn đề xã hội.
Các nhà nghiên cứu từ Đại học Bắc Kinh và Huawei đã đề xuất một trình phát hiện văn bản đáng tin cậy có thể nhận dạng các kho văn bản khác nhau do AI tạo ra. Theo các đặc điểm khác nhau của văn bản dài và ngắn, một phương pháp đào tạo trình phát hiện văn bản tạo AI đa quy mô dựa trên học tập PU được đề xuất. Thông qua việc cải thiện quy trình đào tạo trình phát hiện, có thể đạt được sự cải thiện đáng kể về khả năng phát hiện của kho văn bản ChatGPT dài và ngắn trong cùng điều kiện, giúp giải quyết điểm khó khăn về độ chính xác nhận dạng thấp của trình phát hiện hiện tại đối với văn bản ngắn.
Địa chỉ tham khảo: https://arxiv.org/abs/2305.18149
Địa chỉ mã (MindSpore): https://github.com/mindspore-lab/mindone/tree/master/examples/detect_chatgpt
Địa chỉ mã (PyTorch):

Giới thiệu về công cụ:​

Khi hiệu ứng tạo ra các mô hình ngôn ngữ lớn ngày càng trở nên thực tế hơn, nhu cầu cấp thiết về một bộ phát hiện văn bản do AI tạo ra đáng tin cậy trong mọi tầng lớp xã hội là rất cần thiết. Tuy nhiên, các ngành công nghiệp khác nhau có các yêu cầu khác nhau đối với kho dữ liệu phát hiện. Ví dụ, trong giới học thuật, thông thường cần phải phát hiện các phần lớn của các văn bản học thuật hoàn chỉnh; trên các nền tảng xã hội, cần phát hiện các tin tức giả mạo tương đối ngắn và rời rạc. Tuy nhiên, các máy dò hiện tại thường không thể đáp ứng các yêu cầu khác nhau. Ví dụ: một số trình phát hiện văn bản AI chính thống thường có khả năng dự đoán kém đối với kho văn bản ngắn hơn.
Đối với các hiệu ứng phát hiện khác nhau của các độ dài khác nhau của kho văn bản, tác giả nghiên cứu nhận thấy có thể có một số "sự không chắc chắn" trong việc quy kết các văn bản ngắn hơn do AI tạo ra; hay nói một cách thẳng thắn hơn, bởi vì một số câu ngắn do AI tạo ra cũng thường được con người sử dụng. Do đó, rất khó để xác định liệu văn bản ngắn do AI tạo ra là của con người hay AI. Dưới đây là một vài ví dụ về việc cả con người và AI đều trả lời cùng một câu hỏi:
Đại học Bắc Kinh và Huawei giới thiệu công cụ phát hiện nội dung do ChatGPT tạo ra
Từ những ví dụ này, có thể thấy rằng rất khó để xác định các câu trả lời ngắn do AI tạo ra: sự khác biệt giữa kho dữ liệu đó và con người là quá nhỏ và rất khó để đánh giá nghiêm ngặt các thuộc tính thực sự của nó. Do đó, việc chỉ dán nhãn các văn bản ngắn là con người/AI và thực hiện phát hiện văn bản như một bài toán phân loại nhị phân truyền thống là không phù hợp.
Để giải quyết vấn đề này, nghiên cứu này chuyển đổi phần phát hiện phân loại nhị phân của con người/AI thành một phần vấn đề học tập PU (Tích cực-Không gắn nhãn), nghĩa là, trong các câu ngắn hơn, ngôn ngữ của con người là tích cực và ngôn ngữ máy là không tích cực. Lớp được gắn nhãn (Unlabeled), giúp cải thiện chức năng mất dữ liệu được đào tạo. Cải tiến này cải thiện đáng kể hiệu suất phân loại của máy dò trên các kho văn bản khác nhau.

Chi tiết thuật toán​

Trong cài đặt học PU truyền thống, mô hình phân loại nhị phân chỉ có thể học từ các mẫu đào tạo tích cực và các mẫu đào tạo không được gắn nhãn. Một phương pháp học PU thường được sử dụng là ước tính tổn thất phân loại nhị phân tương ứng với mẫu âm tính bằng cách xây dựng tổn thất PU:
Đại học Bắc Kinh và Huawei giới thiệu công cụ phát hiện nội dung do ChatGPT tạo ra
Trong số đó, biểu thị tổn thất phân loại nhị phân được tính bằng các mẫu dương tính và nhãn dương tính; biểu thị tổn thất phân loại nhị phân được tính bằng cách giả sử tất cả các mẫu không được gắn nhãn là nhãn âm tính; biểu thị tổn thất phân loại nhị phân được tính bằng cách giả sử các mẫu dương tính là nhãn âm tính; biểu thị Mẫu dương tính trước đó xác suất, nghĩa là tỷ lệ ước tính của các mẫu dương tính trong tất cả các mẫu PU. Trong học PU truyền thống, ưu tiên thường được đặt làm siêu tham số cố định. Tuy nhiên, trong kịch bản phát hiện văn bản, trình phát hiện cần xử lý các văn bản có độ dài khác nhau và đối với các văn bản có độ dài khác nhau, tỷ lệ mẫu dương tính ước tính của nó trong tất cả các mẫu PU có cùng độ dài với mẫu cũng khác nhau. Do đó, nghiên cứu này cải thiện tổn hao PU và đề xuất hàm suy hao PU (MPU) đa tỷ lệ nhạy cảm với độ dài.
Cụ thể, nghiên cứu này đề xuất một mô hình hồi quy trừu tượng để lập mô hình phát hiện văn bản ngắn hơn. Các mô hình NLP truyền thống thường có cấu trúc chuỗi Markov khi xử lý các chuỗi, chẳng hạn như RNN, LSTM, v.v. Quá trình này của loại mô hình tuần hoàn này thường có thể được hiểu là một quá trình lặp dần dần, nghĩa là, dự đoán của từng đầu ra mã thông báo thu được bằng cách chuyển đổi và hợp nhất kết quả dự đoán của mã thông báo trước đó và chuỗi trước đó với kết quả dự đoán của điều này mã thông báo. Đó là quá trình sau:
Đại học Bắc Kinh và Huawei giới thiệu công cụ phát hiện nội dung do ChatGPT tạo ra
Để ước tính xác suất tiên nghiệm dựa trên mô hình trừu tượng này, cần phải giả định rằng đầu ra của mô hình là độ tin cậy rằng một câu nào đó thuộc loại tích cực (Positive), tức là xác suất đánh giá rằng nó là một câu mẫu được nói bởi một người. Giả sử rằng phần đóng góp của mỗi mã thông báo tỷ lệ nghịch với độ dài của mã thông báo trong câu, dương hoặc không được gắn nhãn và xác suất không được gắn nhãn lớn hơn nhiều so với xác suất dương. Bởi vì khi vốn từ vựng của mô hình lớn dần tiếp cận với vốn từ vựng của con người, hầu hết các từ vựng sẽ xuất hiện trong cả kho dữ liệu AI và con người. Theo mô hình đơn giản hóa và xác suất mã thông báo dương đã đặt, ước tính trước cuối cùng thu được bằng cách tìm tổng kỳ vọng về độ tin cậy đầu ra của mô hình trong các tình huống đầu vào khác nhau.
Đại học Bắc Kinh và Huawei giới thiệu công cụ phát hiện nội dung do ChatGPT tạo ra
Thông qua dẫn xuất lý thuyết và thử nghiệm, người ta ước tính rằng xác suất trước đó tăng lên khi độ dài văn bản tăng lên và cuối cùng ổn định dần. Hiện tượng này cũng có thể xảy ra, bởi vì khi văn bản dài hơn, máy dò có thể thu được nhiều thông tin hơn và "độ không chắc chắn về nguồn" của văn bản sẽ dần yếu đi:
Đại học Bắc Kinh và Huawei giới thiệu công cụ phát hiện nội dung do ChatGPT tạo ra
Sau đó, đối với mỗi mẫu Positive, tổn thất PU được tính toán dựa trên giá trị ban đầu duy nhất được lấy từ độ dài mẫu của nó. Cuối cùng, vì văn bản ngắn hơn chỉ có một số "độ không chắc chắn" (nghĩa là văn bản ngắn hơn cũng sẽ chứa một số tính năng văn bản của con người hoặc AI), nên có thể sử dụng phép cộng có trọng số của tổn thất phân loại nhị phân và tổn thất MPU làm mục tiêu tối ưu hóa cuối cùng:
Đại học Bắc Kinh và Huawei giới thiệu công cụ phát hiện nội dung do ChatGPT tạo ra
Ngoài ra, cần lưu ý rằng tổn thất MPU được điều chỉnh để huấn luyện kho ngữ liệu với nhiều độ dài khác nhau. Nếu dữ liệu đào tạo hiện có rõ ràng là đơn giản và hầu hết kho văn bản là một đoạn văn bản có độ dài lớn, thì hiệu quả của phương pháp MPU không thể được sử dụng đầy đủ. Để làm đa dạng hơn độ dài của kho ngữ liệu đào tạo, nghiên cứu này cũng giới thiệu mô đun đa thang đo ở cấp độ câu. Mô-đun này sắp xếp ngẫu nhiên một số câu trong kho ngữ liệu huấn luyện và sắp xếp lại các câu còn lại trong khi vẫn giữ nguyên trật tự ban đầu. Sau quá trình vận hành đa quy mô của kho dữ liệu đào tạo, độ dài của văn bản đào tạo đã được làm phong phú thêm rất nhiều, do đó tận dụng tối đa việc học PU để đào tạo trình phát hiện văn bản AI.

Kết quả thực nghiệm​

Đại học Bắc Kinh và Huawei giới thiệu công cụ phát hiện nội dung do ChatGPT tạo ra
Như được hiển thị trong bảng trên, trước tiên tác giả đã thử nghiệm tác động của việc mất MPU đối với bộ dữ liệu văn bản ngắn hơn do AI tạo ra Tweep-Fake. Kho dữ liệu trong bộ dữ liệu này là các phân đoạn tương đối ngắn trên Twitter. Trên cơ sở tinh chỉnh mô hình ngôn ngữ truyền thống, tác giả thay thế tổn thất phân loại nhị phân truyền thống bằng mục tiêu tối ưu hóa chứa tổn thất MPU. Trình phát hiện mô hình ngôn ngữ cải tiến hiệu quả hơn các thuật toán cơ bản khác.
Đại học Bắc Kinh và Huawei giới thiệu công cụ phát hiện nội dung do ChatGPT tạo ra
Tác giả cũng đã thử nghiệm văn bản do chatGPT tạo ra, bộ phát hiện mô hình ngôn ngữ thu được thông qua tinh chỉnh truyền thống hoạt động kém đối với các câu ngắn, kho ngữ liệu hoàn chỉnh đã đạt được sự cải thiện đáng kể và điểm số F1 đã tăng 1%, vượt qua các thuật toán SOTA như OpenAI và DetectGPT.
Đại học Bắc Kinh và Huawei giới thiệu công cụ phát hiện nội dung do ChatGPT tạo ra
Như thể hiện trong bảng trên, tác giả đã quan sát hiệu ứng đạt được do từng phần trong thí nghiệm cắt bỏ mang lại. Mất MPU củng cố hiệu ứng phân loại của dữ liệu dài và ngắn.
Tác giả cũng so sánh PU truyền thống và PU đa cấp (MPU). Từ bảng trên có thể thấy rằng MPU hiệu quả hơn và có thể thích ứng tốt hơn với nhiệm vụ phát hiện văn bản đa tỷ lệ AI.

>> Quảng cáo AI lần đầu tiên vượt qua bài kiểm tra Turing

 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Top