Các nhà khoa học tuyên bố phần mềm có khả năng nhận diện đúng 99% tỷ lệ nội dung do ChatGPT viết

Các học giả đã đào tạo một thuật toán học máy để phát hiện các bài báo khoa học do ChatGPT tạo ra và tuyên bố phần mềm này có độ chính xác hơn 99%.
Các nhà khoa học tuyên bố phần mềm có khả năng nhận diện đúng 99% tỷ lệ nội dung do ChatGPT viết
Các mô hình AI sáng tạo đã cải thiện đáng kể khả năng bắt chước chữ viết của con người trong một khoảng thời gian ngắn, khiến mọi người khó phân biệt được văn bản được tạo ra bởi máy móc hay con người. Các giáo viên và giảng viên đã nêu lên mối lo ngại rằng sinh viên sử dụng các công cụ này đang thực hiện hành vi đạo văn hoặc rõ ràng là gian lận bằng cách sử dụng mã do máy tạo ra.
Tuy nhiên, phần mềm được thiết kế để phát hiện văn bản do AI tạo ra thường không đáng tin cậy. Các chuyên gia đã cảnh báo việc sử dụng các công cụ này để đánh giá công việc.
Một nhóm các nhà nghiên cứu do Đại học Kansas dẫn đầu nghĩ rằng sẽ rất hữu ích nếu phát triển một cách phát hiện bài viết khoa học do AI tạo ra – được viết cụ thể theo kiểu bài nghiên cứu thường được các tạp chí học thuật chấp nhận và xuất bản.
Heather Desaire, tác giả đầu tiên của bài báo đăng trên tạp chí Cell Reports Physical Science, đồng thời là giáo sư hóa học tại Đại học Kansas, cho biết: “Hiện tại, có một số vấn đề khá rõ ràng với việc viết AI. "Một trong những vấn đề lớn nhất là nó lắp ráp văn bản từ nhiều nguồn và không có bất kỳ loại kiểm tra độ chính xác nào - nó giống như trò chơi Two Truths and a Lie."
Desaire và các đồng nghiệp của cô đã biên soạn các bộ dữ liệu để đào tạo và thử nghiệm thuật toán phân loại các bài báo do các nhà khoa học và ChatGPT viết. Họ đã chọn 64 bài báo "quan điểm" - một phong cách bài báo cụ thể được đăng trên các tạp chí khoa học - đại diện cho nhiều chủ đề khác nhau từ sinh học đến vật lý và nhắc ChatGPT tạo các đoạn mô tả cùng một nghiên cứu để tạo ra 128 bài báo giả mạo. Tổng cộng có 1.276 đoạn văn được tạo ra bởi AI và được sử dụng để huấn luyện bộ phân loại.
Tiếp theo, nhóm đã biên soạn thêm hai bộ dữ liệu, mỗi bộ chứa 30 bài viết về quan điểm thực tế và 60 bài báo viết về ChatGPT, tổng cộng 1.210 đoạn văn để kiểm tra thuật toán.
Các thử nghiệm ban đầu cho thấy bộ phân loại có thể phân biệt 100% bài viết khoa học thực sự của con người và bài báo do AI tạo ra. Tuy nhiên, độ chính xác ở cấp độ đoạn văn riêng lẻ giảm nhẹ – xuống còn 92 phần trăm, nó được tuyên bố.
Họ tin rằng trình phân loại của họ có hiệu quả, bởi vì nó tập trung vào một loạt sự khác biệt về phong cách giữa cách viết của con người và AI. Các nhà khoa học có nhiều khả năng có vốn từ vựng phong phú hơn và viết các đoạn văn dài hơn chứa nhiều từ đa dạng hơn máy móc. Họ cũng sử dụng các dấu chấm câu như dấu hỏi, dấu ngoặc, dấu chấm phẩy thường xuyên hơn ChatGPT, ngoại trừ các dấu câu được sử dụng để trích dẫn.
ChatGPT cũng kém chính xác hơn và không cung cấp thông tin cụ thể về số liệu hoặc tên nhà khoa học khác so với con người. Các bài báo khoa học thực sự cũng sử dụng ngôn ngữ mơ hồ hơn – như "tuy nhiên", "nhưng", "mặc dù" cũng như "điều này" và "bởi vì".
Kết quả, tuy nhiên, nên được thực hiện với một hạt muối. Không rõ thuật toán mạnh đến mức nào so với các nghiên cứu đã được con người chỉnh sửa sơ sài mặc dù phần lớn được viết bởi ChatGPT hoặc so với các bài báo thực từ các tạp chí khoa học khác.
Các nhà nghiên cứu đã viết trong bài báo của họ: “Vì mục tiêu chính của công việc này là nghiên cứu bằng chứng về khái niệm nên phạm vi công việc bị hạn chế và cần có các nghiên cứu tiếp theo để xác định mức độ ứng dụng của phương pháp này”. "Ví dụ: kích thước của bộ kiểm tra (180 tài liệu, ∼ 1.200 đoạn văn) là nhỏ và bộ kiểm tra lớn hơn sẽ xác định rõ ràng hơn độ chính xác của phương pháp đối với loại ví dụ viết này."
Bài gốc
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Top