Khánh Vân
Writer
Một báo cáo mới gây chấn động vừa được công bố trên tạp chí Science Advances, phơi bày một "thảm họa" thầm lặng trong giới khoa học: có thể có tới hàng trăm nghìn bài báo nghiên cứu được viết bằng trí tuệ nhân tạo (AI) mỗi năm mà không hề được công khai. Phát hiện này, dựa trên một phương pháp "vạch mặt" độc đáo, đang làm dấy lên những lo ngại sâu sắc về tính toàn vẹn và sự tin cậy của tri thức khoa học.
Trong nỗ lực tìm hiểu mức độ thâm nhập của AI vào hoạt động nghiên cứu, một nhóm các nhà khoa học từ Đại học Tübingen, Đức, đã sử dụng một phương pháp đầy sáng tạo. Họ phát hiện ra rằng, giống như những người viết thiếu kinh nghiệm, các chatbot AI có xu hướng lạm dụng một số từ ngữ cụ thể. Đây chính là manh mối để phát hiện ra sự can thiệp của máy móc.
Nhóm nghiên cứu đã xác định được 454 từ mà các mô hình ngôn ngữ lớn thường sử dụng với tần suất bất thường, bao gồm những từ như "delves" (đi sâu), "crucial" (quan trọng), "potential" (tiềm năng), hay "burgeoning" (đang phát triển). Bằng cách phân tích tần suất xuất hiện của những từ này trong các bài báo y sinh học, họ đã đi đến một kết luận gây sốc: có từ 13,5% đến 40% các bản tóm tắt đã được viết hoàn toàn hoặc có sự hỗ trợ đáng kể từ trí tuệ nhân tạo (AI).
Thống kế hơn 400 từ thường được AI sử dụng thường xuyên trong các tài liệu nghiên cứu khoa học
Với khoảng 1,5 triệu bài báo được lập chỉ mục mỗi năm trên cơ sở dữ liệu PubMed, con số này tương đương với việc có ít nhất 200.000 bài báo khoa học mỗi năm đã được viết với sự trợ giúp của AI. Con số thực tế có thể còn cao hơn nhiều, bởi phương pháp này chưa thể phát hiện những trường hợp tác giả đã cố ý chỉnh sửa để che giấu dấu vết.
Trong khi một số tác giả cố gắng che giấu, thì những người khác lại tỏ ra hoàn toàn thờ ơ, để lại những bằng chứng không thể chối cãi. Một ví dụ điển hình được phát hiện là một bài báo y học có nguyên văn câu trả lời của chatbot: "Tôi rất xin lỗi, nhưng tôi không có quyền truy cập thông tin thời gian thực vì tôi là một mô hình ngôn ngữ AI."
Những trường hợp lộ liễu khác cũng không hiếm gặp, từ các bài báo có tài liệu tham khảo hoàn toàn bịa đặt, những bài có chứa cụm từ "regenerate response" (tạo lại phản hồi) của ChatGPT, cho đến một bài báo có cả hình ảnh minh họa do AI tạo ra về một con chuột với bộ phận sinh dục khổng lồ một cách hài hước. Giáo sư Keith Humphreys của Đại học Stanford còn chia sẻ về việc phát hiện ra những "tác giả" Trung Quốc đã xuất bản hàng chục bài báo trong nhiều lĩnh vực khác nhau chỉ trong vài tháng – một dấu hiệu rõ ràng của việc sử dụng AI để tạo nội dung hàng loạt.
Hình minh họa trong tài liệu nghiên cứu khoa học do AI tạo ra
Sự việc này đã khiến cộng đồng khoa học chia rẽ sâu sắc. Một cuộc khảo sát của tạp chí Nature cho thấy chỉ có 23% các nhà nghiên cứu cho rằng việc dùng AI để viết tóm tắt mà không thừa nhận là có thể chấp nhận. Tiến sĩ Jonathan H. Chen của Đại học Stanford đã mô tả tình trạng hiện tại như "miền Tây hoang dã", nơi các quy tắc còn rất mơ hồ.
Vấn đề đạo đức khoa học cốt lõi được giáo sư Humphreys chỉ ra: "Lý do tôi quan tâm đến một bài báo là tên tuổi trên đó. Một nhà nghiên cứu hàng đầu sẵn sàng chấp nhận rủi ro nghề nghiệp. AI không có ý nghĩa, không có danh tiếng. Tôi không tin tưởng vào nó. Nó không có trọng lượng đạo đức."
Nhiều bằng chứng rõ ràng cho thấy các bài nghiên cứu khoa học này đều do AI viết
Các tác giả của nghiên cứu nhận định rằng việc sử dụng AI rộng rãi này đang tạo ra một "tác động chưa từng có đến việc viết khoa học, vượt qua cả tác động của đại dịch COVID-19". Hiện tượng các học giả bắt đầu cố tình tránh các từ ngữ "kiểu AI" để không bị nghi ngờ cho thấy vấn đề đang ngày càng trở nên phức tạp.
Cộng đồng khoa học đang đứng trước một thách thức lớn: làm thế nào để cân bằng giữa việc tận dụng lợi ích của AI và việc duy trì tính toàn vẹn, minh bạch trong nghiên cứu. Câu hỏi đặt ra không còn là có nên sử dụng AI hay không, mà là làm thế nào để sử dụng nó một cách có trách nhiệm, để đảm bảo rằng nền tảng tri thức khoa học của nhân loại tiếp tục được xây dựng dựa trên sự tin cậy và trung thực.

Manh mối từ những từ ngữ "rập khuôn"
Trong nỗ lực tìm hiểu mức độ thâm nhập của AI vào hoạt động nghiên cứu, một nhóm các nhà khoa học từ Đại học Tübingen, Đức, đã sử dụng một phương pháp đầy sáng tạo. Họ phát hiện ra rằng, giống như những người viết thiếu kinh nghiệm, các chatbot AI có xu hướng lạm dụng một số từ ngữ cụ thể. Đây chính là manh mối để phát hiện ra sự can thiệp của máy móc.
Nhóm nghiên cứu đã xác định được 454 từ mà các mô hình ngôn ngữ lớn thường sử dụng với tần suất bất thường, bao gồm những từ như "delves" (đi sâu), "crucial" (quan trọng), "potential" (tiềm năng), hay "burgeoning" (đang phát triển). Bằng cách phân tích tần suất xuất hiện của những từ này trong các bài báo y sinh học, họ đã đi đến một kết luận gây sốc: có từ 13,5% đến 40% các bản tóm tắt đã được viết hoàn toàn hoặc có sự hỗ trợ đáng kể từ trí tuệ nhân tạo (AI).

Thống kế hơn 400 từ thường được AI sử dụng thường xuyên trong các tài liệu nghiên cứu khoa học
Với khoảng 1,5 triệu bài báo được lập chỉ mục mỗi năm trên cơ sở dữ liệu PubMed, con số này tương đương với việc có ít nhất 200.000 bài báo khoa học mỗi năm đã được viết với sự trợ giúp của AI. Con số thực tế có thể còn cao hơn nhiều, bởi phương pháp này chưa thể phát hiện những trường hợp tác giả đã cố ý chỉnh sửa để che giấu dấu vết.
Khi AI "lộ đuôi": Những bằng chứng không thể chối cãi
Trong khi một số tác giả cố gắng che giấu, thì những người khác lại tỏ ra hoàn toàn thờ ơ, để lại những bằng chứng không thể chối cãi. Một ví dụ điển hình được phát hiện là một bài báo y học có nguyên văn câu trả lời của chatbot: "Tôi rất xin lỗi, nhưng tôi không có quyền truy cập thông tin thời gian thực vì tôi là một mô hình ngôn ngữ AI."
Những trường hợp lộ liễu khác cũng không hiếm gặp, từ các bài báo có tài liệu tham khảo hoàn toàn bịa đặt, những bài có chứa cụm từ "regenerate response" (tạo lại phản hồi) của ChatGPT, cho đến một bài báo có cả hình ảnh minh họa do AI tạo ra về một con chuột với bộ phận sinh dục khổng lồ một cách hài hước. Giáo sư Keith Humphreys của Đại học Stanford còn chia sẻ về việc phát hiện ra những "tác giả" Trung Quốc đã xuất bản hàng chục bài báo trong nhiều lĩnh vực khác nhau chỉ trong vài tháng – một dấu hiệu rõ ràng của việc sử dụng AI để tạo nội dung hàng loạt.

Hình minh họa trong tài liệu nghiên cứu khoa học do AI tạo ra
"Miền Tây hoang dã" và cuộc tranh cãi đạo đức
Sự việc này đã khiến cộng đồng khoa học chia rẽ sâu sắc. Một cuộc khảo sát của tạp chí Nature cho thấy chỉ có 23% các nhà nghiên cứu cho rằng việc dùng AI để viết tóm tắt mà không thừa nhận là có thể chấp nhận. Tiến sĩ Jonathan H. Chen của Đại học Stanford đã mô tả tình trạng hiện tại như "miền Tây hoang dã", nơi các quy tắc còn rất mơ hồ.
Vấn đề đạo đức khoa học cốt lõi được giáo sư Humphreys chỉ ra: "Lý do tôi quan tâm đến một bài báo là tên tuổi trên đó. Một nhà nghiên cứu hàng đầu sẵn sàng chấp nhận rủi ro nghề nghiệp. AI không có ý nghĩa, không có danh tiếng. Tôi không tin tưởng vào nó. Nó không có trọng lượng đạo đức."

Nhiều bằng chứng rõ ràng cho thấy các bài nghiên cứu khoa học này đều do AI viết
Tương lai của khoa học: Giữa tiện ích và sự toàn vẹn
Các tác giả của nghiên cứu nhận định rằng việc sử dụng AI rộng rãi này đang tạo ra một "tác động chưa từng có đến việc viết khoa học, vượt qua cả tác động của đại dịch COVID-19". Hiện tượng các học giả bắt đầu cố tình tránh các từ ngữ "kiểu AI" để không bị nghi ngờ cho thấy vấn đề đang ngày càng trở nên phức tạp.
Cộng đồng khoa học đang đứng trước một thách thức lớn: làm thế nào để cân bằng giữa việc tận dụng lợi ích của AI và việc duy trì tính toàn vẹn, minh bạch trong nghiên cứu. Câu hỏi đặt ra không còn là có nên sử dụng AI hay không, mà là làm thế nào để sử dụng nó một cách có trách nhiệm, để đảm bảo rằng nền tảng tri thức khoa học của nhân loại tiếp tục được xây dựng dựa trên sự tin cậy và trung thực.