Thoại Viết Hoàng
Writer
Đó là một thực tế có thể đưa thêm lỗi vào các mô hình vốn đã có lỗi.
Không có gì ngạc nhiên khi một số người trong số họ có thể chuyển sang các công cụ như ChatGPT để tối đa hóa tiềm năng kiếm tiền của họ. Nhưng có bao nhiêu? Để tìm hiểu, một nhóm các nhà nghiên cứu từ Viện Công nghệ Liên bang Thụy Sĩ (EPFL) đã thuê 44 người trên nền tảng công việc tự do Amazon Mechanical Turk để tóm tắt 16 đoạn trích từ các tài liệu nghiên cứu y học. Sau đó, họ phân tích phản hồi của mình bằng mô hình AI mà họ đã tự đào tạo để tìm kiếm các tín hiệu nhận biết về đầu ra ChatGPT, chẳng hạn như sự thiếu đa dạng trong lựa chọn từ ngữ. Họ cũng trích xuất các lần gõ phím của công nhân nhằm tìm hiểu xem họ có sao chép và dán câu trả lời của mình hay không, một dấu hiệu cho thấy họ đã tạo câu trả lời của mình ở nơi khác.
Họ ước tính rằng khoảng 33% đến 46% công nhân đã sử dụng các mô hình AI như ChatGPT của OpenAI. Đó là một tỷ lệ phần trăm có khả năng tăng cao hơn nữa khi ChatGPT và các hệ thống AI khác trở nên mạnh mẽ hơn và dễ dàng truy cập hơn, theo các tác giả của nghiên cứu, đã được chia sẻ trên arXiv và vẫn chưa được đánh giá ngang hàng.
“Tôi không nghĩ đó là sự kết thúc của các nền tảng cung cấp dịch vụ cộng đồng. Robert West, trợ lý giáo sư tại EPFL, đồng tác giả nghiên cứu, cho biết nó chỉ thay đổi động lực học.
Việc sử dụng dữ liệu do AI tạo ra để đào tạo AI có thể đưa thêm lỗi vào các mô hình vốn đã dễ bị lỗi. Các mô hình ngôn ngữ lớn thường trình bày thông tin sai sự thật. Ilia Shumailov, một nhà nghiên cứu cơ sở về máy tính cho biết, nếu chúng tạo ra đầu ra không chính xác được sử dụng để đào tạo các mô hình AI khác, thì các lỗi đó có thể được các mô hình đó hấp thụ và khuếch đại theo thời gian, khiến việc tìm ra nguồn gốc của chúng ngày càng khó khăn hơn. khoa học tại Đại học Oxford, người không tham gia vào dự án.
Thậm chí tệ hơn, không có sửa chữa đơn giản. Ông nói: “Vấn đề là khi bạn đang sử dụng dữ liệu nhân tạo, bạn mắc phải các lỗi do hiểu sai về các mô hình và lỗi thống kê. “Bạn cần đảm bảo rằng lỗi của mình không làm sai lệch kết quả đầu ra của các mô hình khác và không có cách nào đơn giản để làm điều đó.”
Nghiên cứu nhấn mạnh sự cần thiết của những cách mới để kiểm tra xem dữ liệu do con người hay AI tạo ra. Nó cũng nêu bật một trong những vấn đề với xu hướng của các công ty công nghệ là dựa vào các công nhân biểu diễn để thực hiện công việc quan trọng là thu dọn dữ liệu được cung cấp cho các hệ thống AI.
“Tôi không nghĩ mọi thứ sẽ sụp đổ,” West nói. “Nhưng tôi nghĩ cộng đồng AI sẽ phải điều tra chặt chẽ những nhiệm vụ nào dễ bị tự động hóa nhất và tìm cách ngăn chặn điều này.”
Một nghiên cứu mới đã phát hiện ra rằng một tỷ lệ đáng kể những người được trả tiền để đào tạo các mô hình AI có thể tự họ gia công phần mềm hoạt động cho AI.
Họ ước tính rằng khoảng 33% đến 46% công nhân đã sử dụng các mô hình AI như ChatGPT của OpenAI. Đó là một tỷ lệ phần trăm có khả năng tăng cao hơn nữa khi ChatGPT và các hệ thống AI khác trở nên mạnh mẽ hơn và dễ dàng truy cập hơn, theo các tác giả của nghiên cứu, đã được chia sẻ trên arXiv và vẫn chưa được đánh giá ngang hàng.
“Tôi không nghĩ đó là sự kết thúc của các nền tảng cung cấp dịch vụ cộng đồng. Robert West, trợ lý giáo sư tại EPFL, đồng tác giả nghiên cứu, cho biết nó chỉ thay đổi động lực học.
Việc sử dụng dữ liệu do AI tạo ra để đào tạo AI có thể đưa thêm lỗi vào các mô hình vốn đã dễ bị lỗi. Các mô hình ngôn ngữ lớn thường trình bày thông tin sai sự thật. Ilia Shumailov, một nhà nghiên cứu cơ sở về máy tính cho biết, nếu chúng tạo ra đầu ra không chính xác được sử dụng để đào tạo các mô hình AI khác, thì các lỗi đó có thể được các mô hình đó hấp thụ và khuếch đại theo thời gian, khiến việc tìm ra nguồn gốc của chúng ngày càng khó khăn hơn. khoa học tại Đại học Oxford, người không tham gia vào dự án.
Thậm chí tệ hơn, không có sửa chữa đơn giản. Ông nói: “Vấn đề là khi bạn đang sử dụng dữ liệu nhân tạo, bạn mắc phải các lỗi do hiểu sai về các mô hình và lỗi thống kê. “Bạn cần đảm bảo rằng lỗi của mình không làm sai lệch kết quả đầu ra của các mô hình khác và không có cách nào đơn giản để làm điều đó.”
Nghiên cứu nhấn mạnh sự cần thiết của những cách mới để kiểm tra xem dữ liệu do con người hay AI tạo ra. Nó cũng nêu bật một trong những vấn đề với xu hướng của các công ty công nghệ là dựa vào các công nhân biểu diễn để thực hiện công việc quan trọng là thu dọn dữ liệu được cung cấp cho các hệ thống AI.
“Tôi không nghĩ mọi thứ sẽ sụp đổ,” West nói. “Nhưng tôi nghĩ cộng đồng AI sẽ phải điều tra chặt chẽ những nhiệm vụ nào dễ bị tự động hóa nhất và tìm cách ngăn chặn điều này.”