Những kẻ lừa đảo xuất bản đang sử dụng AI để mở rộng quy mô

Các mô hình ngôn ngữ lớn đang phá vỡ ngành xuất bản, từ việc gửi thư rác đến sách rác.
Những kẻ lừa đảo xuất bản đang sử dụng AI để mở rộng quy mô
Về lý thuyết, AI sẵn sàng phá vỡ công việc như chúng ta biết hiện nay. Nhưng nó vẫn phải đối mặt với cùng một vấn đề mà mọi sản phẩm công nghệ mới gây xôn xao trước đây phải đối mặt: Vốn đầu tư mạo hiểm thì có, nhưng mô hình kinh doanh dài hạn thì không, đặc biệt là đối với các cá nhân. Bạn sẽ làm gì với AI mô hình ngôn ngữ lớn ở giai đoạn này, khi tất cả những gì bạn biết chắc chắn là nó sẽ tạo ra văn bản theo thứ tự, ở các mức độ chính xác khác nhau?
Một phản hồi khá đơn giản là cố gắng bán văn bản đó. Tốt hơn là bạn nên bán nó ở một nơi mà nó có chính xác hay không không quan trọng, hoặc thậm chí ở nơi mà sự không chính xác có thể trở thành hư cấu và do đó có giá trị: thị trường sách. Thuận tiện, thị trường sách cũng là phương tiện văn bản cuối cùng mà người dùng vẫn có thói quen trả tiền trực tiếp (thậm chí chỉ một chút xíu). Xuất bản hiện là điểm yếu mà những người dùng AI thiếu thiện chí đang cố gắng xâm nhập.
Nói một cách hợp pháp, bạn không thể bán văn bản do AI tạo ra vì văn bản do máy tạo ra không thuộc bản quyền (với một số trường hợp ngoại lệ). Tuy nhiên, những kẻ lừa đảo và những kẻ lừa đảo lưu hành dọc cơ sở xuất bản đang tích hợp AI vào những trò lừa đảo và lừa đảo hiện có của chúng. Các nhà xuất bản được cho là đang điều tra các cách sử dụng AI trong các cuộc họp kín đáo, kín đáo. Và các tác giả đang cảnh giác với bất cứ thứ gì trông giống như một khẩu súng bốc khói để hạ gục thứ mà nhiều người trong số họ tin là mối đe dọa hiện hữu đối với nghề của họ.
Nó bắt đầu vào tháng 1, khi các tạp chí khoa học viễn tưởng báo cáo rằng họ tràn ngập các bài dự thi do AI tạo ra. Các biên tập viên tin rằng những người có ảnh hưởng “bên hối hả” đang khuyến nghị những người theo dõi họ sử dụng AI để tạo ra các truyện ngắn và sau đó bán chúng, rõ ràng là với niềm tin rằng các nhà văn viết truyện ngắn sẽ kiếm được nhiều tiền. Vào tháng 12 năm 2022, biên tập viên Neil Clarke của Clarkesworld giải thích, tạp chí đã nhận được 50 bài gửi gian lận; trong nửa đầu tháng 2 năm 2023, họ đã nhận được gần 350.
Đến tháng 7, Hiệp hội tác giả bắt đầu lo ngại. Các mô hình ngôn ngữ lớn được đào tạo từ đống văn bản lớn. Sách trắng Meta có tên một kho ngữ liệu phổ biến được sử dụng để đào tạo các mô hình ngôn ngữ lớn; kho văn bản đó bao gồm văn bản được lấy từ cái gọi là “thư viện bóng tối”, bộ sưu tập lớn sách vi phạm bản quyền. Làm thế nào mà không vi phạm bản quyền?
“Chúng tôi hiểu rằng nhiều cuốn sách được sử dụng để phát triển hệ thống AI có nguồn gốc từ các trang web vi phạm bản quyền khét tiếng,” Hiệp hội tác giả đã viết trong một bức thư ngỏ gửi tới CEO của các công ty AI khác nhau. “Thật công bằng khi bạn đền bù cho chúng tôi vì đã sử dụng các bài viết của chúng tôi, nếu không có nó thì AI sẽ rất tầm thường và cực kỳ hạn chế.”
Bức thư tiếp tục kêu gọi các CEO xin phép họ sử dụng tài liệu có bản quyền để lập trình AI, đền bù cho những người viết về việc sử dụng công việc của họ trong quá khứ và đang diễn ra trong quá trình đào tạo AI, đồng thời đền bù thêm cho họ vì đã sử dụng tác phẩm của họ theo đầu ra của AI.
Hiệp hội có lý do để lo lắng. Chính kiểu người có ảnh hưởng bên lề đã khuyên khán giả của họ bắt đầu gửi những câu chuyện do AI tạo ra cho các tạp chí văn học cũng đã bắt đầu khuyên khán giả của họ bắt đầu bán sách điện tử do AI tạo ra trên Amazon.
“Kiếm tiền với Amazon KDP là một trò chơi số,” một bài đăng như vậy khuyên. “Những người hối hả thông minh có thể nhắm mục tiêu vào một thị trường ngách cụ thể và tận dụng AI để sản xuất nhiều sách một cách nhanh chóng trong khi từ từ kiếm được những khoản tiền bản quyền ngọt ngào đó.”
“Nhắm mục tiêu vào một thị trường ngách cụ thể” đôi khi có thể trở nên rất cụ thể — chẳng hạn như “nhắm mục tiêu vào thị trường ngách của những người quan tâm đến sách của một tác giả cụ thể bằng cách giả vờ là tác giả đó”. Vào tháng 8, nhà văn Jane Friedman đã báo cáo rằng “những cuốn sách rác” mà cô ấy chưa từng thấy trước đây đang được bán trên Amazon dưới tên của cô ấy và đã được thêm vào hồ sơ Goodreads của cô ấy. Cô ấy nói, những cuốn sách đọc chính xác như những gì ChatGPT phát ra khi được nhắc tên của cô ấy. Nếu đúng như vậy, điều đó có nghĩa là một AI được đào tạo trên kho văn bản của Friedman (không trả tiền cho cô ấy) hiện đang tạo ra văn bản mới để bán dưới tên của cô ấy (một lần nữa mà không trả tiền cho cô ấy).
Friedman viết: “Bất cứ ai đang làm điều này rõ ràng là đang săn lùng những nhà văn tin tưởng vào tên tuổi của tôi và nghĩ rằng tôi thực sự đã viết những cuốn sách này.
Cả hai kế hoạch này đều không hoàn toàn mới. Đã có một thời gian dài “sách rác” được rao bán trên Amazon: sách đạo văn và sách có nội dung ăn cắp chạy qua Google Dịch một vài lần và sách có văn bản bị gobbledygook thẳng thừng. Không có gì lạ khi những cuốn sách đó có tên tác giả hợp pháp, tốt hơn hết là lừa những độc giả cả tin mua chúng. Tương tự như vậy, mọi người đã gửi các bài dự thi đạo văn cho các tạp chí văn học trong một thời gian dài.
Điều mới ngay bây giờ là quy mô của hoạt động. AI giúp những kẻ lừa đảo và những kẻ hối hả bên lề dễ dàng thực hiện công việc của chúng với số lượng lớn.
Vào tháng 7, các tác giả Christopher Golden và Richard Kadrey đã cùng với Sarah Silverman đệ đơn kiện tập thể chống lại OpenAI và Meta, cáo buộc rằng các công ty đã sử dụng nhiều cuốn sách, bao gồm cả hồi ký của Silverman, như một phần trong bộ đào tạo của họ.
Các tác giả, Geraldine Brooks đã tuyên bố tại Lễ hội sách Martha's Vineyard vào tháng này, “là những người nên đình công.” Cô ấy ngày càng lo ngại rằng không có hợp đồng nào của cô ấy có bất kỳ ngôn ngữ nào về AI.
Chính giữa bầu không khí ngày càng kích động này, trang web Prosecraft đã nổi lên vào đầu tháng 8. Một sản phẩm của công ty phần mềm Shaxpir đã ra mắt vào năm 2019, Prosecraft xếp hạng sách dựa trên số lượng từ chúng có, tần suất sử dụng thể bị động, tần suất sử dụng tính từ và mức độ sinh động của ngôn ngữ. Cơ sở dữ liệu của nó bao gồm các phân tích cho nhiều cuốn sách đã có bản quyền, mặc dù nó không bao gồm văn bản của chúng.
“Công ty Prosecraft này dường như đã đánh cắp rất nhiều sách, đào tạo AI và hiện đang cung cấp dịch vụ dựa trên dữ liệu đó,” tiểu thuyết gia Hari Kunzru viết trên Twitter.
Prosecraft không sử dụng AI. Nó sử dụng một thuật toán không có bất kỳ thuộc tính AI chung nào. Nó cũng không mang lại nhiều lợi nhuận. Theo người sáng tạo Benji Smith, nó “chưa bao giờ tạo ra bất kỳ khoản thu nhập nào”. Tuy nhiên, các tác giả đồng loạt coi nó giống như một mối đe dọa cấp bách mà họ đang phải đối mặt: một giao diện công nghệ bóng bẩy không ai yêu cầu, tất cả giá trị của nó bị lấy đi từ tác phẩm của chính họ mà không có sự cho phép của họ. Đối mặt với làn sóng phản đối kịch liệt trên mạng xã hội, Smith đã gỡ bỏ Prosecraft.
Trong khi đó, New York Times báo cáo rằng khoảng 50 công ty thực sự sử dụng AI để tạo, đóng gói, chỉnh sửa và tiếp thị sách đã ra mắt trong năm qua. Một điều trớ trêu ở đây là xuất bản là một ngành kinh doanh có tỷ suất lợi nhuận thấp nổi tiếng và những tỷ suất lợi nhuận đó ngày càng nhỏ hơn. Một cuộc khảo sát năm 2018 của Hiệp hội Tác giả cho thấy thu nhập trung bình hàng năm của các tác giả là 6.080 đô la, giảm từ 12.850 đô la vào năm 2007. Nó cũng cho thấy chỉ 21% tác giả toàn thời gian đã xuất bản có được 100% thu nhập cá nhân của họ từ thu nhập liên quan đến sách và cho những người đã làm, thu nhập trung bình là 20.300 đô la.
Những người kể câu chuyện của chúng tôi đã rất, rất gầy. Với tư cách là một nền văn hóa, chúng ta đã dành nhiều thập kỷ để đánh giá thấp sức lao động của họ, coi việc viết lách như một dự án đam mê không xứng đáng được trả công hơn là lao động lành nghề đáng lẽ phải được trả lương.
Giờ đây, AI đã trở thành một công cụ mạnh mẽ dành cho những người viết lách sử dụng để cố gắng bòn rút số tiền ít ỏi mà chúng tôi trao cho các nhà văn. Các bên hối hả hối hả vào.
Tham khảo bài viết gốc tại đây:
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Top