VnReview
Hà Nội

Nạn Spoiler: AI đã có thể phát hiện ra chúng trước khi bạn đọc được

Ngày nay, bạn khó lòng mà tránh được nạn spoiler trên mạng internet, cho dù bạn có cẩn thận đến đâu chăng nữa, một tweet nào đó hay một mẩu tin xuất hiện cũng có thể làm bạn bỏ phí cả một kế hoạch xem một bộ phim sau khi cơn sốt phim tạm lắng xuống.

SpoilerNet được tạo ra bởi một nhóm nghiên cứu tại UC San Diego, gồm các thành viên đã dành cả tuần để chờ xem Infinity War và bị phá hỏng bởi những kẻ spoilers. Không có lần sau!

Họ đã tập hợp dữ liệu từ hơn một triệu bình luận từ cộng đồng đọc sách Goodreads của Amazon, tại đây những bình luận có spoilers đều bị đánh dấu từng câu một. Là một người dùng của trang này, tôi rất cảm kích trước tính năng này và cả các nhà nghiên cứu cũng vậy. Bởi vì không có cộng đồng nào trên thế giới có một kho đồ sộ các bài đánh giá bằng văn bản, trong đó bất cứ chi tiết nào có yếu tố "spoiler" đều được người dùng gắn nhãn tỉ mỉ.

("Thực tế lại có khá ít người dùng sử dụng tính năng này", các nhà nghiên cứu cho biết)

Dù sao thì những dữ liệu đã gắn nhãn sẵn là "lương thực" của hệ thống AI: mạng thần kinh nhân tạo có thể học cách xác định những bức ảnh, vật thể cụ thể, hay trong trường hợp này là các spoilers. Nhóm đã đưa vào hệ thống 1.3 triệu bài đánh giá trên Goodreads, để nó quan sát và ghi lại những câu thông thường và những câu cho chưa spoilers.

Có thể những người viết bài đánh giá thường bắt đầu câu có chứa các chi tiết về cốt truyện theo một cách nhất định, ví dụ như "Bộ phim được tiết lộ rằng…", hoặc có thể thiếu những từ mang tính đánh giá như "tuyệt vời" hay "phức tạp". Chỉ có AI mới có thể nhận ra được điều đó.

Một khi quá trình huấn luyện hoàn thành, hệ thống có thể gắn nhãn "spoiler" hoặc "non-spoiler" chính xác đến 92% khi được cho phân tích các câu riêng biệt từ cả Goodreads và TV Tropes. Trước đây, những nỗ lực tạo ra phần mềm giúp phỏng đoán các nội dung có chứa spoilers không mấy khả quan; năm ngoái, trang Chiang et al cũng cho ra mắt tính năng này, tuy nhiên nó bị giới hạn dữ liệu và phương pháp cho nên nó chỉ có thể phân tích những câu đang hiển thị.

"Chúng tôi cũng mô phỏng sự phụ thuộc và tương tác giữa các câu trong cùng một văn bản để có thể phân tích chuyên sâu nội dung văn bản", Mengting Wan, tác giả trang SpoilerNet cho biết. Điều này cho phép hệ thống hiểu sâu hơn nội dung văn bản hay bình luận, và tất nhiên nó cũng cần một hệ thống phân tích phức tạp hơn.

Nhưng mô hình càng ngày càng phức tạp là kết quả tất yếu do có kho dữ liệu ngày càng lớn, Mengting Wan viết:

Để thiết kế được một mô hình như vậy thực sự phải nhờ có bộ dữ liệu các bài đánh giá quy mô lớn mà chúng tôi đã thu thập cho công việc này, bao gồm các bài viết hoàn thiện, các thẻ spoiler ở từng câu và các meta-data khác. Theo chúng tôi biết, trước khi có dự án này, bộ dữ liệu công khai (phát hành năm 2013) chỉ có đến vài nghìn bình luận ngắn thay vì nguyên một bài viết đánh giá như hiện nay. Đối với cộng đồng nghiên cứu, một bộ dữ liệu như vậy có thể tạo điều kiện thuận lợi cho việc phân tích các văn bản có chứa spoilers một cách chi tiết cũng như phát triển các mô hình máy học hiện đại trong lĩnh vực này.

Mô hình tiếp cận này vẫn còn rất mới mẻ và hệ thống phân tích dù phức tạp nhưng cũng có những nhược điểm của nó. Ví dụ, hệ thống có thể nhận diện nhầm một câu thành spoilers nếu có câu spoiler khác liền kề; và sự hiểu biết của hệ thống chưa đủ tốt để nhận diện một câu đơn lẻ có chứa một số từ nhất định được cho là spoilers. Cả bạn và tôi đều biết câu "Nó giết chết Darth Vader" là spoiler, trong khi câu "Nó giết chết sự hồi hộp" thì không phải, nhưng hệ thống có thể gặp khó khăn trong việc chỉ ra khác biệt giữa hai câu.

Wan cho biết hệ thống này có thể hoạt động thời gian thực trên máy tính của người dùng, tuy nhiên việc huấn luyện nó mới là công việc khó khăn. Có khả năng nó sẽ được tích hợp như một tiện ích mở rộng trên trình duyệt hoặc một ứng dụng để đọc tất cả các đánh giá trước bạn và ẩn đi bất cứ đánh giá nào nó cho là spoilers. Dù Amazon liên quan gián tiếp đến dự án này (đồng sáng lập Rishabh Misra làm việc tại Amazon), nhưng Wan cho biết vẫn chưa có kế hoạch thương mại hóa hay áp dụng công nghệ này.

Đây có thể sẽ là công cụ hữu dụng cho Amazon và các công ty con giúp tự động đánh dấu spoiler các đánh giá cùng những nội dung khác. Nhưng cho đến khi mô hình này được triển khai (và cho đến khi nó hoạt động tốt hơn một chút) chúng ta vẫn sẽ phải chống lại nạn spoiler bằng phương pháp truyền thống, đó là tránh xa thế giới đáng sợ này cho đến khi đã xem xong bộ phim.

Minh Bảo - Theo TechCrunch

Chủ đề khác