Trí tuệ nhân tạo đang giết chết web cũ và web mới chật vật ra đời

Thoại Viết Hoàng · 27/06/2023

Các mô hình AI sáng tạo đang thay đổi nền kinh tế của web, khiến việc tạo nội dung chất lượng thấp trở nên rẻ hơn. Chúng tôi mới bắt đầu thấy tác động của những thay đổi này.

NASA đang tạo một trợ lý giống như ChatGPT cho các phi hành gia

Tại sao nói Google DeepMind đang cố gắng để vượt qua ChatGPT?

Trong những tháng gần đây, các dấu hiệu và điềm báo đã được tích lũy với tốc độ ngày càng tăng. Google đang cố gắng giết 10 liên kết màu xanh.

Trí tuệ nhân tạo đang giết chết web cũ và web mới chật vật ra đời

Twitter đang bị bỏ mặc cho bot và bọ ve xanh. Có sự tạp hóa của Amazon và sự hỗn loạn của TikTok. Sa thải đang rút ruột phương tiện truyền thông trực tuyến. Một tin tuyển dụng đang tìm kiếm “biên tập viên AI” mong đợi “sản lượng từ 200 đến 250 bài báo mỗi tuần”. ChatGPT đang được sử dụng để tạo toàn bộ trang web spam. Etsy tràn ngập “rác do AI tạo ra”. Chatbot trích dẫn lẫn nhau trong một thông tin sai lệch ouroboros. LinkedIn đang sử dụng AI để kích thích người dùng mệt mỏi Snapchat và Instagram hy vọng các bot sẽ nói chuyện với bạn khi bạn bè của bạn thì không. Redditor đang dàn dựng mất điện. Các mod tràn ngăn xếp đang đình công. Internet Archive đang chống lại những kẻ thu thập dữ liệu và “AI đang xé nát Wikipedia.” Trang web cũ đang chết dần và trang web mới đang phải vật lộn để ra đời.
Tất nhiên, web luôn chết; nó đã chết trong nhiều năm, bị giết bởi các ứng dụng chuyển hướng lưu lượng truy cập từ các trang web hoặc các thuật toán thưởng được cho là rút ngắn khoảng thời gian chú ý. Nhưng vào năm 2023, nó sẽ chết một lần nữa — và, như kinh cầu ở trên gợi ý, có một chất xúc tác mới đang hoạt động: AI.
Vấn đề, trong những nét cực kỳ rộng, là thế này. Nhiều năm trước, web từng là nơi các cá nhân tạo ra mọi thứ. Họ đã tạo ra các trang chủ, diễn đàn và danh sách gửi thư, cùng với đó là một số tiền nhỏ. Sau đó, các công ty quyết định rằng họ có thể làm mọi thứ tốt hơn. Họ đã tạo ra các nền tảng bóng bẩy và giàu tính năng, đồng thời mở rộng cửa cho bất kỳ ai tham gia. Họ đặt những chiếc hộp trước mặt chúng tôi, và chúng tôi lấp đầy những chiếc hộp đó bằng văn bản và hình ảnh, và mọi người đến để xem nội dung của những chiếc hộp đó. Các công ty theo đuổi quy mô, bởi vì một khi có đủ người tập trung ở bất cứ đâu, thường sẽ có cách để kiếm tiền từ họ. Nhưng AI thay đổi những giả định này.
Với tiền và khả năng tính toán, các hệ thống AI — đặc biệt là các mô hình tổng quát hiện đang thịnh hành — dễ dàng mở rộng quy mô. Họ tạo ra rất nhiều văn bản và hình ảnh, và chẳng bao lâu nữa, cả âm nhạc và video nữa. Sản lượng của chúng có khả năng vượt trội hoặc vượt trội so với các nền tảng mà chúng ta dựa vào để biết tin tức, thông tin và giải trí. Nhưng chất lượng của những hệ thống này thường kém và chúng được xây dựng theo cách ký sinh trên web ngày nay. Các mô hình này được đào tạo dựa trên các tầng dữ liệu được tạo ra trong thời đại web cuối cùng mà chúng tái tạo một cách không hoàn hảo. Các công ty thu thập thông tin từ web mở và tinh chỉnh nó thành nội dung do máy tạo ra với chi phí rẻ nhưng kém tin cậy hơn. Sau đó, sản phẩm này sẽ cạnh tranh để thu hút sự chú ý với các nền tảng và những người đi trước chúng. Các trang web và người dùng đang tính toán những thay đổi này, cố gắng quyết định cách thích ứng và liệu họ có thể làm được hay không.
Trong những tháng gần đây, các cuộc thảo luận và thử nghiệm tại một số điểm đến phổ biến và hữu ích nhất trên web — các trang web như Reddit, Wikipedia, Stack Overflow và chính Google — đã cho thấy sự căng thẳng do sự xuất hiện của các hệ thống AI tạo ra.
Người điều hành của Reddit đang tổ chức mất điện sau khi công ty cho biết họ sẽ tăng mạnh phí truy cập API của mình, với các giám đốc điều hành của công ty nói rằng những thay đổi này (một phần) là phản ứng đối với việc các công ty AI thu thập dữ liệu của họ. Steve Huffman, người sáng lập kiêm Giám đốc điều hành Reddit, nói với The New York Times: “Khối dữ liệu Reddit thực sự có giá trị. “Nhưng chúng ta không cần cung cấp miễn phí tất cả giá trị đó cho một số công ty lớn nhất trên thế giới.” Đây không phải là yếu tố duy nhất - Reddit đang cố gắng thu thêm doanh thu từ nền tảng trước khi IPO theo kế hoạch vào cuối năm nay - nhưng nó cho thấy việc thu thập dữ liệu như vậy vừa là mối đe dọa vừa là cơ hội đối với web hiện tại, điều khiến các công ty phải suy nghĩ lại về tính cởi mở nền tảng của họ.
Wikipedia đã quen với việc bị cạo theo cách này. Thông tin của công ty từ lâu đã được Google sử dụng lại để cung cấp “bảng tri thức” và trong những năm gần đây, gã khổng lồ tìm kiếm đã bắt đầu trả tiền cho thông tin này. Nhưng những người kiểm duyệt của Wikipedia đang tranh luận về cách sử dụng các mô hình ngôn ngữ AI mới có khả năng để viết bài cho chính trang web. Họ nhận thức sâu sắc về các vấn đề liên quan đến các hệ thống này, vốn bịa đặt các sự kiện và nguồn tin một cách trôi chảy gây hiểu lầm, nhưng biết rằng chúng mang lại những lợi thế rõ ràng về tốc độ và phạm vi. “Rủi ro đối với Wikipedia là mọi người có thể hạ thấp chất lượng bằng cách đưa vào những thứ mà họ chưa kiểm tra,” Amy Bruckman, giáo sư về cộng đồng trực tuyến và là tác giả của Bạn có nên tin Wikipedia không? nói với Bo mạch chủ gần đây. “Tôi không nghĩ có gì sai khi sử dụng nó làm bản nháp đầu tiên, nhưng mọi điểm đều phải được xác minh.”
Stack Overflow đưa ra một trường hợp tương tự nhưng có lẽ cực đoan hơn. Giống như Reddit, các mod của nó cũng đang đình công và giống như các biên tập viên của Wikipedia, họ lo lắng về chất lượng của nội dung do máy tạo ra. Khi ChatGPT ra mắt vào năm ngoái, Stack Overflow là nền tảng lớn đầu tiên cấm đầu ra của nó. Như các mod đã viết vào thời điểm đó: “Vấn đề chính là mặc dù các câu trả lời mà ChatGPT tạo ra có tỷ lệ sai cao, nhưng chúng thường có vẻ như có thể tốt và câu trả lời rất dễ tạo ra.” Mất quá nhiều thời gian để sắp xếp kết quả và vì vậy các mod đã quyết định cấm nó hoàn toàn.
Tuy nhiên, quản lý của trang web đã có kế hoạch khác. Về cơ bản, công ty đã đảo ngược lệnh cấm bằng cách tăng gánh nặng bằng chứng cần thiết để ngăn người dùng đăng nội dung AI và thay vào đó, họ tuyên bố muốn tận dụng công nghệ này. Giống như Reddit, Stack Overflow có kế hoạch tính phí các công ty thu thập dữ liệu của mình trong khi xây dựng các công cụ AI của riêng mình - có lẽ là để cạnh tranh với họ. Cuộc chiến với những người điều hành của nó là về các tiêu chuẩn của trang web và ai sẽ thực thi chúng. Các mod nói rằng đầu ra AI không đáng tin cậy, nhưng các nhà điều hành nói rằng nó đáng để mạo hiểm.
Tuy nhiên, tất cả những khó khăn này không có ý nghĩa gì đối với những thay đổi đang diễn ra tại Google. Tìm kiếm của Google hỗ trợ nền kinh tế của web hiện đại, phân phối sự chú ý và doanh thu cho phần lớn internet. Google đã được thúc đẩy hành động bởi sự phổ biến của Bing AI và ChatGPT dưới dạng các công cụ tìm kiếm thay thế và họ đang thử nghiệm thay thế 10 liên kết màu xanh lam truyền thống của mình bằng các bản tóm tắt do AI tạo ra. Nhưng nếu công ty tiếp tục với kế hoạch này, thì những thay đổi sẽ là một cơn địa chấn.
Avram Piltch, tổng biên tập của trang web công nghệ Tom's Hardware, đã viết một bài viết về bản beta tìm kiếm AI của Google, nêu bật một số vấn đề. Piltch cho biết hệ thống mới của Google về cơ bản là một “công cụ đạo văn”. Các bản tóm tắt do AI tạo ra thường sao chép văn bản từ các trang web theo từng từ nhưng đặt nội dung này phía trên các liên kết nguồn, khiến chúng không có lưu lượng truy cập. Đó là một sự thay đổi mà Google đã thúc đẩy trong một thời gian dài, nhưng hãy nhìn vào các ảnh chụp màn hình trong tác phẩm của Piltch và bạn có thể thấy cán cân đã chuyển dịch mạnh mẽ như thế nào theo hướng có lợi cho nội dung được trích dẫn. Nếu mô hình tìm kiếm mới này trở thành tiêu chuẩn, nó có thể làm hỏng toàn bộ trang web, Piltch viết. Các trang web bị hạn chế về doanh thu có thể sẽ bị loại khỏi hoạt động kinh doanh và bản thân Google sẽ hết nội dung do con người tạo ra để đóng gói lại.
Một lần nữa, chính động lực của AI - sản xuất nội dung rẻ tiền dựa trên tác phẩm của người khác - đang bảo trợ cho sự thay đổi này và nếu Google tiếp tục với trải nghiệm tìm kiếm AI hiện tại của mình, thì các tác động sẽ khó dự đoán. Có khả năng, nó sẽ làm hỏng toàn bộ vùng web mà hầu hết chúng ta thấy hữu ích — từ đánh giá sản phẩm đến blog công thức, trang chủ của người yêu thích, cửa hàng tin tức và wiki. Các trang web có thể tự bảo vệ mình bằng cách khóa quyền truy cập và tính phí truy cập, nhưng đây cũng sẽ là một sự sắp xếp lại rất lớn đối với nền kinh tế web. Cuối cùng, Google có thể giết chết hệ sinh thái đã tạo ra giá trị của nó hoặc thay đổi nó một cách không thể đảo ngược đến mức sự tồn tại của chính nó bị đe dọa.
Nhưng điều gì sẽ xảy ra nếu chúng ta để AI cầm lái ở đây và bắt đầu cung cấp thông tin cho số đông? Điều gì khác biệt nó làm?
Chà, bằng chứng cho đến nay cho thấy nó sẽ làm giảm chất lượng của web nói chung. Như Piltch đã lưu ý trong bài đánh giá của mình, đối với tất cả khả năng kết hợp lại văn bản được ca ngợi của AI, chính con người mới là người tạo ra dữ liệu cơ bản — cho dù đó là nhà báo nhấc điện thoại và kiểm tra sự thật hay người dùng Reddit gặp chính xác vấn đề về pin đó với thiết bị không dây DeWalt mới bánh cóc và rất vui được cho bạn biết họ đã sửa nó như thế nào. Ngược lại, thông tin do các mô hình ngôn ngữ AI và chatbot tạo ra thường không chính xác. Điều khó khăn là khi nó sai, nó sai theo cách rất khó phát hiện.
Đây là một ví dụ. Đầu năm nay, tôi đang nghiên cứu về các tác nhân AI — hệ thống sử dụng các mô hình ngôn ngữ như ChatGPT kết nối với các dịch vụ web và hành động thay mặt người dùng, đặt hàng tạp hóa hoặc đặt vé máy bay. Trong một trong nhiều chủ đề lan truyền trên Twitter ca ngợi tiềm năng của công nghệ này, tác giả đã tưởng tượng ra một kịch bản trong đó một công ty giày không thấm nước muốn thực hiện một số nghiên cứu thị trường và chuyển sang AutoGPT (một hệ thống được xây dựng dựa trên các mô hình ngôn ngữ của OpenAI) để tạo ra một báo cáo về các đối thủ cạnh tranh tiềm năng. Kết quả viết lên là cơ bản và có thể dự đoán được. (Bạn có thể đọc nó ở đây.) Nó liệt kê năm công ty, bao gồm Columbia, Salomon và Merrell, cùng với các gạch đầu dòng được cho là phác thảo những ưu và nhược điểm của sản phẩm của họ. “Columbia là một thương hiệu nổi tiếng và uy tín về giày dép và dụng cụ dã ngoại,” chúng tôi được cho biết. “Giày chống nước của họ có nhiều kiểu dáng khác nhau” và “giá của chúng cạnh tranh trên thị trường.” Bạn có thể nhìn vào điều này và nghĩ rằng nó thật sáo rỗng về cơ bản là vô dụng (và bạn sẽ đúng), nhưng thông tin cũng sai một cách tinh vi.
Để kiểm tra nội dung của báo cáo, tôi đã chạy nó bởi một người mà tôi nghĩ sẽ là nguồn đáng tin cậy về chủ đề này: người điều hành cho subreddit r/hiking tên là Chris. Chris nói với tôi rằng bản báo cáo về cơ bản chỉ là phụ. Ông nói: “Có rất nhiều từ, nhưng không có giá trị thực sự trong những gì được viết ra. Nó không đề cập đến các yếu tố quan trọng như sự khác biệt giữa giày nam và nữ hoặc loại vải được sử dụng. Nó hiểu sai sự thật và xếp hạng các thương hiệu có sự hiện diện trên web lớn hơn là xứng đáng hơn. Nhìn chung, Chris nói, không có kiến thức chuyên môn nào về thông tin — chỉ là phỏng đoán. “Nếu tôi được hỏi cùng một câu hỏi này, tôi sẽ đưa ra một câu trả lời hoàn toàn khác,” anh nói. “Nhận lời khuyên từ AI rất có thể sẽ khiến bạn bị đau chân trên đường mòn.”
Đây cũng chính là lời phàn nàn được xác định bởi các mod của Stack Overflow: rằng thông tin sai lệch do AI tạo ra là ngấm ngầm vì nó thường vô hình. Nó trôi chảy nhưng không dựa trên kinh nghiệm trong thế giới thực, do đó, cần có thời gian và kiến thức chuyên môn để giải nén. Nếu nội dung do máy tạo ra thay thế quyền tác giả của con người, thì sẽ khó — thậm chí là không thể — để lập bản đồ đầy đủ thiệt hại. Và vâng, con người cũng là nguồn thông tin sai lệch phong phú, nhưng nếu các hệ thống AI cũng bóp nghẹt các nền tảng mà chuyên môn của con người hiện đang phát triển mạnh, thì sẽ có ít cơ hội hơn để khắc phục các lỗi tập thể của chúng ta.
Tác động của AI trên web không đơn giản để tóm tắt. Ngay cả trong một số ví dụ được trích dẫn ở trên, vẫn có nhiều cơ chế khác nhau đang diễn ra. Trong một số trường hợp, có vẻ như mối đe dọa nhận thức được từ AI đang được sử dụng để biện minh cho những thay đổi mong muốn vì những lý do khác (như với Reddit), trong khi ở những trường hợp khác, AI là vũ khí trong cuộc đấu tranh giữa những người tạo ra giá trị của trang web và những người tạo ra giá trị cho trang web. chạy nó (Stack Overflow). Ngoài ra còn có các miền khác mà khả năng lấp đầy các hộp của AI đang có những tác động khác nhau — từ các mạng xã hội đang thử nghiệm sự tương tác của AI đến các trang web mua sắm nơi rác do AI tạo ra đang cạnh tranh với các sản phẩm khác.
Trong mỗi trường hợp, có điều gì đó về khả năng mở rộng quy mô của AI — thực tế đơn giản là sự phong phú thô sơ của nó — đã thay đổi một nền tảng. Nhiều trang web thành công nhất trên web là những trang tận dụng quy mô để tạo lợi thế cho chúng, bằng cách nhân lên các kết nối xã hội hoặc lựa chọn sản phẩm hoặc bằng cách sắp xếp tập hợp thông tin khổng lồ cấu thành nên chính internet. Nhưng quy mô này dựa vào khối lượng con người để tạo ra giá trị cơ bản và con người không thể đánh bại AI khi nói đến sản xuất hàng loạt. (Ngay cả khi có rất nhiều công việc của con người đằng sau hậu trường cần thiết để tạo ra AI.) Có một bài luận nổi tiếng trong lĩnh vực máy học được gọi là “Bài học cay đắng”, lưu ý rằng hàng thập kỷ nghiên cứu đã chứng minh rằng cách tốt nhất để cải thiện Các hệ thống AI không phải bằng cách cố gắng thiết kế trí thông minh mà chỉ đơn giản là đưa thêm sức mạnh máy tính và dữ liệu vào vấn đề. Bài học cay đắng vì nó cho thấy quy mô máy móc đánh bại sự giám tuyển của con người. Và điều tương tự cũng có thể đúng với web.
Điều này có phải là một điều xấu, mặc dù? Nếu web như chúng ta biết nó thay đổi khi đối mặt với sự phong phú nhân tạo? Một số người sẽ nói rằng đó chỉ là cách của thế giới, lưu ý rằng chính trang web đã giết chết những gì xuất hiện trước nó và thường là để tốt hơn. Chẳng hạn, bách khoa toàn thư in gần như đã tuyệt chủng, nhưng tôi thích bề rộng và khả năng truy cập của Wikipedia hơn là sức mạnh và sự đảm bảo của Encyclopedia Britannica. Và đối với tất cả các vấn đề liên quan đến cách viết do AI tạo ra, cũng có rất nhiều cách để cải thiện nó — từ chức năng trích dẫn được cải thiện đến sự giám sát của con người nhiều hơn. Ngoài ra, ngay cả khi web tràn ngập rác AI, nó vẫn có thể mang lại lợi ích, thúc đẩy sự phát triển của các nền tảng được tài trợ tốt hơn. Ví dụ: nếu Google liên tục cung cấp cho bạn các kết quả rác trong tìm kiếm, thì bạn có thể có xu hướng trả tiền nhiều hơn cho các nguồn mà bạn tin tưởng và truy cập trực tiếp vào các nguồn đó.
Thực sự, những thay đổi mà AI hiện đang gây ra chỉ là những thay đổi mới nhất trong một cuộc đấu tranh lâu dài trong lịch sử web. Về cơ bản, đây là cuộc chiến giành thông tin — về việc ai tạo ra thông tin đó, cách bạn truy cập thông tin và ai được trả tiền. Nhưng chỉ vì cuộc chiến quen thuộc không có nghĩa là nó không quan trọng, cũng như không đảm bảo hệ thống sau này sẽ tốt hơn những gì chúng ta có hiện tại. Trang web mới đang gặp khó khăn trong việc ra đời và các quyết định chúng tôi đưa ra bây giờ sẽ định hình cách thức phát triển của trang web.
Tham khảo bài gốc tại đây