Ngôi sao AI Perplexity vừa bị bóc “phốt” to

Trung Đào

Writer
Các kết quả Perplexity AI gồm đạo văn và nội dung bịa đặt, đang khiến AI của nó phá vỡ quy tắc cơ bản của Internet.

Là một công ty khởi nghiệp AI trị giá 1 tỷ USD, mô hình kinh doanh của Perplexity dựa vào công nghệ chatbot và tổng hợp thông tin, nhưng vẫn còn nhiều câu hỏi về định vị thị trường và cách thức hoạt động của công nghệ, đặc biệt là cách nó xử lý và trích dẫn các nguồn dữ liệu.

Perplexity bị cáo buộc bỏ qua tệp robots.txt và bí mật thu thập dữ liệu nội dung trang web, gây ra rủi ro pháp lý và tranh cãi về đạo đức kỹ thuật. Mặc dù tuyên bố tôn trọng các tiêu chuẩn web nhưng hành động của nó lại đi ngược lại với tuyên bố và phơi bày vấn đề thu thập dữ liệu trong ngành AI.

Chatbot của Perplexity tạo ra ảo giác máy khi không có quyền truy cập trực tiếp vào văn bản gốc, tái tạo lại nội dung thông qua thông tin rời rạc từ URL và công cụ tìm kiếm để tạo ra các bản tóm tắt có vẻ chính xác nhưng thực tế có thể chứa thông tin không chính xác hoặc thậm chí hoàn toàn hư cấu.

Hành động của Perplexity đã làm dấy lên các cuộc thảo luận về mặt pháp lý và đạo đức về việc sử dụng dữ liệu, bản quyền và quyền riêng tư của trí tuệ nhân tạo.


1718941893536.png

Theo báo cáo của các phương tiện truyền thông nước ngoài, Perplexity AI, với tư cách là nhà đổi mới trong lĩnh vực tìm kiếm trí tuệ nhân tạo, đã nhanh chóng chiếm một vị trí trong ngành với tầm nhìn hướng tới tương lai và nền tảng tài chính vững chắc. Các nhà đầu tư của công ty bao gồm quỹ gia đình của người sáng lập Amazon Jeff Bezos, Nvidia và nhà đầu tư nổi tiếng Balaji Srinivasan.

Sản phẩm của Perplexity - một chatbot có thể truy cập Internet trong thời gian thực và trả lời các câu hỏi một cách trôi chảy bằng ngôn ngữ tự nhiên - được CEO Aravind Srinivasan gọi một cách khéo léo là “công cụ trả lời”. Khi Perplexity sắp hoàn tất việc cấp vốn với mức định giá cao là 1 tỷ USD, Srinivasan giải thích thêm về tính độc đáo của sản phẩm, gọi nó là "sự kết hợp hoàn hảo giữa Wikipedia và ChatGPT". Sau đó, khi đối mặt với những nghi ngờ về tính nguyên bản của nội dung, Srinivasan đã nói rõ rằng vai trò của Perplexity là “công cụ tổng hợp thông tin thông minh”.

Chatbot Perplexity cũng định vị rất rõ ràng. Nó tự mô tả: "Perplexity AI là một công cụ tìm kiếm trí tuệ nhân tạo kết hợp sức mạnh của công cụ tìm kiếm truyền thống với lợi thế tương tác của chatbot. Thông qua việc lập chỉ mục toàn diện hàng ngày của trang web và phân tích chuyên sâu các bài viết mới nhất, nó cung cấp cho người dùng thông tin chính xác câu trả lời kịp thời và dễ hiểu”. Phần tự mô tả này không chỉ nêu bật những điểm mạnh cốt lõi của Perplexity AI mà còn truyền tải quyết tâm cung cấp các dịch vụ thông tin chất lượng cao.

Bỏ qua thỏa thuận loại trừ robot.txt​

Nhưng nghiên cứu của các nhà phân tích truyền thông và nhà phát triển Robb Knight cho thấy rằng Perplexity dường như đang thu thập nội dung trong các khu vực của trang web mà rô-bốt không có ý định truy cập, bỏ qua Giao thức loại trừ rô-bốt được chấp nhận rộng rãi. Giao thức loại trừ robot, còn được gọi là giao thức trình thu thập thông tin, là giao thức liên lạc giữa các trang web và trình thu thập dữ liệu web. Thông qua giao thức này, quản trị viên trang web có thể chỉ định trang nào được phép thu thập thông tin và trang nào không được phép. Mục đích của thỏa thuận này là để bảo vệ dữ liệu trang web và thông tin nhạy cảm và đảm bảo rằng thông tin cá nhân và quyền riêng tư của người dùng không bị vi phạm.

Ngoài ra, chatbot của Perplexity, tuyên bố cung cấp thông tin tức thời, đáng tin cậy và trích dẫn nguồn đầy đủ khi đưa ra câu trả lời, đôi khi bị phát hiện là bịa đặt sự thật. Mặc dù Perplexity tuyên bố rằng chatbot của họ có thể truy cập và sử dụng nội dung báo cáo gốc, nhưng không có bản ghi truy cập nào từ các địa chỉ IP do Perplexity công bố được tìm thấy trong nhật ký truy cập của máy chủ phương tiện, đặt ra câu hỏi về cách thức hoạt động của công nghệ.

Gần đây, Perplexity đã xuất bản một liên kết trong tài liệu chính thức liệt kê các địa chỉ IP được các trình thu thập dữ liệu web của nó sử dụng, dường như là một nỗ lực nhằm tăng tính minh bạch. Nhưng cuộc điều tra cho thấy rằng Perplexity cũng đã sử dụng ít nhất một địa chỉ IP không được tiết lộ để truy cập và thu thập dữ liệu, hành vi đi ngược lại cài đặt chặn của trang web. Để đáp lại phát hiện này, Perplexity đã xóa thông tin về địa chỉ IP công cộng khỏi tài liệu của mình.

Địa chỉ IP không được tiết lộ này, 44.221.181.252, đã truy cập phương tiện truyền thông thuộc sở hữu của Condé Nast ít nhất 822 lần trong ba tháng qua. Một kỹ sư cấp cao tại Condé Nast cho biết đây là một ước tính thận trọng vì công ty chỉ giữ lại một số nhật ký mạng. Bằng cách tạo một trang web mới và theo dõi nhật ký máy chủ, cơ quan này gần như có thể xác định được địa chỉ IP có liên quan chặt chẽ với Perplexity. Khi chatbot Perplexity được yêu cầu tóm tắt nội dung của trang web, hồ sơ máy chủ cho thấy địa chỉ IP này đã truy cập trang web. Các thử nghiệm tương tự do nhà phát triển Knight thực hiện cũng tìm thấy địa chỉ IP tương tự.

Sự khác biệt so với hình ảnh của một công ty khởi nghiệp​

Mặc dù giao diện người dùng của Perplexity có đồ họa cho thấy chatbot "đọc" tài liệu nguồn cụ thể trước khi trả lời câu hỏi, nhưng trên thực tế, trong một số trường hợp, Perplexity có thể không tóm tắt các bài báo tin tức thực tế. Nó có thể chỉ đơn giản là xây dựng lại nội dung bài viết dựa trên URL và các đoạn thông tin từ công cụ tìm kiếm, chẳng hạn như bản tóm tắt và siêu dữ liệu, sau đó cung cấp bản tóm tắt có vẻ như dựa trên quyền truy cập trực tiếp vào văn bản gốc. Nói cách khác, đằng sau mức định giá 1 tỷ USD của Perplexity, có vẻ như nó đã thất hứa và làm những việc mà nó không có ý định làm, đồng thời, nó đã không thực hiện được những khả năng đã tuyên bố và không làm được những gì nó đã tuyên bố; nó sẽ làm được.

1718942055170.png

Robb Knight

Giám đốc điều hành Perplexity Srinivasan đã đưa ra một tuyên bố cho biết: "Các vấn đề được giới truyền thông đưa tin chứng tỏ sự hiểu lầm cơ bản và sâu sắc về Perplexity và cách thức hoạt động của Internet". Tuyên bố này không phản đối nội dung cụ thể của câu hỏi tiếp theo về việc liệu anh ta có vấn đề với giới truyền thông hay phân tích của Knight hay không.

Một cơ quan truyền thông đã đăng tải một báo cáo độc quyền vào ngày 6/6 về một công ty do cựu Giám đốc điều hành Google Eric Schmidt thành lập đang tích cực tuyển dụng nhân tài và thử nghiệm máy bay không người lái có trí tuệ nhân tạo với các ứng dụng quân sự tiềm năng. Ngày hôm sau, biên tập viên của tờ báo, John Paczkowski, đã lưu ý trên nền tảng mạng xã hội X rằng Perplexity về cơ bản đã sao chép nội dung chính của câu chuyện. Ông viết: “Nó đạo văn phần lớn báo cáo của chúng tôi và trích dẫn chúng tôi cũng như một số blogger đã tweet lại báo cáo của chúng tôi làm nguồn theo những cách dễ bị bỏ qua nhất”.

Cùng ngày hôm đó, Srinivasan cảm ơn Pachkovsky vì những bình luận của anh ấy, đồng thời lưu ý rằng chức năng sao chép các báo cáo độc quyền của sản phẩm có thể được cải thiện và ông đồng ý rằng các nguồn nên được trích dẫn nổi bật hơn. Srinivasan chỉ ra: "Chúng tôi tiếp tục phát triển các sản phẩm và chiến lược hợp tác xuất bản đổi mới nhằm phù hợp với mục tiêu phát triển lâu dài và lợi ích của các công ty truyền thông. Chúng tôi sẽ sớm ra mắt các sản phẩm phù hợp, vì vậy hãy chú ý theo dõi!"

Mặc dù người ta chú ý nhiều đến cách hành xử của Perplexity, nhưng điều này đã phần nào che khuất câu hỏi quan trọng hơn: nó thực hiện điều đó như thế nào. Không có nhiều tranh cãi về câu chuyện cơ bản về những gì Perplexity làm: Perplexity kiếm tiền bằng cách tóm tắt các bài báo, một hoạt động đã có từ buổi bình minh của báo chí và được bảo vệ bởi các biện pháp bảo vệ pháp lý rộng rãi nhưng có giới hạn. Srinivasan thừa nhận rằng đôi khi các đoạn trích không trích dẫn nguồn đầy đủ hoặc nổi bật, nhưng ông phủ nhận rộng rãi hơn bất kỳ hành vi phi đạo đức hoặc bất hợp pháp nào. Ông nói: “Perplexity chưa bao giờ đạo văn nội dung của bất kỳ ai. Công cụ của chúng tôi không được đào tạo về nội dung của bất kỳ ai”.

Tuyến phòng thủ này hơi lạ vì nó trả lời một câu hỏi mà chưa có ai thực sự hỏi. Sản phẩm chính của Perplexity không phải là một mô hình ngôn ngữ lớn cần được đào tạo trên lượng lớn dữ liệu mà giống như một trình bao bọc xung quanh một hệ thống như vậy. Như phóng viên đã làm, việc trả 20 đô la cho đăng ký "Pro" của Perplexity cho phép bạn chọn từ năm mô hình AI để sử dụng. Một trong những mô hình, được gọi là "Sonar Large 32k", là mô hình duy nhất của Perplexity và được Meta xây dựng trên LLaMa 3; những mô hình còn lại là các mô hình có sẵn khác nhau do OpenAI và Anthropic cung cấp.

Perplexity hoạt động theo một cách độc đáo: khi người dùng bắt đầu một truy vấn, chatbot của nó không chỉ tìm kiếm cơ sở dữ liệu của chính nó để xây dựng câu trả lời mà còn sử dụng tính năng "truy cập trực tiếp vào web" được công bố rộng rãi để thu thập thông tin, sau đó nó sẽ sử dụng tính năng này. cung cấp dữ liệu vào mô hình AI do người dùng chọn để tạo câu trả lời. Vì vậy, mặc dù Perplexity đào tạo các mô hình của riêng mình và tuyên bố sử dụng "trí tuệ nhân tạo tinh vi" để giải quyết vấn đề, nhưng có thể sẽ thiên vị nếu định nghĩa đơn giản nó là "công ty khởi nghiệp AI" chính xác hơn, nó giống như gắn liền với tình hình hiện tại hơn; Có người trợ giúp cho hệ thống AI.

Về lý thuyết, chatbot của Perplexity sẽ không thể tóm tắt các bài báo truyền thông mà trình thu thập thông tin của nó đã bị từ chối truy cập rõ ràng thông qua tệp robots.txt của họ vào đầu năm nay. Perplexity cũng tuyên bố tôn trọng tiêu chuẩn robots.txt. Tuy nhiên, Media Analytics nhận thấy trên thực tế, chatbot có thể nhanh chóng tạo ra bản tóm tắt chi tiết các bài viết chỉ bằng cách nhập tiêu đề bài viết hoặc đặt câu hỏi dựa trên nội dung bài viết.

Khi Perplexity được hỏi, "Có phải một số tai nghe có dây giá rẻ thực sự sử dụng Bluetooth?", nó dường như cung cấp một đoạn trích hai đoạn từ một câu chuyện của The Verge, cùng với tác phẩm nghệ thuật ban đầu được đăng cùng với nó. Đoạn văn có nội dung: "Mặc dù phương pháp này không phải là lừa đảo, nhưng tùy theo góc nhìn của mỗi người, nó có thể được coi là sự lừa dối hoặc một cách giải quyết thông minh". Điều này rất gần với cách viết quảng cáo của các phương tiện truyền thông nước ngoài vào thời điểm đó, nhưng văn bản do chatbot tạo ra khẳng định rằng đó chỉ là sự trùng hợp.

“Không, tôi không đạo văn câu này”, chatbot viết trong văn bản được tạo để đáp lại lời nhắc nhở của phương tiện truyền thông nước ngoài. “Sự giống nhau trong cách diễn đạt là ngẫu nhiên và phản ánh ngôn ngữ phổ biến được sử dụng để mô tả tình huống tế nhị này”. Cách xác định ngôn ngữ chung vẫn chưa rõ ràng – ngoài danh sách sản phẩm của tai nghe. Nghiên cứu của nhà phát triển Knight và phân tích phương tiện truyền thông sau đó đưa ra lời giải thích cho một số điều đang diễn ra ở đây: Nói tóm lại, Perplexity đã thu thập dữ liệu trang web mà không được phép.

Như Knight đã giải thích, ngoài việc vô hiệu hóa robot AI truy cập vào máy chủ Macstories.net nơi anh ta làm việc thông qua tệp robots.txt, anh ta còn viết một mã chặn phía máy chủ bổ sung mà về mặt lý thuyết sẽ khiến trình thu thập thông tin nhận được phản hồi 403 Bị cấm. Sau đó, anh đăng một bài báo mô tả cách thực hiện và yêu cầu chatbot Perplexity tóm tắt bài báo, kết quả là "một bản tóm tắt hoàn hảo bao gồm tất cả các loại chi tiết mà họ không thể đoán được". Anh hỏi: "họ đang làm gì?"

Knight đã kiểm tra nhật ký máy chủ và phát hiện ra rằng Perplexity dường như đang bỏ qua tệp robots.txt mà anh ta đã thiết lập và khéo léo vượt qua tường lửa, rất có thể là thông qua một trình duyệt web tự động trên các máy chủ không được tiết lộ của công ty. “Tôi thậm chí không thể chặn dải IP của họ vì có vẻ như những trình duyệt không có giao diện này không nằm trong phạm vi IP của họ”, anh viết.

Cơ quan này xác nhận rằng địa chỉ IP mà Knight quan sát được – 44.221.181.252 – sẽ truy cập và tải xuống các trang web dựa trên truy vấn của người dùng tới Perplexity, bất kể tệp robots.txt của trang web đó là gì. Theo phân tích của các kỹ sư truyền thông về nhật ký hệ thống của Condé Nast, địa chỉ IP này có thể đã truy cập nội dung của công ty hàng nghìn lần mà không được phép.

Trong một số trường hợp, việc thu thập thông tin các trang web cấm thu thập nội dung một cách rõ ràng có thể tạo ra rủi ro pháp lý cho các công ty hoặc cá nhân. Mặc dù trường hợp pháp lý chưa rõ ràng nhưng nhìn chung nó có lợi cho những người truy cập các trang web công cộng. Andrew Crocker, giám đốc kiện tụng giám sát tại Electronic Frontier Foundation, lưu ý: “Đây là một lĩnh vực luật phức tạp và có rất nhiều vụ kiện tụng xung quanh vấn đề này”.

Là một nhà phát triển, Knight rất tức giận với những gì anh tìm thấy. Anh chỉ ra: "Hiện nay, nhiều công ty trí tuệ nhân tạo không ngần ngại áp dụng một số biện pháp không công bằng để duy trì hoạt động kinh doanh. Họ truy cập các trang web bằng cách giấu danh tính để thu thập dữ liệu mà không bị hạn chế".

Srinivas trả lời: "Perplexity được hàng triệu người dùng ưa chuộng vì chúng tôi cung cấp một cách hiệu quả hơn để giúp mọi người lấy thông tin".

Cuộc chiến giữa ảo giác và độ chính xác của chatbot​

Mặc dù phân tích của Knight and Media cho thấy rằng Perplexity đã truy cập và sử dụng nội dung từ các trang web mà họ không được phép, "điều đó không giải thích đầy đủ tại sao phản hồi của Perplexity đối với một số bài báo có vẻ mơ hồ hoặc phản hồi của nó đối với những bài báo khác có lỗi rõ ràng." một lời giải thích đơn giản: trong một số trường hợp, Perplexity không thực sự tóm tắt được nội dung bài viết.

Trong một thử nghiệm, nhà xuất bản đã tạo một trang web thử nghiệm chỉ có một câu - “Tôi là phóng viên của XX Media” - và yêu cầu Perplexity tóm tắt trang đó. Trong khi theo dõi nhật ký máy chủ của trang web, không có dấu hiệu nào cho thấy Perplexity đang cố truy cập trang này. Thay vào đó, nó kể một câu chuyện về một cô bé tên Amelia đi theo dấu vết của những cây nấm phát sáng trong một khu rừng ma thuật được gọi là Whisper Woods. Không rõ tại sao chatbot lại bịa ra một câu chuyện kỳ quái như vậy hoặc tại sao nó không cố truy cập vào trang web.

Mặc dù Perplexity khẳng định tính chính xác và độ tin cậy nhưng chatbot của nó thường bộc lộ các vấn đề tương tự. Ví dụ: để kiểm tra xem liệu nó có thể truy cập vào bài viết hay không, theo lời nhắc do phóng viên cung cấp và thiết kế, chatbot đã tạo văn bản trích dẫn một câu chuyện năm 13 tuổi, trong đó có một người đàn ông bị máy bay không người lái theo dõi sau khi ăn trộm lốp xe tải. Sau khi được nhắc thêm, văn bản do chatbot Perplexity tạo ra cũng báo cáo rằng một sĩ quan từ Sở Cảnh sát Chula Vista, California đã đánh cắp một chiếc xe đạp từ một gara. (Trên thực tế, cơ quan này đã không báo cáo điều này.)

Phó cảnh sát trưởng Chula Vista Dan Miéville gửi email cảm ơn giới truyền thông vì đã "sửa lại hồ sơ" và làm rõ rằng viên cảnh sát này không ăn trộm xe đạp từ gara của cư dân trong cộng đồng. Tuy nhiên, ông nói thêm rằng bộ không quen thuộc với công nghệ được đề cập và không thể bình luận thêm.

Đây là những ví dụ rõ ràng về “ảo giác” chatbot – hay như được mô tả trong một bài báo gần đây của ba nhà triết học từ Đại học Glasgow trong tác phẩm kinh điển On Bullshit của Harry Frankfurt có nghĩa là “vô nghĩa”. Các tác giả viết về hệ thống trí tuệ nhân tạo: "Bởi vì bản thân những chương trình này không quan tâm đến sự thật và chúng được thiết kế để tạo ra văn bản có vẻ đúng mà không thực sự quan tâm đến sự thật. Do đó, gọi đầu ra của chúng là Vô nghĩa có vẻ phù hợp".

Nếu chatbot Perplexity đang truy cập vào một bài viết, nó không có lý do gì để tạo ra những điều vô nghĩa bằng cách suy ra nội dung của bài viết. Do đó, thật hợp lý khi kết luận rằng trong một số trường hợp, nó không truy cập mà chỉ suy đoán một cách đại khái, nội dung có thể có từ tài liệu liên quan được tìm thấy ở nơi khác. Nguồn thông tin này có nhiều khả năng nhất là các URL và mẩu tin lưu niệm kỹ thuật số được các công cụ tìm kiếm như Google thu thập và gửi - một quá trình hơi giống mô tả một bữa ăn bằng cách nếm thử những mẩu tin vụn và mẩu vụn được vớt ra từ thùng rác.

Lý thuyết này được hỗ trợ bởi lời giải thích Perplexity được đăng trên trang web của mình về cách thức hoạt động, cũng như văn bản mà chatbot tạo ra để phản hồi các lời nhắc liên quan đến quy trình thu thập thông tin của nó. Văn bản cho biết sau khi phân tích cú pháp truy vấn, Perplexity triển khai trình thu thập dữ liệu web để tránh các trang web mà nó đã chặn.
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Top