Một số dấu hiệu của sự sụp đổ mô hình AI bắt đầu lộ diện

C
Con voi còi
Phản hồi: 0
Tôi dùng AI khá nhiều, nhưng không phải để viết truyện. Thứ tôi quan tâm nhất là khả năng tìm kiếm – và ở khoản này, AI, đặc biệt là Perplexity, thực sự vượt trội so với Google.

Công cụ tìm kiếm truyền thống giờ đã xuống cấp rõ rệt. Có thể một ngày nào đó, khi Google thật sự nghiêm túc với AI, kết quả tìm kiếm của họ sẽ tốt trở lại. Nhưng tôi nghi ngờ điều đó. Thực tế vài tháng qua cho thấy ngay cả các hệ thống tìm kiếm tích hợp AI cũng đang tệ dần đi.

Điển hình là khi tôi tìm những số liệu cụ thể như thống kê thị phần hay các chỉ số tài chính. Thay vì dẫn tôi đến các báo cáo chính thức như hồ sơ 10-K - báo cáo tài chính định kỳ mà các công ty đại chúng phải nộp cho Ủy ban Chứng khoán và Giao dịch Mỹ (SEC) - AI lại trả về các nguồn mơ hồ, thường là những trang tóm tắt mang tính "gần đúng", nhưng không bao giờ chính xác hoàn toàn. Nếu tôi chỉ rõ rằng mình muốn kết quả từ hồ sơ 10-K, thì vẫn ổn. Nhưng nếu chỉ yêu cầu “kết quả tài chính”, thì câu trả lời bắt đầu trở nên… kỳ quặc.
1748506879101.png

Vấn đề không chỉ nằm ở Perplexity. Tôi đã thử cùng một truy vấn trên nhiều chatbot AI khác nhau và gần như tất cả đều cho ra kết quả "đáng ngờ".

Đây là minh chứng sống động cho hiện tượng "Garbage In, Garbage Out" (rác đầu vào – rác đầu ra). Trong lĩnh vực AI, điều này còn được gọi là "sự sụp đổ của mô hình". Khi các mô hình AI được huấn luyện trên chính dữ liệu do AI tạo ra, chất lượng của chúng sẽ ngày càng suy giảm: độ chính xác giảm, tính đa dạng biến mất, độ tin cậy cũng không còn. Lỗi tích tụ qua các thế hệ khiến dữ liệu bị bóp méo, dẫn đến những “khuyết điểm không thể đảo ngược”. Tạp chí Nature đã mô tả hiện tượng này như sau: "Mô hình bị đầu độc bởi chính sự phản chiếu méo mó của thực tế mà nó tạo ra."

Sự suy thoái này bắt nguồn từ ba nguyên nhân chính. Thứ nhất là lỗi tích lũy - mỗi thế hệ AI lại lặp lại và khuếch đại sai sót của đời trước. Thứ hai là mất dữ liệu đuôi - các dữ liệu hiếm gặp dần bị loại bỏ khỏi kho huấn luyện, khiến nhiều khái niệm bị xóa mờ. Cuối cùng là vòng lặp phản hồi - khi AI chỉ lặp đi lặp lại những mẫu phổ biến nhất, tạo ra nội dung đơn điệu và định kiến.

Tôi rất thích cách công ty AI Aquant diễn đạt: “Nói đơn giản, nếu AI chỉ học từ chính nó, nó sẽ ngày càng xa rời thực tế”.

Và tôi không phải là người duy nhất nhận thấy chất lượng AI đang giảm sút. Trong một nghiên cứu gần đây của Bloomberg Research về kỹ thuật Retrieval-Augmented Generation (RAG), họ đã kiểm tra 11 mô hình ngôn ngữ hàng đầu, bao gồm GPT-4o, Claude 3.5 Sonnet và LLaMA 3 8B. Kết quả cho thấy rằng với hơn 5.000 lời nhắc có vấn đề, tất cả các mô hình đều cho ra kết quả sai lệch.

RAG là công nghệ cho phép AI truy cập vào kho dữ liệu bên ngoài như tài liệu, cơ sở dữ liệu, thay vì chỉ dựa vào những gì đã học trước đó. Nghe thì có vẻ sẽ cải thiện độ chính xác – và đúng là nó giúp giảm hiện tượng “ảo giác” của AI. Nhưng đồng thời, RAG cũng làm tăng nguy cơ rò rỉ thông tin cá nhân, phân tích thị trường sai lệch và lời khuyên tài chính đầy thiên vị.

Như Amanda Stent, giám đốc chiến lược AI tại Bloomberg nhận xét: “Phát hiện này đi ngược trực giác và đặt ra nhiều câu hỏi khi RAG đang dần được tích hợp vào các ứng dụng AI phổ biến như trợ lý khách hàng và hệ thống hỏi đáp. Người dùng Internet trung bình tương tác với các hệ thống này mỗi ngày. Các kỹ sư AI cần phải cân nhắc kỹ lưỡng hơn về cách sử dụng RAG một cách có trách nhiệm.”

Nghe thì hợp lý, nhưng “người dùng AI có trách nhiệm” thực ra là một khái niệm mâu thuẫn. Bởi trong khi AI được ca ngợi là sẽ giúp con người tập trung hơn vào những công việc ý nghĩa, thì thực tế lại là người dùng đang tạo ra hàng loạt nội dung giả mạo - từ bài tập trung học, nghiên cứu học thuật, đến cả “bài viết hay nhất mùa hè” nổi tiếng trên Chicago Sun-Times - và cả những cuốn tiểu thuyết chưa từng tồn tại.

Tất cả điều này chỉ khiến ngày AI trở nên vô dụng đến nhanh hơn. Ví dụ, khi tôi hỏi ChatGPT về cốt truyện tiểu thuyết chưa phát hành Nightshade Market của Min Jin Lee - một tác phẩm không có thật - nó trả lời đầy tự tin rằng “hiện chưa có thông tin công khai về cốt truyện”. Câu trả lời nghe có vẻ hợp lý, nhưng thật ra đang che giấu một thực tế: AI vừa bị đánh lừa bởi một tác phẩm không tồn tại.

Lại một lần nữa, GIGO.

Một số chuyên gia cho rằng có thể ngăn đà suy thoái của AI bằng cách bổ sung nội dung thật do con người tạo ra vào quá trình huấn luyện. Nghe thì đáng hy vọng. Nhưng nội dung thật đó sẽ đến từ đâu?

Giữa hai lựa chọn - tạo ra nội dung chất lượng đòi hỏi công sức và nghiên cứu, hay tận dụng “chất thải AI” nhanh chóng, dễ dàng - tôi biết phần lớn mọi người sẽ chọn gì. Không chỉ học sinh muốn đạt điểm trung bình trong bài kiểm tra văn học, mà cả các doanh nghiệp luôn miệng nói về “tối ưu hiệu suất” trong khi thực tế chỉ là muốn sa thải nhân viên để tăng lợi nhuận.

Chất lượng ư? Hãy thực tế đi.

Chúng ta đang đầu tư ngày càng nhiều vào AI, cho đến khi các mô hình trở nên vô dụng đến mức không một CEO nào – dù có ngây thơ đến đâu – còn có thể giả vờ không thấy vấn đề.

Bao lâu nữa thì điều đó xảy ra? Tôi tin rằng nó đang diễn ra rồi. Có thể tôi là người đầu tiên lên tiếng, nhưng nếu nhìn vào lời của Sam Altman - CEO OpenAI - người đã tweet vào tháng 2/2024 rằng “OpenAI hiện tạo ra khoảng 100 tỷ từ mỗi ngày”, và giả sử nhiều trong số đó được đưa lên Internet, thì ngày tàn không còn xa nữa. (Register)
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
http://textlink.linktop.vn/?adslk=aHR0cHM6Ly92bnJldmlldy52bi90aHJlYWRzL21vdC1zby1kYXUtaGlldS1jdWEtc3Utc3VwLWRvLW1vLWhpbmgtYWktYmF0LWRhdS1sby1kaWVuLjYyMTEzLw==
Top