Meta, OpenAI, Anthropic và Cohere A.I. tất cả các mô hình đều tạo nên mọi thứ - đây là điều tồi tệ nhất

Nếu các mô hình AI hàng đầu của ngành công nghệ có những mô hình bậc nhất, thì MicrosoftGPT-4 của OpenAI được hỗ trợ sẽ giỏi toán nhất, Meta Llama 2 của Anthropic sẽ ở giữa con đường, Claude 2 của Anthropic sẽ giỏi nhất trong việc biết giới hạn của nó và Cohere AI sẽ nhận được danh hiệu ảo giác nhất — và câu trả lời sai tự tin nhất.


Đó là tất cả theo một báo cáo hôm thứ Năm từ các nhà nghiên cứu tại Arthur AI, một nền tảng giám sát máy học.

Nghiên cứu được đưa ra vào thời điểm thông tin sai lệch bắt nguồn từ hệ thống trí tuệ nhân tạo đang được tranh luận sôi nổi hơn bao giờ hết, trong bối cảnh bùng nổ trí tuệ nhân tạo AI trước cuộc bầu cử tổng thống Hoa Kỳ năm 2024.

Đây là báo cáo đầu tiên “xem xét toàn diện về tỷ lệ ảo giác, thay vì chỉ... cung cấp một con số duy nhất nói về vị trí của họ trên bảng xếp hạng LLM,” Adam Wenchel, đồng sáng lập và Giám đốc điều hành của Arthur, nói với CNBC.

Ảo giác AI xảy ra khi các mô hình ngôn ngữ lớn, hoặc LLM, hoàn toàn bịa đặt thông tin, hành xử như thể chúng đang nói ra sự thật. Một ví dụ: Vào tháng 6, có tin tức cho biết ChatGPT đã trích dẫn các trường hợp “không có thật” trong hồ sơ nộp lên tòa án liên bang ở New York và các luật sư ở New York có liên quan có thể phải đối mặt với các biện pháp trừng phạt.

Trong một thử nghiệm, các nhà nghiên cứu Arthur AI đã thử nghiệm các mô hình AI trong các danh mục như toán học tổ hợp, tổng thống Hoa Kỳ và các nhà lãnh đạo chính trị Ma-rốc, đặt câu hỏi “được thiết kế để chứa một thành phần quan trọng khiến LLM phạm sai lầm: chúng yêu cầu nhiều bước lập luận về thông tin, ” các nhà nghiên cứu đã viết.

Nhìn chung, GPT-4 của OpenAI hoạt động tốt nhất trong số tất cả các mô hình được thử nghiệm và các nhà nghiên cứu nhận thấy nó ít bị ảo giác hơn so với phiên bản trước đó, GPT-3.5 — ví dụ: đối với các câu hỏi toán học, nó ít bị ảo giác hơn từ 33% đến 50%. tùy thuộc vào loại.

Mặt khác, Llama 2 của Meta nhìn chung gây ảo giác nhiều hơn so với GPT-4 và Claude 2 của Anthropic, các nhà nghiên cứu nhận thấy.

Trong hạng mục toán học, GPT-4 đứng ở vị trí đầu tiên, theo sát là Claude 2, nhưng trong các tổng thống Hoa Kỳ, Claude 2 chiếm vị trí đầu tiên về độ chính xác, vượt qua GPT-4 ở vị trí thứ hai. Khi được hỏi về chính trị Ma-rốc, GPT-4 lại đứng đầu và Claude 2 và Llama 2 gần như hoàn toàn chọn không trả lời.
Trong thử nghiệm thứ hai, các nhà nghiên cứu đã kiểm tra mức độ các mô hình AI sẽ phòng ngừa các câu trả lời của họ bằng các cụm từ cảnh báo để tránh rủi ro (hãy nghĩ: “Là một mô hình AI, tôi không thể đưa ra ý kiến”).

Khi nói đến bảo hiểm rủi ro, GPT-4 có mức tăng tương đối 50% so với GPT-3.5, điều này “định lượng bằng chứng giai thoại từ người dùng rằng GPT-4 gây khó chịu hơn khi sử dụng,” các nhà nghiên cứu viết. Mặt khác, mô hình AI của Cohere hoàn toàn không phòng ngừa bất kỳ phản ứng nào của nó, theo báo cáo. Nghiên cứu cho thấy Claude 2 đáng tin cậy nhất về mặt “tự nhận thức”, nghĩa là đánh giá chính xác những gì nó làm và không biết, đồng thời chỉ trả lời những câu hỏi mà nó có dữ liệu đào tạo để hỗ trợ.

Người phát ngôn của Cohere đã bác bỏ kết quả, nói rằng: “Công nghệ tạo tự động truy xuất của Cohere, vốn không có trong mô hình được thử nghiệm, có hiệu quả cao trong việc cung cấp cho doanh nghiệp các trích dẫn có thể kiểm chứng để xác nhận nguồn thông tin.”

Wenchel cho biết, điều quan trọng nhất đối với người dùng và doanh nghiệp là “kiểm tra khối lượng công việc chính xác của bạn”, sau đó bổ sung thêm, “Điều quan trọng là phải hiểu nó hoạt động như thế nào đối với những gì bạn đang cố gắng hoàn thành”.

“Rất nhiều điểm chuẩn chỉ xem xét một số thước đo của LLM, nhưng đó không thực sự là cách nó được sử dụng trong thế giới thực,” Wenchel nói. “Đảm bảo rằng bạn thực sự hiểu cách LLM hoạt động theo cách nó thực sự được sử dụng là chìa khóa.”



Tham khảo bài viết gốc tại đây:
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Top