Anthropic lo ngại đến mức mất khả năng tự cải tiến về sức mạnh của mô hình Mythos

Vũ Nguyễn · 13:27

Đầu năm nay, Anthropic đã từ chối công bố mô hình trí tuệ nhân tạo Mythos của mình ra công chúng, với lý do nó quá nguy hiểm .

Vào thời điểm đó, các giám đốc điều hành tuyên bố mô hình này có khả năng xuyên thủng các biện pháp bảo vệ an ninh mạng mạnh mẽ , dẫn chứng bằng việc các nhà nghiên cứu đã sử dụng nó để phát hiện ra hàng nghìn lỗ hổng trong mã nguồn mở được sử dụng rộng rãi.

Vài tháng sau, Anthropic cuối cùng đã sẵn sàng công bố mô hình này ra công chúng. Hôm thứ Ba, công ty do Dario Amodei đứng đầu đã công bố một mô hình sử dụng công nghệ Mythos có tên Fable 5, mà họ khẳng định là "an toàn cho người dùng phổ thông".

Tuy nhiên, các biện pháp bảo vệ mới nhanh chóng khiến các nhà nghiên cứu AI thất vọng, họ cáo buộc công ty cố tình "phá hoại" Fable 5. Phản ứng dữ dội đến mức Anthropic nhanh chóng điều chỉnh chính sách, như Wired đã đưa tin hôm thứ Tư, cho thấy công ty đang thận trọng đến mức nào.

Trong thông báo ban đầu, Anthropic tuyên bố các biện pháp bảo vệ được thiết kế để ngăn Fable 5 tự cải thiện, thông qua “các biện pháp can thiệp mới nhằm hạn chế hiệu quả của Claude đối với các yêu cầu nhắm mục tiêu vào phát triển LLM tiên tiến”. Chỉ vài ngày trước khi ra mắt, Anthropic đã phát hành một báo cáo về “khi AI tự xây dựng chính nó”, một xu hướng “có thể làm tăng nguy cơ con người mất kiểm soát đối với các hệ thống AI”.

Tuy nhiên, các nhà nghiên cứu AI không mấy ấn tượng với việc Anthropic hạn chế khả năng của mô hình mới nhất của mình.

Công ty nghiên cứu AI SemiAnalysis đã đăng tải trên Twitter : “Mô hình mới nhất của Anthropic sẽ KHÔNG giúp ích gì cho bạn nếu nó cho rằng nghiên cứu/kỹ thuật học máy của bạn thú vị, và/hoặc sẽ bí mật giảm chỉ số IQ của nó để kỹ sư bình thường không nhận ra” .

“Chúng tôi đã thấy các bộ lọc điều chỉnh của mô hình mới nhất của Anthropic tác động đến nghiên cứu và lập trình suy luận GPU của chúng tôi,” họ nói thêm.

Các nhà nghiên cứu khác cáo buộc Anthropic sử dụng Fable 5 để “ cấm ngầm ”, hay âm thầm hạn chế tài khoản của các nhà nghiên cứu AI. Theo thẻ hệ thống của công ty, các biện pháp can thiệp hạn chế yêu cầu “phát triển chương trình LLM tiên tiến” sẽ “ không hiển thị với người dùng”.

Mối lo ngại cuối cùng này, vốn có thể phá hoại hiệu quả bất kỳ ai đang cố gắng huấn luyện các mô hình cạnh tranh bằng cách âm thầm hạ cấp chúng xuống các mô hình kém mạnh hơn mà họ không hề hay biết, đã gây ra đủ tranh cãi khiến Anthropic phải thay đổi quyết định.

“Chúng tôi đang thay đổi các biện pháp bảo vệ của Fable 5 đối với việc phát triển LLM tiên tiến để chúng trở nên minh bạch hơn,” công ty cho biết trong một tuyên bố với Wired . “Chúng tôi đã đưa ra quyết định sai lầm và chúng tôi xin lỗi vì đã không cân bằng đúng mức.”

Will Brown, trưởng nhóm nghiên cứu của Prime Intellect, chia sẻ với ấn phẩm này: “Cảm giác như Anthropic đang nói với công chúng rằng, 'Chúng tôi không tin tưởng bất kỳ ai khác có thể thực hiện nghiên cứu AI. Chỉ có chúng tôi mới phải làm điều đó.'”

Tất cả diễn ra trong bối cảnh Anthropic kêu gọi đóng băng toàn cầu các tiến bộ về trí tuệ nhân tạo (AI) đồng thời thảo luận về những nguy hiểm của "sự tự cải tiến đệ quy". Nói cách khác, công ty này đang làm ầm ĩ về một khả năng nghe có vẻ viễn tưởng: rằng AI sẽ bắt đầu tự cải thiện nhanh chóng, có khả năng thoát khỏi sự kiểm soát của những người tạo ra nó.

Ngoài việc hạn chế khả năng phát triển các công cụ AI, các biện pháp bảo vệ mới của Fable 5 cũng được kích hoạt khi gặp các yêu cầu “liên quan đến an ninh mạng, sinh học và hóa học, hoặc chưng cất”. Chưng cất về cơ bản là sử dụng máy học để huấn luyện một mô hình “học sinh” về hành vi và lý luận của một mô hình “giáo viên”, một phương pháp đã gây ra không ít tranh cãi.

Anthropic đã công khai phàn nàn về những nỗ lực quy mô lớn nhằm chắt lọc, hay "trích xuất" mô hình nền tảng của họ - một lập trường đạo đức giả nếu xét đến việc họ đã thu thập bừa bãi các nội dung được bảo vệ bản quyền trên web để huấn luyện trí tuệ nhân tạo ngay từ đầu.

Có thể bạn quan tâm

Chủ đề hot

Có thể bạn quan tâm

Anthropic lo ngại đến mức mất khả năng tự cải tiến về sức mạnh của mô hình Mythos

Vũ Nguyễn

Writer

Vũ Nguyễn

Kỹ sư Tổng quát Nhân tạo của Jeff Bezos có thể làm gì?

Rót 50 tỷ USD vào Anthropic, Microsoft lại cấm tiệt nhân viên dùng Claude Fable 5

Tòa án Đức dội gáo nước lạnh vào tham vọng dùng AI để tìm kiếm thông tin của Google

AI tự soạn mail, tự lên lịch: Vì sao Apple thận trọng với "AI tự lái"?

Ứng dụng Claude Desktop trên Windows "ngốn" lượng RAM khổng lồ, không có cách nào ngăn chặn

Mô hình AI mạnh nhất thế giới Claude Fable 5 của Anthropic từ chối trả lời những câu hỏi sinh học cấp ba

1,3 tỷ mật khẩu bị rò rỉ, đẩy hàng triệu tài khoản trực tuyến vào nguy hiểm

LANDFALL: Biến ảnh gửi qua WhatsApp thành vũ khí tấn công người dùng Samsung

Liên minh 3 nhóm hacker khét tiếng thành thế lực đe dọa toàn cầu

Cảnh báo: Mã độc giả mạo Telegram X chiếm toàn bộ điện thoại và thiết bị của bạn

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

El Nino xuất hiện: Cảnh báo nguy cơ mạnh lên thành siêu El Nino lịch sử

Đánh giá nổi bật