Claude Fable 5 bí mật hạ cấp AI: Nhà nghiên cứu bị qua mặt, Anthropic lên tiếng

Derpy
Derpy
Phản hồi: 0

Derpy

Intern Writer
Trong thế giới AI đang phát triển chóng mặt, ranh giới giữa sự an toàn và khả năng đột phá luôn là một cuộc tranh luận không hồi kết. Mới đây, Anthropic, một trong những tên tuổi lớn trong lĩnh vực này, đã vô tình châm ngòi cho một cuộc tranh cãi lớn khi mô hình AI Fable 5 của họ bị phát hiện "âm thầm" hạn chế khả năng của các nhà nghiên cứu, khiến cộng đồng công nghệ dậy sóng.

Câu chuyện bắt đầu từ tháng 4, khi Anthropic giới thiệu Mythos như một phần của Project Glasswing. Đây là một dự án hợp tác giữa các tổ chức công nghệ hàng đầu và Anthropic, với mục tiêu cao cả là tìm và khắc phục các lỗ hổng trong hạ tầng internet. Vì khả năng mạnh mẽ của nó, Mythos được giới hạn quyền truy cập chỉ cho một số tổ chức nhất định, bởi một công cụ có thể tìm ra lỗ hổng để sửa chữa cũng có thể bị lạm dụng để khai thác chúng.

1781319452345.png


Mythos và Glasswing được đánh giá là mạnh hơn nhiều so với công cụ Claude Security của Anthropic, vốn được thiết kế để chạy trong Opus. Tuy nhiên, đầu tuần này, Anthropic đã công bố và phát hành Fable, hay chính xác hơn là Fable 5, một phiên bản "bị bịt miệng" của Mythos. Anthropic đã làm rõ rằng Fable sẽ không hỗ trợ một số lĩnh vực nghiên cứu rủi ro cao trong an ninh mạng, sinh học và hóa học. Khi người dùng đưa ra các yêu cầu liên quan đến những lĩnh vực này, Claude sẽ tự động hạ cấp từ Fable xuống mức thông minh của Opus và quan trọng hơn là thông báo rõ ràng cho người dùng về việc hạ cấp này. Cho đến đây, mọi thứ có vẻ ổn thỏa.

Thế nhưng, mọi chuyện bắt đầu trở nên phức tạp. Đối với các nhà nghiên cứu làm việc trong những lĩnh vực nhạy cảm khác, như thiết kế chip siêu mạnh hoặc các mô hình ngôn ngữ lớn AI tiên tiến, Fable lại im lặng. Nó vẫn hạ cấp mô hình từ Fable xuống Opus, nhưng lần này, người dùng không hề được thông báo. Thực tế, điều này đã được đề cập trong tài liệu "Fable and Mythos System Card" dài 319 trang, nhưng nó chỉ là một dòng nhỏ và hành vi này không hiển thị cho người dùng. Những ai không có thói quen đọc kỹ toàn bộ 319 trang tài liệu đã không hề hay biết về việc hạ cấp này.

Kết quả là, các nhà nghiên cứu cứ nghĩ rằng họ đang thử nghiệm và nhận kết quả từ Fable, trong khi thực tế họ chỉ đang nhận được kết quả từ Opus. Điều này đã gây ra một làn sóng phản đối mạnh mẽ. Tạp chí Fortune mô tả hành vi này là "phá hoại bí mật", còn Wired thì đưa tin về việc thực hành hạ cấp âm thầm này có thể "phá hoại các nhà nghiên cứu AI".

Rob T. Lee, Giám đốc AI và Trưởng phòng Nghiên cứu tại SANS Institute, một tổ chức đào tạo an ninh mạng, đã chia sẻ với ZDNET rằng Fable 5 là một giải pháp mới lạ và thông minh, nhưng nó chắc chắn sẽ bị tấn công. Ông lo ngại rằng lớp bảo vệ ngăn chặn mục đích xấu cũng đồng thời cản trở nghiên cứu phòng thủ hợp pháp. Theo ông Lee, những hạn chế của Fable đang ngăn cản các nhà phát triển tạo ra các công cụ phòng thủ mới. Ông đã tự mình trải nghiệm khi cố gắng sử dụng nền tảng này để xây dựng một kỹ năng pháp y kỹ thuật số và bị hạ cấp xuống Opus 4.8. Ông cũng cho rằng mô hình mới này có thể đã rơi vào tay kẻ xấu, bởi điều này từng xảy ra trong quá khứ.

Một khía cạnh thú vị khác mà ông Lee chỉ ra là về mô hình Mythos. Vấn đề không nằm ở khả năng vốn có của AI, mà ở yếu tố con người. Ngay cả khi được kiểm soát chặt chẽ trong Project Glasswing, các tổ chức tham gia có hàng ngàn nhân viên. Bất kỳ ai trong số họ cũng có thể bị mua chuộc để cung cấp quyền truy cập cho các nhóm tội phạm, hoặc thậm chí có thể là một tác nhân từ các quốc gia đối địch đang ẩn mình trong tổ chức.

Trước làn sóng phản đối từ cộng đồng, Anthropic đã có một phản ứng nhanh chóng và dứt khoát. Công ty đã thông báo với ZDNET rằng họ sẽ thay đổi các biện pháp bảo vệ của Fable 5 để chúng trở nên minh bạch hơn. Bắt đầu từ tuần này, các yêu cầu bị gắn cờ sẽ hiển thị rõ ràng việc hạ cấp xuống Opus 4.8. Trên API, mọi yêu cầu bị gắn cờ sẽ trả về lý do từ chối.

Anthropic giải thích rằng các biện pháp bảo vệ hiện tại của họ chỉ bao gồm một số tác vụ hẹp như đường ống dữ liệu LLM quy mô lớn và phát triển kernel cho một số chip không tiêu chuẩn. Công ty cũng đưa ra một lý do khá mạnh mẽ, gần như mang tính dân tộc chủ nghĩa: "Những biện pháp bảo vệ này ngăn chặn các đối thủ nước ngoài sử dụng các mô hình mạnh nhất của chúng tôi theo những cách gây ra rủi ro an toàn nghiêm trọng." Họ nhấn mạnh rằng Mỹ và các đồng minh đang dẫn đầu về chip tiên tiến và phần mềm tối ưu hóa chúng, và các biện pháp bảo vệ này nhằm đảm bảo Claude không bị sử dụng để làm suy yếu lợi thế đó, ví dụ như tối ưu hóa chip do các đối thủ phát triển.

Ashley Casovan, Giám đốc điều hành của IAPP's AI Governance Center, đã ghi nhận Anthropic vì đã kiềm chế Mythos đủ lâu để "đặt các rào cản cần thiết vào phần mềm của họ", đồng thời lưu ý rằng "chúng ta vẫn chưa thấy tác động mà các mô hình này có thể gây ra khi được phát hành ở quy mô này." Chris Boehm, CTO tại Zero Networks, lại coi đây là một thành tựu của sự kiềm chế hơn là sức mạnh thô. Ông cho rằng Anthropic đã "biến nó thành một thứ đủ an toàn để phát hành rộng rãi," và phần thưởng là quy mô, giúp những người phòng thủ bình thường cuối cùng cũng có thể hoạt động với tốc độ của kẻ tấn công, "giả sử các biện pháp bảo vệ được duy trì."

Anthropic cũng cho biết các hạn chế này giúp duy trì điều khoản dịch vụ của họ, vốn cấm sử dụng các mô hình để phát triển hệ thống AI cạnh tranh – một hạn chế tiêu chuẩn giữa các nhà cung cấp AI lớn. Điều đáng chú ý là Anthropic không chỉ giữ vững lập trường mà còn lắng nghe và xin lỗi. Họ thừa nhận đã "đưa ra lựa chọn sai lầm và xin lỗi vì đã không cân bằng đúng đắn." Công ty cũng giải thích rằng việc xây dựng các biện pháp bảo vệ là một thách thức kỹ thuật phức tạp, và người dùng có thể gặp phải nhiều trường hợp dương tính giả hơn khi họ tinh chỉnh các bộ phân loại để phản ứng với các mối đe dọa mới.

Ban đầu, Anthropic đã chọn cách ẩn các biện pháp bảo vệ vì "một biện pháp bảo vệ ẩn sẽ khó bị dò xét và vượt qua hơn. Điều này có nghĩa là các biện pháp bảo vệ có thể được nhắm mục tiêu hẹp hơn nhiều." Tuy nhiên, như chúng ta đã thấy, những biện pháp bảo vệ ẩn này đã bị phát hiện chỉ trong vài giờ. Anthropic cũng thừa nhận lo ngại về các trường hợp dương tính giả, ước tính rằng bộ phân loại hiện tại chỉ kích hoạt trên khoảng 0.05% tác vụ, ảnh hưởng đến dưới 0.05% tổ chức.

Một vấn đề khác đang được quan tâm là chính sách lưu trữ dữ liệu của Anthropic đối với các mô hình lớp Mythos. Theo Reuters, chính sách của Anthropic về việc lưu giữ các lời nhắc (prompts) và phản hồi trong 30 ngày (hoặc lâu hơn đối với các lời nhắc vi phạm chính sách) đã đủ để Microsoft hạn chế nhân viên sử dụng và thành lập một đội ngũ pháp lý để đánh giá chính sách này. Tuy nhiên, đây không chỉ là vấn đề riêng của Mythos hay Fable. Anthropic lưu giữ dữ liệu trên nhiều sản phẩm của mình, và hầu hết có thể chạy theo thỏa thuận không lưu trữ dữ liệu (zero-data-retention).

Điểm khác biệt là Fable và Mythos là những ngoại lệ. Trang "Covered Models under a Business Associate Agreement (BAA)" của Anthropic đã nêu rõ rằng hai mô hình này yêu cầu lưu trữ dữ liệu 30 ngày. Chúng không thể chạy với tùy chọn không lưu trữ dữ liệu vì các bộ phân loại an toàn cần dữ liệu để hoạt động. Chính việc thiếu tùy chọn tắt này, chứ không phải bản thân thời hạn 30 ngày, đã khiến đội ngũ pháp lý của Microsoft phải vào cuộc. Etay Maor, Phó chủ tịch tình báo mối đe dọa tại Cato Networks, nhấn mạnh rằng từ góc độ doanh nghiệp, yêu cầu lưu trữ 30 ngày cần được chú ý. Các tổ chức trong các ngành công nghiệp được quản lý cần hiểu chính xác dữ liệu nào đang được lưu giữ và liệu điều đó có phù hợp với các yêu cầu tuân thủ và pháp lý của họ trước khi sử dụng các mô hình này trong môi trường nhạy cảm.

Điều đọng lại sau tất cả những tranh cãi này là hầu như không ai tranh cãi về sức mạnh thô của Fable. Cuộc chiến hoàn toàn xoay quanh "cái rọ" của nó. Một phe cho rằng nó quá chặt, rằng lớp bảo vệ ngăn chặn kẻ tấn công cũng đồng thời cản trở những người phòng thủ và nhà nghiên cứu xây dựng thế hệ công cụ tiếp theo, cùng với các trường hợp dương tính giả. Một phe khác lại cho rằng điều đó không mấy quan trọng, bởi những kẻ thù có động cơ sẽ tìm cách lách luật, và khả năng này đã có sẵn ở các phòng thí nghiệm khác. Như ông Lee đã chỉ ra, không có hạn chế nào có thể tồn tại khi tiếp xúc với hàng ngàn nhân viên và một nội gián có quyết tâm.

Tuy nhiên, một số chuyên gia lại ghi nhận Anthropic vì đã phát hành một sản phẩm có khả năng như vậy mà không liều lĩnh, miễn là các biện pháp bảo vệ thực sự được duy trì. Theo mình, đây là một sự ghi nhận xứng đáng.

Chủ đề chính ở đây là: các chuyên gia không đồng ý về việc Fable bị hạn chế quá mức, chưa đủ hạn chế, hay vừa phải, nhưng tất cả đều đồng ý rằng các hạn chế, chứ không phải trí thông minh, mới là câu chuyện đáng nói. Đối với một mô hình được đặt tên theo một bài học đạo đức (Fable - ngụ ngôn), điều này thật phù hợp.
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
http://textlink.linktop.vn/?adslk=aHR0cHM6Ly92bnJldmlldy52bi90aHJlYWRzL2NsYXVkZS1mYWJsZS01LWJpLW1hdC1oYS1jYXAtYWktbmhhLW5naGllbi1jdXUtYmktcXVhLW1hdC1hbnRocm9waWMtbGVuLXRpZW5nLjg1MDMyLw==
Top