Thế Việt
Writer
Mới đây, các nhà nghiên cứu bảo mật đã phát hiện ra lỗ hổng nghiêm trọng trong mô hình AI DeepSeek R1, cho phép các lời nhắc độc hại (malicious prompts) dễ dàng "qua mặt" hệ thống phòng thủ của AI này, dẫn đến nguy cơ tiềm ẩn về an toàn thông tin.
Theo báo cáo công bố cuối tuần qua trên blog chính thức, nhóm nghiên cứu của Cisco đã tiến hành thử nghiệm DeepSeek R1 - mô hình AI mới nhất được DeepSeek ra mắt ngày 20/1 - bằng cách sử dụng các kỹ thuật bẻ khóa thuật toán (jailbreaking techniques). Họ đã sử dụng 50 lời nhắc độc hại ngẫu nhiên từ tập dữ liệu HarmBench, bao gồm 6 loại hành vi có hại khác nhau như: tội phạm mạng, thông tin sai lệch, hoạt động bất hợp pháp và các tác hại nói chung.
Kết quả thu được rất đáng lo ngại. DeepSeek R1 cho thấy tỷ lệ tấn công thành công lên đến 100%, nghĩa là mô hình này hoàn toàn không thể chặn được bất kỳ lời nhắc độc hại nào trong thử nghiệm. Điều này trái ngược hoàn toàn với các mô hình AI hàng đầu khác trên thị trường, vốn có khả năng chống chịu ít nhất một phần trước các cuộc tấn công tương tự.
Trước đó, một nghiên cứu độc lập từ công ty bảo mật Adversa AI cũng đưa ra kết luận tương tự, xác nhận rằng DeepSeek R1 dễ bị tấn công bằng nhiều chiến thuật bẻ khóa khác nhau, từ các thủ thuật ngôn ngữ đơn giản đến các lời nhắc phức tạp do AI tạo ra.
Các chuyên gia nhận định rằng việc ưu tiên chi phí thấp trong quá trình phát triển có thể là nguyên nhân chính dẫn đến lỗ hổng bảo mật nghiêm trọng này. DJ Sampath, Phó chủ tịch sản phẩm, phần mềm AI và nền tảng của Cisco, đã chia sẻ với Wired rằng: "100% cuộc tấn công thành công cho thấy sự đánh đổi. Đúng là có thể rẻ hơn khi xây dựng thứ gì đó ở đây, nhưng khoản đầu tư có lẽ chưa được sử dụng để tính đến vấn đề an toàn và bảo mật cần đưa vào mô hình."
Vấn đề bảo mật của DeepSeek không chỉ dừng lại ở đó. Tuần trước, công ty an ninh mạng Wiz (Mỹ) cũng cảnh báo về việc DeepSeek đã để lộ hơn một triệu dòng dữ liệu không được bảo vệ, bao gồm các khóa phần mềm kỹ thuật số và nhật ký trò chuyện ghi lại các yêu cầu từ người dùng đến trợ lý AI miễn phí của công ty. Theo Reuters, Ami Luttwak, Giám đốc công nghệ của Wiz, cho biết DeepSeek đã nhanh chóng khắc phục lỗ hổng này sau khi nhận được cảnh báo. Tuy nhiên, sự việc vẫn dấy lên lo ngại về khả năng bảo mật dữ liệu của công ty.
Về phía DeepSeek, công ty được cho là đã sử dụng khoảng 6 triệu USD để xây dựng các mô hình AI của mình, bao gồm V3 miễn phí và R1. Tuy nhiên, theo phân tích của SemiAnalysis, một công ty nổi tiếng về nghiên cứu và tư vấn thị trường bán dẫn và AI, con số thực tế có thể lên tới hơn một tỷ USD. Hiện tại, DeepSeek vẫn chưa đưa ra bất kỳ bình luận chính thức nào về các lỗ hổng bảo mật đã được phát hiện.
DeepSeek, được thành lập vào tháng 5/2023 bởi Liang Wenfeng và có trụ sở tại Hàng Châu, Chiết Giang, là một công ty AI Trung Quốc được tài trợ bởi quỹ đầu tư High-Flyer. Công ty tuyên bố không có kế hoạch huy động vốn và tập trung vào việc xây dựng công nghệ nền tảng.
Nghiên cứu của Cisco cũng so sánh khả năng chống lại các lời nhắc độc hại của DeepSeek R1 với các mô hình AI phổ biến khác. Kết quả cho thấy Llama 3.1 405B của Meta có tỷ lệ bị qua mặt lên tới 96%, GPT-4o của OpenAI là 86%. Trong khi đó, Claude 3.5 Sonnet của Claude và O1-preview của OpenAI cho thấy khả năng phòng thủ tốt hơn, với tỷ lệ bị qua mặt lần lượt là 36% và 26%.
Lỗ hổng bảo mật nghiêm trọng trong DeepSeek R1 là một lời cảnh tỉnh cho các nhà phát triển AI về tầm quan trọng của việc ưu tiên bảo mật song song với hiệu suất. Việc bỏ qua các biện pháp bảo mật để tiết kiệm chi phí có thể dẫn đến những hậu quả nghiêm trọng, không chỉ ảnh hưởng đến uy tín của công ty mà còn tiềm ẩn nguy cơ gây hại cho người dùng và xã hội.
#DeepSeek
Theo báo cáo công bố cuối tuần qua trên blog chính thức, nhóm nghiên cứu của Cisco đã tiến hành thử nghiệm DeepSeek R1 - mô hình AI mới nhất được DeepSeek ra mắt ngày 20/1 - bằng cách sử dụng các kỹ thuật bẻ khóa thuật toán (jailbreaking techniques). Họ đã sử dụng 50 lời nhắc độc hại ngẫu nhiên từ tập dữ liệu HarmBench, bao gồm 6 loại hành vi có hại khác nhau như: tội phạm mạng, thông tin sai lệch, hoạt động bất hợp pháp và các tác hại nói chung.
Kết quả thu được rất đáng lo ngại. DeepSeek R1 cho thấy tỷ lệ tấn công thành công lên đến 100%, nghĩa là mô hình này hoàn toàn không thể chặn được bất kỳ lời nhắc độc hại nào trong thử nghiệm. Điều này trái ngược hoàn toàn với các mô hình AI hàng đầu khác trên thị trường, vốn có khả năng chống chịu ít nhất một phần trước các cuộc tấn công tương tự.
Các chuyên gia nhận định rằng việc ưu tiên chi phí thấp trong quá trình phát triển có thể là nguyên nhân chính dẫn đến lỗ hổng bảo mật nghiêm trọng này. DJ Sampath, Phó chủ tịch sản phẩm, phần mềm AI và nền tảng của Cisco, đã chia sẻ với Wired rằng: "100% cuộc tấn công thành công cho thấy sự đánh đổi. Đúng là có thể rẻ hơn khi xây dựng thứ gì đó ở đây, nhưng khoản đầu tư có lẽ chưa được sử dụng để tính đến vấn đề an toàn và bảo mật cần đưa vào mô hình."
Vấn đề bảo mật của DeepSeek không chỉ dừng lại ở đó. Tuần trước, công ty an ninh mạng Wiz (Mỹ) cũng cảnh báo về việc DeepSeek đã để lộ hơn một triệu dòng dữ liệu không được bảo vệ, bao gồm các khóa phần mềm kỹ thuật số và nhật ký trò chuyện ghi lại các yêu cầu từ người dùng đến trợ lý AI miễn phí của công ty. Theo Reuters, Ami Luttwak, Giám đốc công nghệ của Wiz, cho biết DeepSeek đã nhanh chóng khắc phục lỗ hổng này sau khi nhận được cảnh báo. Tuy nhiên, sự việc vẫn dấy lên lo ngại về khả năng bảo mật dữ liệu của công ty.
Về phía DeepSeek, công ty được cho là đã sử dụng khoảng 6 triệu USD để xây dựng các mô hình AI của mình, bao gồm V3 miễn phí và R1. Tuy nhiên, theo phân tích của SemiAnalysis, một công ty nổi tiếng về nghiên cứu và tư vấn thị trường bán dẫn và AI, con số thực tế có thể lên tới hơn một tỷ USD. Hiện tại, DeepSeek vẫn chưa đưa ra bất kỳ bình luận chính thức nào về các lỗ hổng bảo mật đã được phát hiện.
DeepSeek, được thành lập vào tháng 5/2023 bởi Liang Wenfeng và có trụ sở tại Hàng Châu, Chiết Giang, là một công ty AI Trung Quốc được tài trợ bởi quỹ đầu tư High-Flyer. Công ty tuyên bố không có kế hoạch huy động vốn và tập trung vào việc xây dựng công nghệ nền tảng.
Nghiên cứu của Cisco cũng so sánh khả năng chống lại các lời nhắc độc hại của DeepSeek R1 với các mô hình AI phổ biến khác. Kết quả cho thấy Llama 3.1 405B của Meta có tỷ lệ bị qua mặt lên tới 96%, GPT-4o của OpenAI là 86%. Trong khi đó, Claude 3.5 Sonnet của Claude và O1-preview của OpenAI cho thấy khả năng phòng thủ tốt hơn, với tỷ lệ bị qua mặt lần lượt là 36% và 26%.
Lỗ hổng bảo mật nghiêm trọng trong DeepSeek R1 là một lời cảnh tỉnh cho các nhà phát triển AI về tầm quan trọng của việc ưu tiên bảo mật song song với hiệu suất. Việc bỏ qua các biện pháp bảo mật để tiết kiệm chi phí có thể dẫn đến những hậu quả nghiêm trọng, không chỉ ảnh hưởng đến uy tín của công ty mà còn tiềm ẩn nguy cơ gây hại cho người dùng và xã hội.
#DeepSeek