VnReview
Hà Nội

Thuật toán Machine Learning mới dễ dàng vượt qua xác thực bằng CAPTCHA

Thuật toán mới này đã được thử nghiệm trên 33 trang web phổ biến và cho tỷ lệ chính xác khá cao. Có lẽ phương thức xác thực bằng CAPTCHA sắp trở nên "lỗi thời" rồi.

Theo trang công nghệ Zdnet, các học giả ở Anh và Trung Quốc mới đây đã phát triển ra một thuật toán máy học mới có thể dễ dàng vượt qua CAPTCHA nhanh hơn, dễ dàng hơn và chính xác hơn bất kì các phương pháp nào trước đây.

Thuật toán này được phát triển bởi các nhà khoa học từ Đại học Lancaster (Anh) và Đại học Bắc Kinh (Trung Quốc) dựa trên mô hình GAN – Generative Adversarial Network. GAN là thuật toán trí tuệ nhân tạo đặc biệt hữu ích khi thuật toán không được kết nối với số lượng lớn dữ liệu đào tạo. Thông thường, các thuật toán máy học phân loại đòi hỏi phải được luyện tập với hàng triệu điểm dữ liệu để có thể đạt tới độ chính xác mong muốn khi hoàn thành một nhiệm vụ nào đó.

Song thuật toán GAN có lợi thế chính là nó có thể hoạt động chỉ với một lượng điểm dữ liệu ban đầu nhỏ hơn nhiều bởi thuật toán này sử dụng một thành phần được gọi là "generative" để tự tạo ra những dữ liệu mới tương đồng. Sau đó, những dữ liệu tương đồng mới được tạo ra này sẽ tiếp tục được đưa vào thuật toán "solver" để đoán kết quả ra. Khi hai thành phần là generative và solver này được đặt đối nhau, solver sẽ dần trở nên hoàn hảo hơn như thể nó được luyện tập với hàng triệu điểm dữ liệu.

Trước khi tìm ra thuật toán mới này, các học giả ở Anh và Trung Quốc đều sử dụng những thuật toán cơ bản sau khi được huấn luyện bằng hàng triệu điểm dữ liệu khởi đầu. Song nhiều nhà nghiên cứu cho rằng trong bối cảnh thực tế, việc bí mật tạo ra hàng triệu mã CAPTCHA trên một trang web hoặc thông qua API là điều không thể. Đây chính là lí do mà họ đã chỉ sử dụng 500 mã từ 11 dịch vụ CAPTCHA chữ khác nhau trên 32 trang web trong danh sách Top 50 của Alexa.

Các nhà nghiên cứu cho biết: "Chúng tôi chỉ mất 2 tiếng để thu thập các mã CAPTCHA (với các phần mềm chuyên dụng thì chỉ cần 30 phút) và thêm gần 2 tiếng nữa để tự tay gắn nhãn cho từng ấy mã. Điều này có nghĩa là công sức và chi phí để thực hiện tấn công thông qua mã CAPTCHA là khá thấp".

Danh sách dữ liệu được lấy từ những trang phổ biến như Wikipedia, Microsoft, eBay, Baidu, Google, Alipay, JD, Qihoo360, Sina, Weibo và Sohu.

Bênh cạnh sự cải thiện về độ chính xác, các nhà nghiên cứu còn tự tin khẳng định rằng thành phần solver trong thuật toán của họ hiệu quả và rẻ hơn bất kì phương pháp nào khác. Họ cho biết: "Nó có thể giải một mã CAPTCHA trên máy tính để bàn trong vòng 0,05 giây". Có nghĩa là tin tặc sẽ không cần phải mua và trả tiền thuê cho những máy chủ đám mây đắt đỏ để vượt qua bảo mật CAPTCHA. Bởi một khi thuật toán đã được huấn luyện đầy đủ, nó có thể hoạt động ở bất kì đâu từ máy tinh thông thường tới các máy chủ web, từ đó khởi động các cuộc tấn công DDoS hoặc spam thư rác nhắm vào những trang web có sử dụng dịch vụ CAPTCHA.

Nhờ vào tính dễ huấn luyện của thuật toán, tin tặc còn có thể tự huấn luyện cho thuật toán của mình để có thể dễ dàng đối phó với những mã CAPTCHA chưa từng gặp. Tiến sỹ Zheng Wang, Giảng viên tại Đại học Lancaster đồng thời là đồng tác giả của cuộc nghiên cứu này, cho rằng: "Đây là điều khá nguy hiểm bởi vì bức tường an ninh đầu tiên của một trang web đã dễ dàng bị vượt qua".

Zheng và nhóm của ông hiện đang khuyến khích chủ sở hữu của các trang web nên phát triển các phương thức khác với khả năng bảo mật đa lớp để thay thế cho CAPTCHA. Đầu năm nay, Google đã ra mắt phiên bản ba của dịch vụ reCAPTCHA. Ở phiên bản mới này, họ đã tích hợp cả thuật toán máy học để hỗ trợ việc phân biệt bot và người dùng thật.

Nguyễn Trung

Chủ đề khác