25/03/2020, 00:00Hà Nội

Bước bảo mật “Tôi không phải robot” có thật sự hiệu quả?

"Tôi không phải robot" là một phiên bản của reCAPTCHA và nó sử dụng một số phương pháp để xác định người dùng là người thật hay máy tính tự động (bot). Phương pháp này hiệu quả hơn rất nhiều so với các phương pháp nhập CAPTCHA trước đây, thường là yêu cầu người dùng nhập một đoạn ký tự được làm mờ.;

Mạng internet đã giúp cuộc sống của chúng ta trở nên dễ dàng hơn. Bạn chỉ cần click chuột vài lần là sẽ có ngay những thứ mình cần, thậm chí có thể làm được rất nhiều thứ từ ngay ngôi nhà của bạn. Hết đồ dự trữ trong nhà ư? Chỉ việc vào trang thương mại điện tử và mua sắm thôi. Muốn chuyển tiền cho người khác nhưng lại không muốn đến ngân hàng? Bạn chỉ việc đăng ký dịch vụ internet-banking với ngân hàng là xong.

Tuy nhiên, tiện ích càng lớn thì sẽ xuất hiện càng nhiều vấn đề, đó là điều tất yếu trong sự phát triển của công nghệ. Với internet thì một trong số các vấn đề lớn nhất chính là việc quản lý cơ sở hạ tầng kỹ thuật số để tránh các truy cập không mong muốn từ bot.

Bot có thể phá hoại cho các website, từ việc gian lận tài chính cho đến lũng đoạn thị trường thương mại điện tử. Vì vậy, điều cấp thiết đặt ra là làm thế nào để xác định lượt truy cập vào trang web là từ một người dùng bằng da bằng thịt hay chỉ là một phần mềm được lập trình sẵn.

Ngày nay, cách thông dụng nhất để xác định chính là reCAPTCHA hay như bạn thường thấy là một ô chọn với dòng chữ "Tôi không phải người máy" (I'm not a robot). Dám cá là ai cũng ít nhất một lần phải tích vào ô này… trừ khi bạn vẫn còn đang sống trong hang.

Bạn có phải là con người? (Ảnh: AIexVector/Shutterstock)

Nhưng làm thế nào chỉ với một cú nhấp chuột, trang web có thể xác định bạn là người hay bot? Phương pháp này hiệu quả như thế nào?

Tại sao website cần kiểm tra bạn là người thật hay bot?

Như đã nói ở trên, internet không phải là một môi trường lý tưởng như chúng ta tưởng tượng. Trên mạng có rất nhiều kẻ xấu chuyên lợi dụng các kẽ hở trong cơ sở hạ tầng kỹ thuật số để trục lợi hay phá hoại.

Bot có thể được tạo ra để thực hiện tất cả các hoạt động phá hoại. Bot có thể tạo ra hàng loạt tài khoản trên mạng xã hội hay các hộp thư điện tử (như Gmail chẳng hạn), từ đó làm tăng lượng người dùng và tạo ra hỗn loạn ở các nơi trên mạng internet bằng những tài khoản này. Chúng có thể điền vào các bảng biểu thống kê số liệu với những dữ liệu sai, hay đơn giản nhất là phát tán tin giả, tin rác. Ngoài ra chúng cũng có thể dùng những tài khoản ảo để bình luận trên website, mạng xã hội hay các nền tảng khác. Chính vì vậy, bot tạo ra sự khó khăn trong việc xác định sự tương tác của người dùng thật sự với website hay một nền tảng nào đó.

Bot mang lại sự phiền toái (Ảnh: Pranch/Shutterstock)

Ngoài ra, còn có người sử dụng bot để thu thập địa chỉ email của người dùng khác và sử dụng chúng cho các mục đích xấu. Tin tặc có thể sử dụng "từ điển tấn công" để quét tất cả các cụm từ có trong từ điển hòng phá khóa tài khoản của bạn, chính vì vậy mật khẩu thông thường sẽ không đủ an toàn. Chính vì vậy, đó là lý do bạn thấy rất nhiều website yêu cầu người dùng phải được kiểm tra trước khi truy cập. Mặt khác, bot cũng có thể đánh giá và cho 5 sao đối với các sản phẩm, dịch vụ, từ đó tạo nên hình ảnh sai lệch về đối tượng.

Việc kiểm tra lượt truy cập là người dùng hợp pháp hay là bot đã giải quyết rất nhiều vấn đề. Do đó, các thể loại CAPTCHA đã ra đời.

Sự ra đời của CAPTCHA

CAPTCHA là viết tắt của cụm "Completely Automated Public Turing test to tell Computers and Humans Apart", công cụ này được thiết kế bởi các nhà khoa học và giáo sự tại Đại học Carnegie Mellon (CMU) và IBM vào năm 2000. Đó là bộ lọc để ngăn chặn bot không mong muốn truy cập bằng các phương pháp như phân loại hình ảnh, giải đố, chuyển ngữ từ âm thanh… Phương pháp này đã được PayPal sử dụng để theo dõi gian lận thẻ tín dụng.

Cơ sở của các phương pháp này là các chương trình máy tính khó có thể phân loại các hình ảnh đã được làm méo mó, trong khi con người có thể dễ dàng giải mã chúng. Đã có thời điểm CAPTCHA được sử dụng đến 200 triệu lần mỗi ngày, tương đương với khoảng 500.000 giờ để gõ lại tập hợp các chữ cái ngẫu nhiên! Các chuyên gia tại CMU quyết định biến tất cả những nỗ lực trên thành một công cụ hữu ích và sử dụng phương pháp này để số hóa sách giấy.

Các ký tự được làm méo để phân loại người dùng (Ảnh: NanamiOu/Shutterstock)

Phương pháp mới này được gọi là reCAPTCHA, phương pháp này sử dụng các hình ảnh pdf, sách và các sự vật khác cũng như ký tự bị làm méo để người dùng phân loại chúng. Nhờ đó, phương pháp này giải quyết được hai vấn đề, loại bỏ bot và số hóa sách.

Công nghệ CAPTCHA được Google mua lại vào năm 2009 và công ty này tiếp tục pháp triển nó hơn nữa.

Ngày 14/4/2014, Google công bố một bài báo khoa học cho biết biết họ đã phát triển thành công hệ thống nhận diện hình ảnh dựa trên Deep Convolutional Neural Networks, hệ thống này có thể giải mã các con số và chữ cái từ chế độ Street View Imagery của Google Maps. Điều này có nghĩa là máy tính giờ đã có thể giải các CAPTCHA khó nhất với độ chính xác lên đến 99,8%. Do đó, hệ thống này không còn đáng tin cậy nữa.

Dù vậy, sự nguy hiểm từ bot vẫn còn đó và chúng ta cần một cách để loại bỏ chúng.

reCAPTCHA không cần CAPTCHA

Ngày 14/12/2014, Google thông báo rằng họ đã phát triển một phiên bản mới của reCAPTCHA và đó chính là hộp thoại "Tôi không phải người máy" khá phổ biến ngày nay.

Phiên bản này không bắt người dùng phải ghi lại một đoạn văn bản đã làm mờ, mà nó chỉ cần một cú nhấp chuột để phân loại người dùng. Phương pháp này sử dụng Advanced Risk Analysis do Google phát triển dành cho reCAPTCHA và đã được giới thiệu trong một bài viết hồi năm 2013.

Quá trình phụ trợ này phân tích sự tham gia của người dùng trước, trong và sau khi gõ CAPTCHA, từ đó dựa trên những thông tin này để phân loại. Phương pháp kiểm tra "Tôi không phải người máy" khá là đơn giản, chúng dựa vào cách di chuyển trỏ chuột hay cách nhập văn bản làm căn cứ. Tất nhiên là Google sẽ không công bố tất cả các căn cứ phân loại của họ để tránh việc tạo ra các bot có khả năng vượt qua phương pháp này.

Tuy nhiên, CAPTCHA vẫn chưa bị thay thế hoàn toàn, chúng vẫn được sử dụng kết hợp với hộp thoại reCAPTCHA trong trường hợp Google cảm thấy có sự can thiệp của phần mềm độc hại, có thể xem nó là một bộ lọc bổ sung vậy. Tuy nhiên, hình ảnh các ký tự văn bản bị làm méo đã được thay bằng các hình ảnh. Ví dụ như bạn sẽ được yêu cầu chọn các hình ảnh có "con mèo" trong số những tấm hình được đưa ra chẳng hạn.

"Tôi không phải người máy" có hiệu quả hay không?

Google tuyên bố ngay sau khi cho ra mắt phiên bản mới của reCAPTCHA, các công ty khác như Snapchat, WordPress và Humble Bundle đã nhanh chóng sử dụng công cụ này. Họ cho biết trong tuần đầy tiên, reCATPCHA không cần CAPTCHA đã giúp người dùng truy cập websites nhanh các phương pháp trước.

Về mặt an toàn mà nói, việc thêm nhiều căn cứ phân loại người dùng khiến việc truy cập website trở nên khó hơn so với việc chỉ nhập một đoạn ký tự đã bị làm méo. Google không công bố tất cả các căn cứ phân loại để siết chặt các nhà lập trình bot, và họ đảm bảo rằng reCAPTCHA sẽ luôn ở thế cờ thượng phong.

Phương pháp này cũng có một vài lợi ích cho người có vấn đề về thị giác. Nó giảm thời gian những người dùng này gõ chữ và thay thế bằng thao tác nhấp chuột. Trong tương lại, reCAPTCHA không cần CAPTCHA sẽ tiếp tục được phát triển bằng việc bổ sung thêm các căn cứ phân loại người dùng hợp pháp.

Cho dù trong tương lại gần, bot sẽ không thể nào bị xóa sổ hoàn toàn trên môi trường internet. Tuy nhiên, trong thời điểm hiện tại, thì con người vẫn đang chiếm lợi thế trong cuộc chiến chống lại bot.

Minh Bảo theo Science ABC

Bước bảo mật “Tôi không phải robot” có thật sự hiệu quả?

Chủ đề khác