VnReview
Hà Nội

Ảnh "tự sướng" với khẩu trang: Nguồn dữ liệu quý giá đối với các công ty thuật toán

Các nhà nghiên cứu đang đẩy mạnh thu thập dữ liệu trên mạng về hình ảnh đeo khẩu trang của mọi người nhằm cải tiến thuật toán nhận diện khuôn mặt.

Những bức ảnh selfie đeo khẩu trang nhí nhố của bạn không chỉ được quan tâm bởi bạn bè, người thân mà còn là nguồn dữ liệu giá trị được các nhà nghiên cứu săn lùng nhằm cải thiện thuật toán của phần mềm nhận diện khuôn mặt. Trang tin CNET đã tìm thấy hàng ngàn bức ảnh như vậy có trong những bộ dữ liệu công khai trên mạng, đó là những hình ảnh được thu thập trực tiếp trên ứng dụng Instagram.

Đại dịch COVID-19 đã làm gia tăng nhanh chóng số lượng người đeo khẩu trang khi hoạt động, làm việc, buộc các công ty hoạt động trong lĩnh vực công nghệ nhận diện khuôn mặt phải ganh đua nhằm nhanh chóng đáp ứng yêu cầu của người dùng. Khẩu trang che đi đáng kể những phần khuôn mặt mà công nghệ nhận dạng cần xác định khi làm việc – và vì thế nó đe dọa đến tương lai của ngành công nghiệp trị giá hàng triệu USD trừ khi công nghệ bắt đầu học được cách nhận diện con người đằng sau lớp mặt nạ che phủ.

Để biến điều này thành hiện thực, các công ty cần nguồn dữ liệu để đào tạo thuật toán của họ. Trong tháng 4, các nhà nghiên cứu đã công bố kho dữ liệu hình ảnh về những người đeo khẩu trang y tế phòng ngừa dịch bệnh COVID-19, với hơn 1.200 bức ảnh được thu thập trên Instagram. Một tháng trước đó, các nhà nghiên cứu từ Trung Quốc đã biên soạn một cơ sở dữ liệu với hơn 5.000 bức ảnh mà họ thu thập trực tuyến.

Wafaa Arbash, CEO của Startup Workaround cho biết họ đã sử dụng phần mềm của mình để có thể lướt nhanh và gắn nhãn một cách chính xác có đeo hoặc không đeo khẩu trang lên mỗi bức ảnh. "Chúng tôi đã được truyền cảm hứng từ tất cả những công ty đang cố gắng tung ra các bộ công cụ miễn phí và lợi ích từ đó. Chúng tôi sử dụng những hình ảnh công khai từ Instagram, vì vậy đây không phải là những hình ảnh riêng tư. Chúng tôi chỉ tìm kiếm và giữ lấy những dữ liệu cần thiết", Arbash cho biết.

Các công ty hoạt động trong lĩnh vực nhận dạng khuôn mặt từ lâu chỉ chú tâm sử dụng hình ảnh của mọi người mà ít quan tâm đến việc đào tạo các thuật toán của họ.

Những người ủng họ tự do cá nhân cho rằng công nghệ nhận dạng gương mặt đe dọa đến sự riêng tư và tự do ngôn luận, lo ngại rằng hầu như không có luật nào ngăn chặn việc lạm dụng các công cụ giám sát.

Clearview AI, một công ty nhận dạng khuôn mặt vướng vào nhiều tranh cãi thời gian qua, tuyên bố theo Tu chính án số 1 Hiến pháp Mỹ thì họ có quyền cóp nhặt hơn 3 tỷ hình ảnh từ các mạng xã hội để sử dụng cho cơ sở dữ liệu của mình.

Các thống đốc tại hơn một nửa các tiểu bang của Mỹ đang yêu cầu người dân bắt buộc đeo khẩu trang ở nơi công cộng nhằm ngăn chặn sự lây lan của bệnh dịch COVID-19. Tuy nhiên, chính sách này cũng đang làm ảnh hưởng đến ứng dụng nhận dạng gương mặt, vì lớp khẩu trang sẽ che đi các phần quan trọng trên khuôn mặt mà công nghệ thường sử dụng để phân tích.

Một số công ty đã phải yêu cầu nhân viên của họ điền thêm thông tin lên những bức ảnh selfie với khẩu trang, cũng như chỉnh sửa khẩu trang trên phần đầu các bức ảnh mà họ có. Đây là phương thức sử dụng ;kỹ thuật số trên những bức ảnh mà Viện Tiêu chuẩn và Công nghệ Quốc gia Mỹ đã lên kế hoạch thử nghiệm các thuật toán nhận diện gương mặt.

Nhưng chỉ có số ít nhân viên có thể thực hiện công việc này vì việc chỉnh sửa các bức ảnh khiến nó không còn hiệu quả như là sử dụng ảnh gốc trong việc huấn luyện thuật toán. Các công ty cung cấp phần mềm cũng cần một bộ ảnh thật đa dạng về phụ nữ, người da màu, người ở các độ tuổi khác nhau và ở các thể loại khẩu trang khác nhau.

Đối với cơ sở dữ liệu công khai của công ty, Arbash cho biết họ tìm kiếm các bức ảnh trên Instagram với các hashtag liên quan đến khẩu trang và thu thập được khoảng 3.000 bức ảnh từ nền tảng này, nhưng đã thu hẹp số lượng còn một bộ gồm 1.200 bức ảnh.

Arbash cho biết công ty không xin phép khi sử dụng hình ảnh của người dùng và nếu những người này muốn ngăn chặn việc người khác sử dụng hình ảnh của mình, họ có thể đặt trang ở chế độ riêng tư. Tuy nhiên, cô cho biết mọi người thường không nhận ra họ nằm trong cơ sở dữ liệu này.

"Chúng tôi không kiếm tiền từ việc này, đó không phải là vấn đề vụ lợi. Mục tiêu và ý định ở đây là hỗ trợ cho những kỹ sư khoa học dữ liệu hoặc học máy, những người đang làm việc nhằm khắc phục vấn đề và giúp đỡ an toàn công cộng", Arbash nói.

Facebook cho biết họ không cho phép các bên thứ ba thu thập hoặc sử dụng hình ảnh được đăng bởi người dùng của mình mà không có sự đồng ý. Facebook đang tiếp tục điều tra vấn đề này.

Real World Masked Face Dataset được cho là bộ dữ liệu khẩu trang lớn nhất thế giới, với hơn 5.000 bức ảnh đeo khẩu trang của 525 người được thu thập trên internet. Tài liệu tổng hợp này do các nhà nghiên cứu tại Đại học Vũ Hán, Trung Quốc thực hiện, nơi bùng phát virus corona chủng mới. Một bài báo nghiên cứu được phát hành vào ngày 23 tháng 3, kèm theo bộ dữ liệu, cho biết những hình ảnh này là của các nhân vật công chúng được thu thập "từ nguồn tài nguyên internet rộng lớn".

Ý tưởng lấy hình ảnh của mọi người từ phương tiện truyền thông xã hội nhằm huấn luyện cho các thuật toán nhận dạng khuôn mặt không phải là mới, nhưng trọng tâm hiện tại lại là khẩu trang y tế vì ảnh hưởng từ đại dịch COVID-19. Các nhà phát triển đang gấp rút tạo ra công nghệ có thể nhận diện khuôn mặt đeo khẩu trang, nhưng các vấn đề đạo đức lại xảy ra khi mà các hình ảnh này lại không có sự đồng ý từ chủ nhân bức hình.

"Mọi người có thể sẽ không thích ý tưởng rằng hình ảnh của họ bị sử dụng nhằm phát triển cơ sở dữ liệu, sau đó lại được chuyển đến cơ quan thực thi pháp luật hoặc giám sát của chính phủ, ở một quốc gia chuyên quyền như Trung Quốc", Jake Laperruque, một cố vấn cấp cao về Hiến pháp Mỹ nói.

Giang Vu theo CNET

Chủ đề khác