10/01/2019, 00:00Hà Nội

Tại sao ảnh selfie từ iPhone XS, XS Max không còn chân thực nữa?

Trải qua một khoảng thời gian dài đổi mình, nhiếp ảnh – hay chi tiết hơn là nhiếp ảnh di động – đang dần bỏ sau nhiệm vụ ghi hình thế giới xung quanh để tiến tới mục tiêu thoả mãn những như cầu thị giác của con người.

Trong khi Youtuber nổi tiếng Lewis Hilsenteger (hay Unbox Therapy) đang làm bài đánh giá về chiếc iPhone XS mới ra mắt, anh đã phát hiện ra một điều thú vị: bức ảnh selfie anh chụp từ camera trước của chiếc XS đã cho anh một làn da mịn màng hơn, đặc biệt là khi so sánh với những mẫu iPhone trước đó. Anh cho rằng tính năng này khá giống với những ứng dụng "làm đẹp" khác, "Tôi nhìn đâu có giống vậy. Lạ thật, như kiểu tôi đã tự đắp thêm một lớp trang điểm vậy".

Tuy nhiên, anh không phải là người duy nhất nhận ra điều này, và thậm chí là Apple cũng nhận thức được rằng những gì họ đang làm hiện nay đã dần khác biệt so với trong quá khứ. Và có lẽ những người dùng iPhone, những nhiếp ảnh gia nghiệp dư cũng có thể dễ dàng nhận thấy rằng Chế độ Chân dung trên một trong những chiếc điện thoại phổ biến nhất thế giới này đang dần phát triển. Song nó lại đang dần bước qua danh giới giữa "nhiếp ảnh" vào "biến ảnh": quá trình chụp ảnh truyền thống nay đã bị thay thế bằng những bức ảnh được gộp lại từ nhiều tấm ánh khác.

Hiện tượng này không phải là hoàn toàn mới: tất cả các máy ảnh kĩ thuật số đều sử dụng nhiều thuật toán nhằm biến đổi các bước sóng ánh sáng khác nhau thu được bởi cảm biến để có thể cho ra được một bức ảnh hoàn chỉnh. Đó là lí do mà người ta luôn muốn theo đuổi một nguồn ánh sáng tốt.

Nhưng thời đại của smartphone tới, kéo theo đó là sự xuất hiện của hàng loạt những ứng dụng như FaceApp hay Beauty Plus để giúp "nâng cấp" khuôn mặt cho người dùng. Chưa dừng lại ở đó, các nhà sản xuất điện thoại cũng tự thêm thắt tính năng này vào giao diện camera để người dùng có thể tuỳ ý sử dụng rồi đặt cho nó cái tên đầy mỹ miều: tính năng làm đẹp. Còn với chiếc iPhone thì hơi khác, Apple đã mạnh dạn đưa tính năng này trở thành mặc định trên camera selfie của máy, nó không thể tắt, cũng không thể tuỳ chỉnh.

Song phải nêu rõ quan điểm rằng những bức ảnh này cũng không hoàn toàn giả mạo. Nhưng nó đã không còn là những tấm hình như của thời kì mà nhiếp ảnh gắn liền với máy tính.

Đây mới chính là điều đã thay đổi: camera thực sự hiểu chúng ta quá nhiều. Tất cả camera đều thu lại những thông tin về thế giới xung quanh. Trong quá khứ chúng ta thu lại thế giới thông qua những tiếp xúc giữa chất hoá học và các photon ánh sáng, sau đó chúng ta thay vào đó bằng những cảm biến để nhận diện ánh sáng với các bước sóng khác nhau.

Rồi ở hiện tại thì camera trên các mẫu smartphone cũng thông minh hơn khi chúng thu thập thông tin thông qua nhiều bức hình cùng một lúc để cho ra một tấm ảnh hoàn thiện, dưới sự hỗ trợ đắc lực của mạng neural nhằm giúp nó có thể hiểu được khung cảnh mà người dùng đang hướng camera tới. Với toàn bộ những thông tin thu được, điện thoại sẽ tự động tổng hợp chúng thành một bức ảnh hoàn thiện.

Không chỉ dừng lại ở những ứng dụng này, trí tuệ nhận tạo còn có thể dễ dàng tổng hợp và tạo ra những video mới nhưng không đúng thực tế, chúng ta thường biết tới ứng dụng này với cái tên "deepfake". Trong một bài viết của tác giả Franklin Foer có đoạn viết: "Rồi chúng ta sẽ sớm được sống trong một thế giới mà ngay cả mắt mình cũng không còn đáng tin. Thế giới này đang rất gần tới giai đoạn sụp đổ của hiện thực".

Deepfake chính là một trong những cách để làm biến tượng sự thực, còn một cách khác, đó là đưa nhiếp ảnh điện thoại từ một công cụ để thu lại hiện thực thành một công cụ để biến tướng nó. Công dụng thứ hai này thì hiện diện ở mọi nơi và không rấy lên lo ngại như deepfake song nó cũng không kém phần hiệu quả. Và rõ ràng rằng nó cũng là một phần quan trọng trong tương lai của những công ty công nghệ.

Trong cuốn sách Cách để nhìn nhận thế giới (How to see the world), vị học giả truyền thông Nicholas Mirzoeff đã gọi nhiếp ảnh là "một góc nhìn thế giới thông qua máy móc". Nhưng chúng ta sẽ không bàn luận về ứng dụng của máy móc ở đây, cái chúng ta sẽ hướng tới đó chính là một "cộng đồng mạng lưới" nơi những bức ảnh được tạo ra.

Theo tác giả Jan van Dijk, đồng thời cũng là người đã đề xướng lên cụm từ này, thì cộng đồng mạng lưới chính là một cộng đồng được định hình và cấu thành nên nhờ bởi mạng xã hội và mạng truyền thông. Và cũng nếu theo những gì tác giả Mirzoeff viết thì selfie chính là một ví dụ điển hình cho "nếp văn hoá cộng đồng trẻ mới".

Tuy chẳng ai nói ra nhưng các công ty sản xuất điện thoại và những nhà phát triển ứng dụng đều đồng ý rằng selfie chính là nguồn lợi nhuận khổng lồ cho họ. Những công ty này cũng đang dành một nguồn tài nguyên khổng lồ trong cuộc đua "chụp ảnh khuôn mặt" này. Apple đã tự thiết kế một con chip mới mà theo những gì công ty này hứa hẹn thì nó có thể nhận diện khuôn mặt người dùng "kể cả trước khi họ ấn nút ‘chụp'".

Ban đầu là nhận diện khuôn mặt, sau đó điện thoại sẽ tìm những điểm "cố định" trên khuôn mặt đề tìm xem đâu là mắt, đâu là miệng, đâu là những đặc điểm nổi bật của khuôn mặt. Cuối cùng, khuôn mặt và những phần xung quanh được ghi lại trong không gian 3D để có thể tạo ra muột khuôn mặt 3D có thể nổi ra khỏi nền ảnh. Những nhà phát triển ứng dụng hoàn toàn có quyền truy cập vào những thông tin dạng này, đây chính là lí do mà những ứng dụng "biến hoá" khuôn mặt theo ý thích cứ mọc lên như nấm.

Nếu là 10 năm về trước, người ta sẽ tóm gọn tính năng này trong hai chữ "không thể", kể cả cho tới gần đây, quá trình này cũng mới chỉ có thể thực hiện trên những máy chủ đám mây, thì ở hiện tại một chiếc điện thoại nhét vừa túi quần cũng có đủ khả năng thực hiện công việc phức tạp này. Đây chính là những gì Apple tự hào nhận định.

Để có thể rèn luyện trí tuệ nhân tạo bằng máy học, người ta sẽ phải tìm ra một nguồn khổng lồ hình ảnh. Nó quá lớn, chính bởi vậy công ty này tạo ra một phiên bản nhỏ hơn bằng cách dùng những hình ảnh được chụp trước đó của người dùng để huấn luyện. Mẹo nhỏ này đã biến việc đưa cả một quá trình lớn vào hoạt động trên một chiếc điện thoại. Hàng triệu những bức ảnh kiểu này, bằng cách này hoặc cách khác, đều đang "góp công" vào mỗi bức ảnh được chụp từ mọi chiếc iPhone thông qua một hệ thống máy học khổng lồ.

Camera không chỉ dừng lại ở việc xác định đâu là mặt người và đâu là mắt, nó còn biết cách chụp nhiều bức ảnh tại cùng một thời điểm để tổng hợp lại thành một tấm hình mới. Ví dụ hoàn hảo nhất cho khả năng này chính là tính năng Night Sight mới được Google cho ra mắt trên các mẫu Google Pixel của mình. Night Sight là kĩ thuật được Google phát triển để kết hợp nhiều bức hình ban đầu với cường độ ánh sáng thấp và noise nhiều để tạo ra một sản phẩm mới sáng hơn và rõ hơn.

Mỗi hình ảnh là kết quả của tính năng này chính là sự kết hợp từ nhiều bức ảnh có độ phơi sáng lân cận quanh một điểm. Và sau đó, giống với Apple, Google còn phù phép thêm cho tấm hình thu được bằng nhiều thuật toán máy học. Họ tự tin khẳng định rằng những thuật toán này sẽ hữu ích trong việc cân bằng trắng trong môi trường ánh sáng thấp, từ đó mang lại màu sắc chân thực cho tấm hình ngay cả trong điều kiện không thuận lợi. Google còn tiết lộ với trang Verge rằng "thuật toán máy học của họ có thể xác định từng vật thể khác nhau trong khung cảnh, và camera đã đủ thông minh để có thể đoán được màu sắc vốn có của những vật thể ấy". Nhìn vào những điểm khác biệt so với nhiếp ảnh truyền thống thì dường như camera của Google không hề "chụp" lại bất cứ thứ gì cả.

Không chỉ vậy, quá trình chụp ảnh đang dần trở nên tự động hoá hơn bao giờ hết. Nó giống với những phi công trên các máy bay thương mại vậy: họ chỉ nắm quyền điều khiển trong một khoảng thời gian nhỏ trong cả muột chuyến bay.

Và thậm chí là những chiếc điện thoại ngày nay, với sức mạnh của máy tính và nắm trong mình một phần cứng camera tốt, đang dần làm lu mờ lằn ranh giữa khả năng của một chiếc máy ảnh và một máy vi tính có thể làm được. Tất nhiên, những kĩ thuật nhiếp ảnh truyền thống vẫn tồn tại, nhưng nó cũng chẳng là gì nếu bạn không còn nắm trong tay, ít nhất là một phần nào đó, quá trình nhiếp ảnh kĩ thuật số.

Nhìn lại những năm 2000, đó là khi mà nhiếp ảnh với dải nhạy sáng cao hay nhiếp ảnh HDR đang dần tạo nên một cơn sốt, trào lưu này lúc ấy đang làm mưa làm gió trên những nền tảng chia sẻ hình ảnh như Flickr. Kĩ thuật chụp HDR nghe có vẻ rất đơn giản: người chụp sẽ chụp lại nhiều bức ảnh (thường là ba) của cùng một khung cảnh nhưng với độ phơi sáng khác nhau.

Sau đó, họ sẽ xếp chồng những bức hình này lên nhau, ghi lại thông tin về các khoảng tối từ những bức hình sáng nhất và về các khoảng sáng từ những hình tối nhất. Họ sẽ gộp tất cả chúng lại với nhau để tạo ra được bức hình vừa đẹp lại vừa sát với thực tế. Kĩ thuật chụp HDR có thể tạo ra được những khung cảnh tương đồng nhất với những gì mắt chúng ta thấy được.

Mắt chúng ta là hệ thống thị giác có khả năng bù trừ sáng rất linh hoạt đặc biệt là trong những điều kiện ánh sáng phức tạp. Chúng ta sẽ nói về việc chụp ảnh mặt trăng làm một ví dụ. Mặt trăng, tự thân nó, là một nguồn ánh sáng lớn bởi vậy việc chụp ảnh mặt trăng giống như bạn đang chụp ảnh ngoài trời vào giữa trưa vậy. Đồng thời khung cảnh xung quanh lúc đó cũng rất tối, nếu bạn muốn thu được một tấm ảnh chi tiết về mặt trăng thì phần còn lại của cả khung cảnh sẽ chỉ là một màu đen. Còn mắt chúng ta thì ngược lại, chúng ta có thể dễ dàng nhìn rõ cả mặt trăng lẫn khung cảnh xung quanh.

Google và Apple đều muốn tự động hoá quá trình chụp HDR giống như cách mà mắt con người tự điều chỉnh. Họ biến HDR thành một tính năng tự động cho hệ thống camera mặt định trên những thiết bị của mình bằng việc cho camera chụp một loạt những bức ảnh (Google cho phép chụp liên tục tới 15 ảnh). Kết quả là HDR đã trở thành một tính năng đơn giản đối với hầu hết mọi người.

Giống như tính năng mà mịn da, chụp ảnh HDR đã không còn phụ thuộc vào việc mắt chúng ta nhìn nhận thế giới ra sao. Theo đó, mục tiêu của những sản phẩm mới này chính là vượt qua khả năng thị giác ấn tượng của con người, giống với việc Google tạo ra Night Sight là để chúng ta có thể chụp ảnh trong điều kiện ánh sáng tối tới mức mà ngay cả mắt con người cũng "bó tay". Đây có lẽ là thứ "siêu năng lực" mà các công ty công nghệ đang muốn hướng tới.

Kể từ thế kỷ 19, máy ảnh chính là thứ công cụ để khám phá những góc ẩn của thế giới thông qua việc ghi lại những đại lượng vật lí như tốc độ, bước sóng, hay độ phóng đại. Sau quá trình chuyển mình suốt gần hai thế kỷ, nhiếp ảnh điện thoại đã dần tiến tới những mục tiêu thú vị hơn: tạo ra những sản phẩm thị giác mong muốn thông qua những dữ liệu thu được từ quá trình khám phá thế giới.

Nó như thể chúng ta đang dùng camera để tìm kiếm, khám phá và chia sẻ những phiên bản khác nhau của khuôn mặt và thậm chí là hình hài bản thân. Quá trình này chính là động lực cho những cải tiến, cho những công ty có lợi nhuận cao nhất thế giới.

Trung ND

Tại sao ảnh selfie từ iPhone XS, XS Max không còn chân thực nữa?

Chủ đề khác