VnReview
Hà Nội

Google chia sẻ chi tiết về chế độ chụp chân dung trên Pixel 2: Chỉ cần một camera là đủ

Chế độ chụp chân dung, một tính năng cực kì thú vị trên những chiếc smartphone Pixel 2 và Pixel 2 XL mới, cho phép bất kì người nào cũng có thể chụp những bức ảnh có độ sâu trường ảnh trông như những bức hình chuyên nghiệp.

>;Tương lai của smartphone chính là trận chiến về AI

> Trên tay Google Pixel 2 XL đầu tiên tại Việt Nam: Không "sexy" như vẫn nghĩ

> Cận cảnh Google Pixel 2 tại Việt Nam: Camera khủng ẩn mình dưới thiết kế "lạc hậu"

Ảnh chụp bằng Google Pixel kích hoạt HDR+ với chế độ thường (bên trái) và chế độ chân dung (bên phải)

Tính năng này được tích hợp trên cả 2 thiết bị và đạt được vị trí cao nhất trên bảng xếp hạng camera di động của DxO. Nó hoạt động hiệu quả với cả camera trước lẫn camera sau, thậm chí là có thể vượt mặt camera kép. Và hôm nay, Google đã tung ra một blog trên trang Research của mình, để bàn về máy học (machine larning) và kĩ thuật nhiếp ảnh điện toái ẩn phía sau tính năng này.

Vậy độ sâu trường ảnh nông là gì?

Những chiếc máy ảnh gương lật (SLR) đi kèm với những ống kính có khẩu lớn, khi chụp ảnh sẽ cho bạn độ sâu trường ảnh khá nông, điều đó đồng nghĩa rằng vật thể ở một khoảng cách nhất định từ máy ảnh đến nó sẽ trở nên rõ nét hơn (nếu bạn lấy nét vào nó), trong khi đó, những thứ nằm phía sau sẽ bị mờ đi thấy rõ. Điều này sẽ giúp bức ảnh của bạn nối bật chủ thể và làm mờ hậu cạnh lộn xộn nằm phía sau. Hiệu ứng này cũng sẽ có ích trong việc chụp chân dung bằng SLR.

Lượng mờ trong bức ảnh sẽ phụ thuộc vào độ sâu. Vật thể được lấy nét càng xa so với hậu cảnh thì độ mờ sẽ càng nhiều hơn. Lượng này cũng phụ thuộc vào kích thước mà ống kính có thể mở được. Một ống mính 50mm với khẩu độ f/2.0 sẽ có đường kính mở rộng là 50mm/2 = 25mm. Với một ống kính như vậy, các vật thể nằm cách vài mét tính từ điểm lấy nét sẽ bị làm mờ đi dần dần.

Một trong những điều hấp dẫn nữa trong hiệu ứng này đó chính là hình dạng của các điểm sáng bị mờ, đó chính là bokeh. Và nó phụ thuộc rất nhiều vào cấu trúc vật lý của khẩu độ ống kính. Thông thường, những ống kính hiện tại sẽ cho hình dạng bokeh tròn. Tuy nhiên, nhiều ống kính cũng cho hình dạng bokeh khác nhau, ví dụ như hình lục giác, phi tiêu, bong bóng,…

Những hình ảnh có độ sâu trường ảnh nông tái tạo

Không như những chiếc máy ảnh SLR, camera trên điện thoại có khẩu độ nhỏ và kích cỡ cố định. Về mặt vật lý, điều này khiến chúng rất khó để chụp ra những bức ảnh như máy ảnh. Tuy nhiên, nếu chúng ta biết khoảng cách từ camera đến những điểm trong cảnh, chúng ta có thể thay thế mỗi pixel trong ảnh thành một điểm mờ. Độ mờ này sẽ là trung bình màu sắc của pixel hiện tại với các pixel lân cận, lượng mờ sẽ phụ thuộc vào khoảng cách từ điểm lấy nét đến hậu cảnh. Thậm chí là có thể tạo ra hình dạng của độ mờ này, tức nghĩa là bokeh.

Vậy bằng cách nào mà chiếc điện thoại có thể tính toán được khoảng cách các điểm trong khung cảnh? Phương pháp thông thường nhất là đặt 2 camera lại gần nhau – gọi là camera kép. Sau đó, mỗi phần trong hình ảnh camera trái sẽ được tìm trùng khớp với phần trong hình ảnh camera phải. Vị trí khớp nhau trong hai hình ảnh này sẽ giúp tìm được độ sâu của cảnh và sẽ được xử lý bằng một quá trình tam giác. Sự tìm kiếm trùng khớp này được gọi là thuật toán stereo. Cách hoạt động cảu nó cũng tương tự so với 2 mắt của chúng ta.

Một cách đơn giản hơn của ý tưởng này đó chính là sử dụng ứng dụng cho các chiếc smartphone có camera đơn. Nó sẽ phân chia hình ảnh thành 2 layer – pixel, một phần chứa tiền cảnh, một phần chưa hậu cảnh. Sự phân chia này được gọi là phân chia ngữ cảnh, cho phép bạn làm mờ hậu cảnh, nhưng nó lại không có khái niệm về chiều sâu, vì thế, nó không thể tính toàn được lượng mờ. Cũng vì thế, nếu vật thể đứng trước người, ví dụ như quá gần camera, thì nó không thể làm mờ.

Dù là sử dụng thuật toán stereo hay phân chia ngữ cảnh, các pixel bị mờ "nhân tạo", thứ thuộc về phần hậu cảnh, sẽ được gọi là độ sâu trường ảnh nông tái tạo hay gọi là mất nét hậu cảnh tái tạo. Sự mất nét tái tạo này không hề giống với sự mờ bằng vật lý mà bạn hay thấy trên SLR. Tuy nhiên, đối với đa số người, họ lại thấy nó tương tự.

Chế độ chân dung trên Pixel 2 hoạt động như thế nào?

Google Pixel 2 cung cấp chế độ chụp chân dung trên cả hai camera trước và sau. Với camera trước (selfie), nó sẽ chỉ sử dụng phân chia ngữ cảnh. Nhưng với camera sau, nó sử dụng cả thuật toán stereo lẫn phân chia ngữ cảnh.

Thế nhưng, Pixel 2 chỉ có một camera nằm phía sau, làm sao Google có thể làm được thuật toán stereo?

Bước 1: Tạo hình ảnh HDR+

Hình bên trái không sử dụng HDR+ và hình bên phải sử dụng HDR+

Để bắt đầu với chế độ chân dung thì hình ảnh cũng phải thật sắc nét. Ở đây, Google đã sử dụng công nghệ nhiếp ảnh điện toán HDR+ của mình để cải thiện chất lượng hình ảnh. Cụ thể, nó sẽ chụp hàng loạt hình ảnh với nhiều exposure khác nhau và ghép lại. Kết quả cho ra sẽ có dải tương phản động cao, ít nhiễu, độ chi tiết sắc nét, thậm chí trong môi trường ánh sáng mờ.

Bước 2: Phân tích tiền cảnh - hậu cảnh dựa vào máy học (machine learning)

Sau khi xử lý hình ảnh HDR+, Google tiếp tục phân tích pixel nào thuộc tiền cảnh và pixel nào thuộc hậu cảnh. Đây là một vấn đề khá phức tạp. Họ không thể giả sử nền là màu xanh lá (xanh dương, hay bất kì màu nào khác) như ngành công nghiệp phim. Thay vào đó, họ sử dụng máy học.

Google đã luyện tập cho một mạng thần kinh có thể xem bức hình và đưa ra ước tính những pixel nào là người và những pixel nào là không phải. Họ sử dụng mạng thần kinh xoắn (CNN) và bỏ qua những kết nối để tạo ra mạng đặc biệt này. Sự "xoắn" này sẽ có nghĩa là các thành phần được học trong mạng sẽ ở dạng bộ lọc. Bạn có thể hiểu nôm na rằng mạng này như là bộ lọc hình ảnh, sau đó bộ lọc này sẽ lọc những hình ảnh đã được lọc,… Còn với việc "bỏ qua các kết nối" sẽ cho phép thông tin dễ dàng đưa từ giai đoạn đầu trong mạng, nơi suy đoán về các phần ở mức thấp (màu và góc cạnh) cho đến giai đoạn sau của mạng, nơi sẽ suy đoán về những phần ở mức cao (như mặt mũi và thân hình). Việc kết hợp các giai đoạn như thế này rất quan trọng khi bạn không chỉ cần xác định bức ảnh có người trong đó hay không mà còn dể xác định chính xác những pixel nào thuộc về người đó. Hệ thống CNN của Google đã được luyện tập qua hàng triệu bức hình về con người. Sau đó, họ sử dụng TensorFlow Mobible để tạo ra một mặt nạ người.

Bên trái là bức ảnh chụp dựa trên thuật toán HDR+ ở chế độ thường. Google kích hoạt cơ chế chụp song song một bức xóa phông và một bức thông thường khi chụp ở chế độ xóa phông. Bên phải là một mặt nạ đánh dấu được làm mềm các đường viền nhờ vào hệ thống thần kinh nhân tạo lọc ra. Các phần trắng được đánh dấu nhờ trí tuệ nhân tạo này sẽ được coi là phần tiền cảnh (làm rõ nét), và phần đen còn lại sẽ được coi là nền - hậu cảnh (sẽ làm mờ, xóa phông). Ảnh minh họa: Sam Kweskin

Đây là bức ảnh ví dụ, hệ thống mạng thần kinh này đã nhận ra tóc của cô nàng và ly trà trên tay là một phần của tiền cảnh, vì thế nó vẫn sẽ đạt độ sắc nét. Sau đím dựa vào mặt nạ này, nó sẽ xử lý bức hình và kết quả cuối cùng:

Hình ảnh mô phỏng hiệu ứng chiều sâu trường ảnh dựa trên dữ liệu thô (mặt nạ đánh dấu) ở trên

Có một số lưu ý. Đầu tiên, lượng mờ sẽ cùng một kiểu, dù rằng hậu cảnh chữa những vật thể ở rất sâu. Thứ hai, chiếc máy SLR cũng sẽ làm mờ chiếc bánh ngọt được đặt trên bàn bởi nó quá gần với máy ảnh. Mạng thần kinh của Google biết rằng chiếc bánh không phải là phần nào của cô gái, nhưng những gì ở dưới cô ấy thì chẳng phải là hậu cảnh. Rõ ràng, họ nhận thấy trường hợp này và vẫn giữ những pixel nào thực sự sắc nét. Thật không may rằng giải pháp này không phải luôn luôn là chính xác, và trong trường hợp này, họ cần làm mờ những pixel này.

Bước 3: Từ dual pixel cho đến bản đồ độ sâu

Để cải thiện kết quả, họ sử dụng thuật toán stereo nhằm tính toán độ sâu. Pixel 2 không có cụm camera kép, nhưng lại có công nghệ lấy nét theo pha Phase-Detect Auto-Focus (PDAF) pixel, đôi khi lại được gọi là Dual-Pixel Autofocus (DPAF) - công nghệ lấy nét dual-pixel.

Theo mặt định, công nghệ này sẽ phân chia camera chính thành hai nửa: một nửa nằm bên trái ống kính, một nửa nằm bên phải ống kính và chúng có một chút khác nhau. Hai điểm nhìn này cách nhau dưới 1mm, nhưng chúng đủ khác để tính toán streo và vẽ bản đồ độ sâu. Cách hoạt động quang học này của camera giống với việc tách các pixel trên con chip cảm biến thành những pixel nhỏ nằm 2 bên và đọc chúng từ con chip riêng biệt.

Như trong biểu đồ trên, các pixel PDAF cho bạn những cái nhìn ở bên trái và bên phải của ống kính trong một bức ảnh đơn nhanh. Hoặc, nếu bạn đang giữ chiếc điện thoại của mình ở hướng thẳng đúng, thì nó sẽ chia ra nửa trên và nửa dưới ống kính. Đây là những gì mà hình ảnh phía trên và hình ảnh phía dưới trong ví dụ của họ.

Những hình ảnh này ở chế độ màu đơn sắc bởi vì Google chỉ sử dụng những pixel xanh lá trong bộ lọc màu Bayer của cảm biến bằng thuật toán stereo, không phải các pixel đỏ hay xanh dương. Hãy xem kĩ đoạn gif này, chúng chỉ khác nhau rất nhỏ.

Hãy xem các hình ảnh thử nghiệm của Google thông qua điểm ảnh trên dưới của lens máy ảnh trên Pixel 2. Ở hình động (gif) bên phải, bạn có thể thấy cận cảnh cô gái gần như đứng yên, bởi vì camera đang lấy nét vào cô ấy, trong khi phần nền di chuyển lên xuống. Các đối tượng ở phía trước cô ấy, nếu chúng ta thấy, cũng di chuyển xuống khi phần nền di chuyển lên (và ngược lại).

Công nghệ PDAF có thể được tìm thấy trong nhiều máy ảnh, bao gồm cả những chiếc SLR. Nó giúp cho chúng lấy nét nhanh hơn khi quay video. Trong ứng dụng của của Google, công nghệ này được sử dụng để tính toán bản đồ chiều sâu. Đặc biệt, họ sử dụng những hình ảnh bên trái và bên phải (hoặc trên và dưới) để đưa dữ liệu vào thuật toán stereo, tương tự như đã sử dụng bên trong hệ thống panorama Jump của Google (gọi là Jump Assembler).

Thuật toán này đầu tiên thực hiện liên kết chính xác subpixel để cung cấp một bản đồ độ sâu ở độ phân giải thấp, tiếp theo đó là sẽ nội suy nó nhằm đưa lên độ phân giải cao bằng cách sử dụng một bộ giải quyết song song. ĐIều này tương tự với công nghệ từng được sử dụng trong tính năng Lens Blur của Google.

Chi tiết hơn: bởi vì góc nhìn bên trái và bên phải được trên camera Pixel 2 nằm rất gần nhau, thông tin chiều sâu họ có được đều không chính xác, đặc biệt là trong điều kiện ánh sáng yếu, do độ nhiễu cao trong hình ảnh. Để giảm độ nhiễu này và cải thiện độ chính xác chiều sâu, Google chụp hàng loạt những hình ảnh ở bên trái và bên phải, sau đó sẽ sắp xếp và tính toán trung bình chúng trước khi sử dụng thuật toán stereo. Dĩ nhiên, họ cần phải cẩn thận trong bước này nhằm tránh những so sánh trùng khớp sai, giống như trong HDR+, hoặc sẽ có hiện tượng bóng ma trong bản đồ độ sâu. Ở phía dưới bên trái là một bản đồ độ sâu đã được tạo ra từ ví dụ điển hình ở phía trên bằng cách sử dụng thuật toán stereo.

Ảnh bên trái: Bản đồ chiều sâu để tính toán độ nổi khối từ phần tiền cảnh của một nửa đối tượng ở trước lens và một nửa đối tượng nền ở sau lens (các điểm ảnh trước/sau trên cảm biến dual-pixel thu được). Sáng hơn nghĩa là gần camera hơn. 

Ảnh bên phải: Ảnh dựng mô phỏng độ mờ sẽ áp dụng đối với mỗi điểm ảnh (pixel) ở ảnh gốc. Đen nghĩa là không làm mờ, đỏ nghĩa là khung cảnh nền nằm phía sau đối tượng (trong trường hợp này là khuôn mặt cô gái), màu đỏ sáng hơn là khu vực cần làm mờ (xóa phông) nhiều hơn, và vùng màu xanh là khu vực nằm trước đối tượng (đĩa bánh).

Bước 4: Đưa chúng lại với nhau để kết xuất ra hình ảnh cuối cùng

Bước cuối cùng là kết hợp mặt nạ phân chia mà Google đã tính toán ở bước 2 với bản đồ độ sâu mà họ đã tính toán ở bước 3 để quyết định mức độ mờ mỗi pixel trong bức ảnh HDR+ từ bước 1. Cách mà Google kết hợp độ sâu và mặt nạ này là bí mật, thế nhưng, ý tưởng sơ bộ là họ muốn các phân cảnh mà họ nghĩ nó thuộc về người (phần trắng trong mặt nạ) sẽ vẫn sắc nét, và những thứ thuộc về hậu cảnh (phần đen trong mặt nạ) sẽ bị làm mờ đi theo tỉ lệ độ xa của chúng tính từ mặt phẳng tiêu điểm, những khoảng cách này được lấy từ bản đồ chiều sâu. Còn phần hình ảnh được tô màu đỏ là một sự hình dung của lượng mờ cho mỗi pixel.

Thực tế, việc đưa độ mờ vào là phần đơn giản nhất; mỗi pixel là sự thay thế với một miếng tròn mờ của những màu tương tự nhưng có kích cỡ khác nhau. Nếu chúng ta trộn tất cả những miếng tròn này theo chiều sâu, nó sẽ tương tự như độ trung bình mà Google đã từng mô ta trước đó và họ sẽ đạt được một sự mờ ảo thực khá tốt. Một trong những lợi thế của việc tái tạo mất nét là do việc sử dụng phần mềm, họ có thể tạo ra được bokeh hình đĩa hoàn hảo mà không cần những ống kính nặng ký. Thú vị hơn, bằng phần mềm, Google có thể tạo ra bất cứ hình dạng bokeh nào mà họ muốn.

Đây là hình ảnh cuối cùng do Google Pixel 2 tạo ra ở chế độ chụp chân dung, nhờ vào thuật toán HDR+, đánh dấu mặt nạ bằng cảm biến dual-pixel, tính toán mô phỏng độ sâu trường ảnh nhờ vào trí tuệ nhân tạo. Nhấp vào để xem ảnh gốc.

Những cách sử dụng chế độ chân dung

Chế độ chân dung trên Pixel 2 khởi chạy chỉ trong 4 giây, là một chế độ tự động hoàn toàn và đủ mạnh để các người dùng không-am-hiểu sử dụng. Một số trường hợp bạn có thể sử dụng chế độ chân dung trên Pixel 2 mới bao gồm việc chụp ảnh macro hay với camera selfie.

Bên trái không sử dụng chế độ chân dung, bên phải sử dụng chế độ chân dung. (đối với macro)

Bên trái không sử dụng chế độ chân dung, bên phải sử dụng chế độ chân dung. (đối với selfie)

Một số mẹo để giúp bạn có được một bức hình chân dung tuyệt vời:

- Đứng đủ gần với chủ thể, đưa đầu hoặc vai của họ lấp đầy khung hình.

- Với bức hình chụp cả nhóm và bạn muốn rõ hết mọi người, hãy đặt họ đứng ngang hàng với nhau, có chung khoảng cách từ camera đến nhóm.

- Để có độ mờ nhiều hơn, hãy đặt chủ thể của bạn xa hơn so với hậu cảnh.

- Hãy lau chùi thấu kính camera cẩn thận.

- Đối với chụp macro, hãy nhấp để lấy nét nhằm đảm bảo rằng vật thể bạn muốn chụp sẽ vẫn sắc nét.

Có 1 lưu ý rằng, ở chế độ chân dung, camera có zoom 1 chút (1,5x cho camera chính và 1,2x cho camera selfie). Đây là sự cố ý của Google, bởi vì góc nhìn hẹp hơn sẽ giúp bạn đứng xa hơn, làm giả sự biến dạng trong hình ảnh, giúp bức hình chân dung trở nên tốt hơn.

Đây có phải là thời điểm để đặt chiếc điện thoại ngang hàng với SLR?

 

Ảnh selfie ngược sáng bằng Google Pixel 2 ở chế độ xóa phông

Khi đội ngũ nghiên cứu hoạt động tại Google vào 5 năm trước, số lượng pixel trên một bức hình chụp ra từ điện thoại không thể bắt kịp với những chiếc SLR, nhưng nó vẫn đủ cao cho nhu cầu của hầu hết mọi người. Thậm chí trên một màn hình máy tính lớn đặt tại gia, bạn cũng không thể thấy được những pixel riêng lẻ trong bức hình mà bạn chụp bằng điện thoại. Tuy nhiên, camera trên điện thoại không mạnh mẽ như SLR, bởi 4 lý do:

1. Dải tương phản động trong những cảnh tươi sáng.

2. Tỉ lệ tín hiệu/nhiễu (SNR) trong môi trường ánh sáng yếu (quá nhiễu, mất đi nhiều chi tiết).

3. Zoom (dành cho những bức ảnh chụp động vật).

4. Độ sâu trường ảnh nông.

HDR+ của Google hay những công nghệ khác của nhiều đối thủ cũng đã đạt những bước tiến tuyệt vời. Trên thực thế, trong thử thách ánh sáng, Google thường cất những chiếc SLR đi, bởi vì họ có thể có được một bức ảnh tốt hơn từ điện thoại mà không cần thực hiện quá chình chỉnh sửa. Với zoom, các ống kính tele đã được bổ sung vào những chiếc smartphone, nhưng nó không hoàn toàn thay thế được ống kính tele 400m. Với độ sâu trường ảnh nông, việc tái tạo mất nét không hề tương tự với mất nét quang học thực, thế nhưng hiệu ứng nhìn lấy được này đủ để đạt được mục đích: đánh nổi bật chủ thể chính của mình.

Google chỉ dùng camera đơn để xóa phông nhờ vào kết hợp cảm biến dual-pixel và thuật toán cũng như trí tuệ nhân tạo của họ

Liệu rằng SLR hay những chiếc máy ảnh mirrorless thay được ống kính với cảm biến to và ống kính to sẽ biến mất? Dĩ nhiên, sự cần thiết cho những trường hợp cần máy ảnh là không thể bàn cãi, thế nhưng, trong hầu hết cuộc sống của chúng ta, liệu rằng có cần một chiếc máy ảnh quá khổ để chụp, trong khi chiếc điện thoại lại đủ tốt để bắt lại những khoảnh khắc này?

Google tái bút: "Chào mừng bạn đến với thế giới mới của camera với sự trợ giúp từ phần mềm và nhiếp ảnh điện toán".

Minh Hùng

Chủ đề khác