ChatGPT 4o so với DALL-E: Công nghệ tạo hình ảnh mới khác hoàn toàn bạn nghĩ

Nhung Phan
Nhung Phan
Phản hồi: 0

Nhung Phan

Intern Writer
OpenAI vừa chính thức ra mắt một bản nâng cấp đáng kinh ngạc cho công nghệ tạo hình ảnh của ChatGPT, biến những gì từng là điểm yếu của AI thành một bước nhảy vọt mạnh mẽ. Kết quả là những hình ảnh chân thực đến mức người xem phải dụi mắt kiểm tra lại và tự hỏi: “Liệu đây có phải ảnh chụp thật không?”

Không cần đi sâu vào những con số kỹ thuật hay lượng tài nguyên GPU khổng lồ mà AI này tiêu tốn, chúng tôi sẽ trực tiếp cho bạn thấy khả năng thực tế của nó—và so sánh với phiên bản DALL-E trước đây.

1. Bàn tay và ngón tay - Bài toán nan giải của AI


Yêu cầu: Một bức ảnh cận cảnh người chơi hợp âm E minor trên đàn guitar, ngón tay ấn xuống dây đàn, hậu cảnh mờ.

Hình ảnh do AI tạo ra từng gây kinh ngạc khi mới xuất hiện, nhưng ngay sau đó, điểm yếu lộ rõ: các bàn tay méo mó, ngón tay thừa hoặc thiếu, tư thế bất thường. Đây là một lỗi kinh điển của AI khi vẽ hình người.

Tôi quyết định thử nghiệm bằng cách yêu cầu DALL-E vẽ trước, rồi mới so sánh với ChatGPT 4o.

Kết quả từ DALL-E: Mặc dù hình dáng bàn tay trông khá ổn, nhưng tư thế cầm đàn lại sai. Ngón tay đặt quá cao trên cần đàn, không phù hợp với hợp âm E minor. Khi zoom kỹ, ta có thể thấy cây đàn có nhiều hơn sáu dây, và khoảng cách giữa các dây không đồng đều.

a-close-up-view-of-a-person-s-hand-playing-an-e-minor-chord-on-an-acoustic-guitar.jpg


Kết quả từ ChatGPT 4o: Hình ảnh quá hoàn hảo! Sáu dây đàn được căn chỉnh chính xác, khoảng cách đều đặn, tư thế tay đúng chuẩn khi chơi hợp âm E minor. Nếu không nói trước, có lẽ nhiều người sẽ nghĩ đây là một bức ảnh chụp thật.

Cận cảnh bàn tay của một người đang chơi hợp âm Mi thứ trên đàn guitar acoustic


2. Nhân vật lịch sử trong cuộc sống hiện đại


Yêu cầu: Albert Einstein ăn kem tại Central Park, mặc áo sơ mi và quần đeo dây.

Nhân vật lịch sử thường không có nhiều ảnh chụp, và AI thường gặp khó khăn khi tái hiện họ một cách chính xác. Vì vậy, đây là một bài kiểm tra thú vị.

Kết quả từ DALL-E: Hoàn toàn gây thất vọng. DALL-E không thể sử dụng hình ảnh chính xác của Einstein mà chỉ có thể tạo ra một người "có nét giống" ông. Khuôn mặt nhân vật trông không đúng, và bối cảnh cũng không thể hiện rõ Central Park.

Một người đàn ông giống Einstein đang ăn kem ở Công viên Trung tâm


Kết quả từ ChatGPT 4o: Ngạc nhiên chưa? Einstein xuất hiện trong hình đúng như mong đợi, với mái tóc bù xù quen thuộc, quần đeo dây và chiếc kem trên tay. Nếu không biết trước, nhiều người có thể tin rằng đây là một bức ảnh thật.

Một người đàn ông giống Einstein đang ăn kem ở Công viên Trung tâm


3. Nhân vật hư cấu trong thế giới thực


Yêu cầu: Batman đứng trên một tòa nhà cao tầng, nhìn xuống thành phố Gotham dưới trời mưa.

Tạo hình nhân vật hư cấu luôn là một thử thách lớn đối với AI, đặc biệt là khi phải tái hiện phong cách điện ảnh.

Kết quả từ DALL-E: Hình ảnh có vẻ "nhái" phong cách truyện tranh nhưng chưa đủ sắc nét. Áo choàng của Batman trông thiếu tự nhiên, còn ánh sáng thành phố không phản chiếu đúng với hiệu ứng mưa.

Một hình bóng cao lớn, bí ẩn giống Chúa tể Sith đang đứng ở Quảng trường George, Glasgow

Một người đàn ông thô kệch, tóc trắng với vết sẹo trên mặt, trông giống như một thợ săn quái vật trong truyện giả tưởng, đang mua sắm trong một siêu thị hiện đại

Kết quả từ ChatGPT 4o: Quá ấn tượng! Hình ảnh Batman đứng giữa thành phố với hiệu ứng ánh sáng và bóng tối cực kỳ điện ảnh. Áo choàng bay trong gió, nước mưa rơi tạo hiệu ứng chân thực, đúng chuẩn Hollywood.

Một hình dáng cao lớn, bí ẩn giống Chúa tể Sith đang đứng ở Glasgow

Một người đàn ông thô kệch, tóc trắng với vết sẹo trên mặt, trông giống như một thợ săn quái vật trong truyện giả tưởng, đang mua sắm trong một siêu thị hiện đại


4. Phim hoạt hình theo phong cách AI


Yêu cầu: Một nhân vật hoạt hình theo phong cách Pixar với đôi mắt to tròn, nụ cười rạng rỡ.

DALL-E có thể tạo hình ảnh hoạt hình, nhưng liệu ChatGPT 4o có vượt trội hơn?

Một thuyền trưởng cướp biển theo phong cách hoạt hình đang đứng trên boong tàu bay của DALL-E


Kết quả từ DALL-E: Nhân vật có nét vẽ ổn nhưng thiếu sự mềm mại và chiều sâu trong biểu cảm.

Kết quả từ ChatGPT 4o: Hoàn toàn giống như một nhân vật bước ra từ phim Pixar! Đôi mắt lấp lánh, cảm xúc sống động, màu sắc rực rỡ và hiệu ứng ánh sáng hoàn hảo.

Một thuyền trưởng cướp biển theo phong cách hoạt hình đang đứng trên boong tàu bay


5. Gương và sự phản chiếu - Thách thức khó nhằn


Yêu cầu: Một người soi gương trong phòng tắm với hình ảnh phản chiếu rõ nét.

AI thường gặp khó khăn trong việc xử lý sự phản chiếu do phải tạo hai phiên bản của cùng một đối tượng.

Bồn rửa mặt hiện đại với thiết kế đẹp mắt và mặt bàn sạch sẽ


Một người phụ nữ đứng trước một tấm gương toàn thân trong phòng ngủ đầy nắng


Kết quả từ DALL-E: Gương phản chiếu không chính xác, khuôn mặt nhân vật méo mó.

Kết quả từ ChatGPT 4o: Hoàn hảo! Hình ảnh trong gương khớp hoàn toàn với góc nhìn, không có lỗi về ánh sáng hay biến dạng khuôn mặt.

Bồn rửa mặt hiện đại với thiết kế đẹp mắt và mặt bàn sạch sẽ


Một người phụ nữ đứng trước một tấm gương toàn thân trong phòng ngủ đầy nắng-1


6. Xe hơi và đường phố - Thực tế đến mức khó tin


Yêu cầu: Một chiếc siêu xe Lamborghini trên đường phố New York với ánh đèn neon phản chiếu trên vỏ xe.

Kết quả từ DALL-E: Xe hơi có kết cấu ổn nhưng hiệu ứng ánh sáng chưa thật sự thuyết phục.

Một chiếc Ford GT đời 2006 dừng lại ở đèn giao thông màu đỏ bên cạnh một chiếc Peugeot 206


Kết quả từ ChatGPT 4o: Quá xuất sắc! Chiếc xe trông như được chụp từ một buổi triển lãm, ánh sáng phản chiếu chân thực, độ bóng trên vỏ xe đạt đến mức khó phân biệt với ảnh thật.

Một chiếc Ford GT đời 2006 dừng lại ở đèn giao thông màu đỏ bên cạnh một chiếc Peugeot 206


Một chiếc Ford GT đời 2006 dừng lại ở đèn giao thông màu đỏ bên cạnh một chiếc Peugeot 206


7. Văn bản và chữ cái - Cơn ác mộng của AI nay đã được khắc phục


Yêu cầu: Một biển hiệu neon với dòng chữ "OpenAI - Tương lai của trí tuệ nhân tạo" trong một con hẻm cyberpunk.
Trước đây, AI luôn gặp khó khăn khi tạo chữ viết, thường cho ra những ký tự méo mó hoặc lộn xộn.

Kết quả từ DALL-E: Chữ cái bị méo mó, không thể đọc rõ.

Một cảnh cận cảnh của một lá thư viết tay trên giấy da hơi ngả vàng


Kết quả từ ChatGPT 4o: Quá chuẩn! Chữ được căn chỉnh rõ ràng, đúng chính tả, hiệu ứng ánh sáng tuyệt đẹp.

Một cảnh cận cảnh của một lá thư viết tay trên giấy da hơi ngả vàng


Kết luận:


ChatGPT 4o đã thể hiện bước nhảy vọt về khả năng tạo hình ảnh, khắc phục nhiều nhược điểm của các thế hệ AI trước đó. Từ bàn tay, nhân vật lịch sử, đến hiệu ứng ánh sáng và phản chiếu, mọi thứ đều trở nên sống động và chân thực hơn bao giờ hết. Nếu tiếp tục phát triển với tốc độ này, không ai có thể đoán trước AI sẽ còn tiến xa đến đâu!

Nguồn Makeuseof
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Top