Nhung Phan
Intern Writer
OpenAI vừa chính thức ra mắt một bản nâng cấp đáng kinh ngạc cho công nghệ tạo hình ảnh của ChatGPT, biến những gì từng là điểm yếu của AI thành một bước nhảy vọt mạnh mẽ. Kết quả là những hình ảnh chân thực đến mức người xem phải dụi mắt kiểm tra lại và tự hỏi: “Liệu đây có phải ảnh chụp thật không?”
Không cần đi sâu vào những con số kỹ thuật hay lượng tài nguyên GPU khổng lồ mà AI này tiêu tốn, chúng tôi sẽ trực tiếp cho bạn thấy khả năng thực tế của nó—và so sánh với phiên bản DALL-E trước đây.
Yêu cầu: Một bức ảnh cận cảnh người chơi hợp âm E minor trên đàn guitar, ngón tay ấn xuống dây đàn, hậu cảnh mờ.
Hình ảnh do AI tạo ra từng gây kinh ngạc khi mới xuất hiện, nhưng ngay sau đó, điểm yếu lộ rõ: các bàn tay méo mó, ngón tay thừa hoặc thiếu, tư thế bất thường. Đây là một lỗi kinh điển của AI khi vẽ hình người.
Tôi quyết định thử nghiệm bằng cách yêu cầu DALL-E vẽ trước, rồi mới so sánh với ChatGPT 4o.
Kết quả từ DALL-E: Mặc dù hình dáng bàn tay trông khá ổn, nhưng tư thế cầm đàn lại sai. Ngón tay đặt quá cao trên cần đàn, không phù hợp với hợp âm E minor. Khi zoom kỹ, ta có thể thấy cây đàn có nhiều hơn sáu dây, và khoảng cách giữa các dây không đồng đều.
Kết quả từ ChatGPT 4o: Hình ảnh quá hoàn hảo! Sáu dây đàn được căn chỉnh chính xác, khoảng cách đều đặn, tư thế tay đúng chuẩn khi chơi hợp âm E minor. Nếu không nói trước, có lẽ nhiều người sẽ nghĩ đây là một bức ảnh chụp thật.
Yêu cầu: Albert Einstein ăn kem tại Central Park, mặc áo sơ mi và quần đeo dây.
Nhân vật lịch sử thường không có nhiều ảnh chụp, và AI thường gặp khó khăn khi tái hiện họ một cách chính xác. Vì vậy, đây là một bài kiểm tra thú vị.
Kết quả từ DALL-E: Hoàn toàn gây thất vọng. DALL-E không thể sử dụng hình ảnh chính xác của Einstein mà chỉ có thể tạo ra một người "có nét giống" ông. Khuôn mặt nhân vật trông không đúng, và bối cảnh cũng không thể hiện rõ Central Park.
Kết quả từ ChatGPT 4o: Ngạc nhiên chưa? Einstein xuất hiện trong hình đúng như mong đợi, với mái tóc bù xù quen thuộc, quần đeo dây và chiếc kem trên tay. Nếu không biết trước, nhiều người có thể tin rằng đây là một bức ảnh thật.
Yêu cầu: Batman đứng trên một tòa nhà cao tầng, nhìn xuống thành phố Gotham dưới trời mưa.
Tạo hình nhân vật hư cấu luôn là một thử thách lớn đối với AI, đặc biệt là khi phải tái hiện phong cách điện ảnh.
Kết quả từ DALL-E: Hình ảnh có vẻ "nhái" phong cách truyện tranh nhưng chưa đủ sắc nét. Áo choàng của Batman trông thiếu tự nhiên, còn ánh sáng thành phố không phản chiếu đúng với hiệu ứng mưa.
Kết quả từ ChatGPT 4o: Quá ấn tượng! Hình ảnh Batman đứng giữa thành phố với hiệu ứng ánh sáng và bóng tối cực kỳ điện ảnh. Áo choàng bay trong gió, nước mưa rơi tạo hiệu ứng chân thực, đúng chuẩn Hollywood.
Yêu cầu: Một nhân vật hoạt hình theo phong cách Pixar với đôi mắt to tròn, nụ cười rạng rỡ.
DALL-E có thể tạo hình ảnh hoạt hình, nhưng liệu ChatGPT 4o có vượt trội hơn?
Kết quả từ DALL-E: Nhân vật có nét vẽ ổn nhưng thiếu sự mềm mại và chiều sâu trong biểu cảm.
Kết quả từ ChatGPT 4o: Hoàn toàn giống như một nhân vật bước ra từ phim Pixar! Đôi mắt lấp lánh, cảm xúc sống động, màu sắc rực rỡ và hiệu ứng ánh sáng hoàn hảo.
Yêu cầu: Một người soi gương trong phòng tắm với hình ảnh phản chiếu rõ nét.
AI thường gặp khó khăn trong việc xử lý sự phản chiếu do phải tạo hai phiên bản của cùng một đối tượng.
Kết quả từ DALL-E: Gương phản chiếu không chính xác, khuôn mặt nhân vật méo mó.
Kết quả từ ChatGPT 4o: Hoàn hảo! Hình ảnh trong gương khớp hoàn toàn với góc nhìn, không có lỗi về ánh sáng hay biến dạng khuôn mặt.
Yêu cầu: Một chiếc siêu xe Lamborghini trên đường phố New York với ánh đèn neon phản chiếu trên vỏ xe.
Kết quả từ DALL-E: Xe hơi có kết cấu ổn nhưng hiệu ứng ánh sáng chưa thật sự thuyết phục.
Kết quả từ ChatGPT 4o: Quá xuất sắc! Chiếc xe trông như được chụp từ một buổi triển lãm, ánh sáng phản chiếu chân thực, độ bóng trên vỏ xe đạt đến mức khó phân biệt với ảnh thật.
Yêu cầu: Một biển hiệu neon với dòng chữ "OpenAI - Tương lai của trí tuệ nhân tạo" trong một con hẻm cyberpunk.
Trước đây, AI luôn gặp khó khăn khi tạo chữ viết, thường cho ra những ký tự méo mó hoặc lộn xộn.
Kết quả từ DALL-E: Chữ cái bị méo mó, không thể đọc rõ.
Kết quả từ ChatGPT 4o: Quá chuẩn! Chữ được căn chỉnh rõ ràng, đúng chính tả, hiệu ứng ánh sáng tuyệt đẹp.
ChatGPT 4o đã thể hiện bước nhảy vọt về khả năng tạo hình ảnh, khắc phục nhiều nhược điểm của các thế hệ AI trước đó. Từ bàn tay, nhân vật lịch sử, đến hiệu ứng ánh sáng và phản chiếu, mọi thứ đều trở nên sống động và chân thực hơn bao giờ hết. Nếu tiếp tục phát triển với tốc độ này, không ai có thể đoán trước AI sẽ còn tiến xa đến đâu!
Nguồn Makeuseof
Không cần đi sâu vào những con số kỹ thuật hay lượng tài nguyên GPU khổng lồ mà AI này tiêu tốn, chúng tôi sẽ trực tiếp cho bạn thấy khả năng thực tế của nó—và so sánh với phiên bản DALL-E trước đây.
1. Bàn tay và ngón tay - Bài toán nan giải của AI
Yêu cầu: Một bức ảnh cận cảnh người chơi hợp âm E minor trên đàn guitar, ngón tay ấn xuống dây đàn, hậu cảnh mờ.
Hình ảnh do AI tạo ra từng gây kinh ngạc khi mới xuất hiện, nhưng ngay sau đó, điểm yếu lộ rõ: các bàn tay méo mó, ngón tay thừa hoặc thiếu, tư thế bất thường. Đây là một lỗi kinh điển của AI khi vẽ hình người.
Tôi quyết định thử nghiệm bằng cách yêu cầu DALL-E vẽ trước, rồi mới so sánh với ChatGPT 4o.
Kết quả từ DALL-E: Mặc dù hình dáng bàn tay trông khá ổn, nhưng tư thế cầm đàn lại sai. Ngón tay đặt quá cao trên cần đàn, không phù hợp với hợp âm E minor. Khi zoom kỹ, ta có thể thấy cây đàn có nhiều hơn sáu dây, và khoảng cách giữa các dây không đồng đều.

Kết quả từ ChatGPT 4o: Hình ảnh quá hoàn hảo! Sáu dây đàn được căn chỉnh chính xác, khoảng cách đều đặn, tư thế tay đúng chuẩn khi chơi hợp âm E minor. Nếu không nói trước, có lẽ nhiều người sẽ nghĩ đây là một bức ảnh chụp thật.

2. Nhân vật lịch sử trong cuộc sống hiện đại
Yêu cầu: Albert Einstein ăn kem tại Central Park, mặc áo sơ mi và quần đeo dây.
Nhân vật lịch sử thường không có nhiều ảnh chụp, và AI thường gặp khó khăn khi tái hiện họ một cách chính xác. Vì vậy, đây là một bài kiểm tra thú vị.
Kết quả từ DALL-E: Hoàn toàn gây thất vọng. DALL-E không thể sử dụng hình ảnh chính xác của Einstein mà chỉ có thể tạo ra một người "có nét giống" ông. Khuôn mặt nhân vật trông không đúng, và bối cảnh cũng không thể hiện rõ Central Park.

Kết quả từ ChatGPT 4o: Ngạc nhiên chưa? Einstein xuất hiện trong hình đúng như mong đợi, với mái tóc bù xù quen thuộc, quần đeo dây và chiếc kem trên tay. Nếu không biết trước, nhiều người có thể tin rằng đây là một bức ảnh thật.

3. Nhân vật hư cấu trong thế giới thực
Yêu cầu: Batman đứng trên một tòa nhà cao tầng, nhìn xuống thành phố Gotham dưới trời mưa.
Tạo hình nhân vật hư cấu luôn là một thử thách lớn đối với AI, đặc biệt là khi phải tái hiện phong cách điện ảnh.
Kết quả từ DALL-E: Hình ảnh có vẻ "nhái" phong cách truyện tranh nhưng chưa đủ sắc nét. Áo choàng của Batman trông thiếu tự nhiên, còn ánh sáng thành phố không phản chiếu đúng với hiệu ứng mưa.


Kết quả từ ChatGPT 4o: Quá ấn tượng! Hình ảnh Batman đứng giữa thành phố với hiệu ứng ánh sáng và bóng tối cực kỳ điện ảnh. Áo choàng bay trong gió, nước mưa rơi tạo hiệu ứng chân thực, đúng chuẩn Hollywood.


4. Phim hoạt hình theo phong cách AI
Yêu cầu: Một nhân vật hoạt hình theo phong cách Pixar với đôi mắt to tròn, nụ cười rạng rỡ.
DALL-E có thể tạo hình ảnh hoạt hình, nhưng liệu ChatGPT 4o có vượt trội hơn?

Kết quả từ DALL-E: Nhân vật có nét vẽ ổn nhưng thiếu sự mềm mại và chiều sâu trong biểu cảm.
Kết quả từ ChatGPT 4o: Hoàn toàn giống như một nhân vật bước ra từ phim Pixar! Đôi mắt lấp lánh, cảm xúc sống động, màu sắc rực rỡ và hiệu ứng ánh sáng hoàn hảo.

5. Gương và sự phản chiếu - Thách thức khó nhằn
Yêu cầu: Một người soi gương trong phòng tắm với hình ảnh phản chiếu rõ nét.
AI thường gặp khó khăn trong việc xử lý sự phản chiếu do phải tạo hai phiên bản của cùng một đối tượng.


Kết quả từ DALL-E: Gương phản chiếu không chính xác, khuôn mặt nhân vật méo mó.
Kết quả từ ChatGPT 4o: Hoàn hảo! Hình ảnh trong gương khớp hoàn toàn với góc nhìn, không có lỗi về ánh sáng hay biến dạng khuôn mặt.


6. Xe hơi và đường phố - Thực tế đến mức khó tin
Yêu cầu: Một chiếc siêu xe Lamborghini trên đường phố New York với ánh đèn neon phản chiếu trên vỏ xe.
Kết quả từ DALL-E: Xe hơi có kết cấu ổn nhưng hiệu ứng ánh sáng chưa thật sự thuyết phục.

Kết quả từ ChatGPT 4o: Quá xuất sắc! Chiếc xe trông như được chụp từ một buổi triển lãm, ánh sáng phản chiếu chân thực, độ bóng trên vỏ xe đạt đến mức khó phân biệt với ảnh thật.


7. Văn bản và chữ cái - Cơn ác mộng của AI nay đã được khắc phục
Yêu cầu: Một biển hiệu neon với dòng chữ "OpenAI - Tương lai của trí tuệ nhân tạo" trong một con hẻm cyberpunk.
Trước đây, AI luôn gặp khó khăn khi tạo chữ viết, thường cho ra những ký tự méo mó hoặc lộn xộn.
Kết quả từ DALL-E: Chữ cái bị méo mó, không thể đọc rõ.

Kết quả từ ChatGPT 4o: Quá chuẩn! Chữ được căn chỉnh rõ ràng, đúng chính tả, hiệu ứng ánh sáng tuyệt đẹp.

Kết luận:
ChatGPT 4o đã thể hiện bước nhảy vọt về khả năng tạo hình ảnh, khắc phục nhiều nhược điểm của các thế hệ AI trước đó. Từ bàn tay, nhân vật lịch sử, đến hiệu ứng ánh sáng và phản chiếu, mọi thứ đều trở nên sống động và chân thực hơn bao giờ hết. Nếu tiếp tục phát triển với tốc độ này, không ai có thể đoán trước AI sẽ còn tiến xa đến đâu!
Nguồn Makeuseof