Adobe Firefly 2, Midjourney và DALL-E 3 - ba ông vua tạo ảnh AI so găng

Christine May · 06/11/2023

Hôm nay chúng ta có một trận PK lớn: 3 ông vua trong lĩnh vực tạo ảnh AI tranh tài!

Adobe Firefly 2, Midjourney và DALL-E 3 - ba ông vua tạo ảnh AI so găng

So sánh hình ảnh được tạo bởi Adobe Firefly, Midjourney và DALL-E 2
Đầu tiên phải kể đến trình phát số 1 Adobe Firefly Image 2, đây là mẫu máy tạo ảnh thế hệ mới được Adobe ra mắt vào sáng sớm ngày 11/10.
Vị thế của Adobe trong lĩnh vực xử lý ảnh là điều hiển nhiên. Được hỗ trợ bởi Adobe, dòng Firefly đã nhận được sự chú ý rất lớn kể từ khi ra mắt.

So sánh hình ảnh do Firefly 2 và Firefly 1 tạo ra
Theo báo cáo, Firefly 2 nâng cao chất lượng hiển thị hình ảnh bằng cách cải thiện làn da, tóc, mắt, bàn tay và các cấu trúc cơ thể khác trong hình ảnh, tạo ra hình ảnh chất lượng cao hơn cho người dùng.
Mô hình Firefly 2 có ba chức năng mới chính: So khớp sáng tạo, Cài đặt ảnh và Hướng dẫn nhanh chóng.

Chức năng so khớp do Firefly 2 tạo ra
Nó hỗ trợ lời nhắc bằng văn bản bằng hơn 100 ngôn ngữ và các gói trả phí mới bao gồm tính năng tạo điểm "nhanh".
Người chơi thứ hai, DALL-E 3, có xuất thân khác thường.
DALL-E 3 là phiên bản nâng cấp của công cụ vẽ văn bản được OpenAI ra mắt vào sáng sớm ngày 21/9. So với phiên bản trước, nó có khả năng hiểu nhanh hơn và hiệu ứng xử lý văn bản tốt hơn.
Với tư cách là nhà phát triển ứng dụng hiện tượng ChatGPT, OpenAI đã gây ra làn sóng sốt AIGC.

DALL·E 3 có thể tạo văn bản chính xác trên hình ảnh
DALL-E 3 nâng cấp được tích hợp nguyên bản vào ChatGPT, điều này "thậm chí còn mạnh mẽ hơn" cho cả hai sản phẩm. Vào ngày 3 tháng 10, Microsoft đã thông báo rằng DALL-E 3 được cung cấp miễn phí cho tất cả người dùng Bing Chat và Bing Image Creator, một lần nữa hạ thấp ngưỡng sử dụng nó.
Điều đáng nói là DALL-E 3 đã nâng cấp chức năng “tạo văn bản trên hình ảnh” trong bản nâng cấp này, chức năng này hiện chưa được triển khai trong Firefly 2 và Midjourney.

Chức năng zoom của Midjourney
So với hai người chơi hàng đầu, Midjourney, người chơi thứ ba, có thể không có tên tuổi lớn như hai công ty nói trên, nhưng với chất lượng tạo hình ảnh mạnh mẽ, nó đã từng trở thành một ứng dụng phi thường trong lĩnh vực tạo hình ảnh, đạt được 10 triệu người dùng và 100 triệu người dùng trong một năm.
Midjourney được thành lập vào tháng 8 năm 2021. Nhà sáng lập David Holz, là người đồng sáng lập công ty điều khiển cảm giác cơ thể Leap Motion. Midjourney được biết đến với đầu ra chi tiết, khả năng tùy chỉnh và sắc thái sâu rộng thông qua các thông số kỹ thuật nhanh chóng và phiên bản 5.2 mới nhất đã được ra mắt vào ngày 23 tháng 6.
Điểm nổi bật lớn nhất của Midjourney phiên bản 5.2 là tính năng Zoom Out, cho phép người dùng mở rộng khung vẽ của một hình ảnh được phóng to ra ngoài ranh giới ban đầu mà không làm thay đổi nội dung của hình ảnh gốc. Canvas mới được mở rộng sẽ được điền theo lời nhắc và hướng dẫn của hình ảnh gốc.
Vào tháng 9, CEO của Midjourney đã tiết lộ với giới truyền thông rằng Midjourney 6 sẽ được phát hành trong năm nay và sẽ đạt được bước nhảy vọt về chất lượng.

Cuộc cạnh tranh tạo ảnh giữa Adobe Firefly 2, Midjourney và DALL-E 3

Tiếp theo, chúng ta hãy so sánh hiệu ứng của hình ảnh do Adobe Firefly 2, Midjourney và DALL-E 3 tạo ra từ 8 khía cạnh, đó là chân dung thực tế, thiết kế kiến trúc, phong cảnh, chủ nghĩa siêu thực, khái niệm trừu tượng, nghệ thuật cách điệu, thiết kế đồ họa vector và tạo văn bản.

1. Chân dung thực tế

Đầu tiên là bức chân dung "cường điệu" của Adobe Firefly 2. Lời gợi ý cho hai bức ảnh sau là: cận cảnh một sinh viên đại học mệt mỏi và chân dung một người phụ nữ mặc áo sơ mi màu vàng.

Chân dung thực tế (Nguồn: Gold Penguin)

Chân dung thực tế (nguồn ảnh: X blogger @saana_ai)
Có thể thấy, những bức chân dung do Adobe Firefly 2 tạo ra quả thực rất chân thực, với nét mặt rõ ràng, kết cấu da và tóc rõ ràng cũng như hiệu ứng ánh sáng tốt.
Đầu ra của Midjourney cũng khá tốt, tuy nhiên so với Firefly 2 thì nó mềm hơn và kết cấu da kém hơn một chút. Đối với tập từ gợi ý đầu tiên, cuốn sách trên màn hình nền trong hình ảnh do Midjourney tạo ra có lỗi hiển thị nhưng không rõ ràng.
Ngược lại, ảnh chân dung do DALL-E 3 tạo ra có phần kém hơn, gần như không có họa tiết da và tóc. Đối với bộ từ gợi ý đầu tiên, DALL-E 3 đã nhấn mạnh quá mức đến sự mệt mỏi của học sinh và “quầng thâm” hơi cường điệu.
Điều đáng nói là không có hình ảnh nào trong số này chịu hiệu ứng "thung lũng kỳ lạ", đây là một điểm cộng lớn.

2. Thiết kế kiến trúc

Hãy nhìn lại thiết kế kiến trúc, gợi ý cho bộ ảnh đầu tiên là: Một căn gác xép kiểu Manhattan có tường gạch đầy phong cách với phòng khách chìm, nhìn từ góc rộng.

Thiết kế kiến trúc (Nguồn: Gold Penguin)
Đối với nhóm từ gợi ý đầu tiên, không ai trong số ba trình tạo hình ảnh hiểu đầy đủ ý định của gợi ý. Tất cả đều tạo nên một căn gác xép kiểu Manhattan, nhưng rất khó để làm nổi bật khía cạnh phòng khách chìm.
Adobe Firefly 2 có hiệu ứng ánh sáng tốt nhất, nhấn mạnh sự tương ứng giữa bóng tối và nguồn sáng và kết hợp chúng với nhau một cách hoàn hảo.
Điểm mạnh lớn nhất của Midjourney là sự chú ý đến từng chi tiết. Từ những cuốn sách ở tầng một đến những bức tranh trên tầng hai, mọi thứ đều phù hợp với thiết kế của một căn hộ kiểu gác xép điển hình.
Ánh sáng của DALL-E 3 có vẻ hơi cường điệu và kết cấu mềm mại hơn. Tuy nhiên, nó là trình tạo duy nhất đại diện cho từ nhắc "phòng khách chìm", mặc dù có phần sai sót.
Các từ gợi ý cho bộ tranh thứ hai là: phòng ngủ, cửa sổ lớn, nội thất hiện đại, màu xám và vàng, sang trọng, phong cách hiện đại giữa thế kỷ.

Thiết kế kiến trúc (Nguồn: X blogger @chaseleantj)
Đối với nhóm từ gợi ý thứ hai, cả ba trình tạo hình ảnh đều hoạt động tốt. Tuy nhiên, khi so sánh, hình ảnh do DALL-E 3 tạo ra hoạt động kém hiệu quả hơn ở các từ nhắc “sang trọng” và “vàng” so với hai trình tạo còn lại.

3. Phong cảnh

Đối với phong cảnh, lời nhắc đầu tiên là một cụm từ ngắn: cảnh hoàng hôn trên đồng cỏ hoa dại.

Phong cảnh (Nguồn: Gold Penguin)
Đối với tập lời nhắc đầu tiên, kết quả của Adobe Firefly 2 trông giống như thật nhưng lại quá giống với hình ảnh bãi cỏ trên Internet. Ngoài ra, việc hiển thị các bông hoa dại có vẻ không ổn định và khi nhìn kỹ hơn sẽ thấy rằng không có bông hoa nào được hiển thị chính xác.
Những đồng cỏ của Midjourney rất sặc sỡ nhưng có xu hướng cách điệu, giống một bức tranh hơn là một bức ảnh thực tế.
DALL-E 3 nhấn mạnh hơn vào từ gợi ý "hoàng hôn" và màu tổng thể là màu cam, mang đến cho người nhìn cảm giác hùng vĩ. Mặc dù nó không phải là màu sắc sặc sỡ nhất nhưng kết cấu vẫn ổn.
Nhóm lời nhắc thứ hai chi tiết hơn: chụp ảnh từ trên không bằng máy bay không người lái về phong cảnh đất liền tuyệt đẹp của Đảo Boraboro và làn nước lấp lánh dưới ánh mặt trời.

Phong cảnh (Nguồn: X blogger @chaseleantj)
Đối với nhóm từ gợi ý thứ hai, hình ảnh do Firefly 2 và Midjourney tạo ra tương tự nhau, mang lại cảm giác hoành tráng và hoành tráng, nhưng kết xuất cây của phần sau chi tiết hơn.
Khả năng kết xuất mặt nước của DALL-E 3 trông hơi thô, nhấn mạnh vào “ánh nắng” nhưng không thể hiện được bóng đổ dưới ánh sáng mạnh nên trông rất phẳng.

4. Chủ nghĩa siêu thực

Sau khi nhìn vào hiện thực, chúng ta hãy nhìn vào chủ nghĩa siêu thực. Gợi ý cho bức tranh dưới đây là: Một bức tranh sơn dầu siêu thực với một con đom đóm lớn trong một ngôi nhà làm bằng vải denim.

Chủ nghĩa siêu thực (Nguồn: Gold Penguin)
Đối với nhóm từ gợi ý đầu tiên, ba trình tạo đã thực hiện các cách tiếp cận hoàn toàn khác nhau.
Các tác phẩm của Adobe Firefly 2 chủ yếu dựa trên sách dành cho trẻ em và phong cách rất giống với sách tranh dành cho trẻ em.
Midjourney kết hợp hình ảnh thế giới thực với những khái niệm kỳ ảo. Không giống như hai hình ảnh còn lại, nó đặt phối cảnh bên trong căn phòng nên việc thể hiện "denim" không rõ ràng. Ngoài ra, Midjourney dường như đã biến cả những con đom đóm thành chất liệu denim. Điều này có thể hơi khác so với mô tả từ gợi ý, nhưng những người thử nghiệm thích nó.
Cách tiếp cận của DALL-E 3 mang tính nghệ thuật hơn, làm mờ ranh giới của ngôi nhà và tạo ra một câu chuyện mới. Nó còn "tạo" các chi tiết như hai mặt trăng và cửa sổ bỏ túi.
Hãy thử những từ gợi ý trừu tượng hơn: gây sốc, người ngoài hành tinh xinh đẹp, khoa học viễn tưởng, tương lai, màu nâu nhạt và màu hổ phách.

Chủ nghĩa siêu thực (Nguồn ảnh: X blogger @saana_ai)
Đối với nhóm từ nhắc thứ hai, ba trình tạo cũng có các phương pháp xử lý khác nhau.
Adobe Firefly 2 vẫn áp dụng phong cách giống minh họa, trong khi Midjourney và DALL-E 3 thì “thực tế” hơn. Nhưng DALL-E 3 đã bỏ qua từ nhắc "hổ phách" và hình ảnh được tạo ra có vẻ gần với "robot" hơn là "người ngoài hành tinh".

5. Khái niệm trừu tượng

Nếu Chủ nghĩa siêu thực cũng cung cấp một số cách diễn đạt chi tiết thì tiếp theo chúng ta sẽ thử những khái niệm hoàn toàn trừu tượng. Từ gợi ý cho hình ảnh bên dưới là: Hình dung vô hạn.

Concept trừu tượng (Nguồn: Gold Penguin)
"Vô cực" không thể được tạo ra, nhưng ba tác phẩm có những nỗ lực khác nhau để thể hiện khái niệm này.
Adobe Firefly 2 và DALL-E 3 đều chọn phương pháp biểu hiện xoắn ốc. Firefly 2 tương tự như trực quan hóa chuỗi Fibonacci và hình ảnh do DALL-E 3 tạo ra ảo giác hơn, với màu sắc phong phú và trông giống như một chiếc cà vạt phức tạp -nhuộm áo.
Hình ảnh do Midjourney tạo ra mang tính chất tường thuật, với hình người đang bước về phía ánh sáng, được bao quanh bởi những thứ như dây leo hoặc cành cây.

6. Nghệ thuật cách điệu

Ba thí sinh cũng thể hiện khác nhau về sự hiểu biết của họ về một số nghệ thuật cách điệu. Gợi ý cho bộ tranh đầu tiên là: Hình minh họa theo phong cách Dada về phụ nữ đấu tranh cho quyền bình đẳng.

Nghệ thuật cách điệu (Nguồn: Gold Penguin)
Chủ nghĩa Dada ra đời vào đầu thế kỷ 20 và có thể bắt nguồn từ Thế chiến thứ nhất. Nghệ thuật Dada được đặc trưng bởi các vật liệu, cắt dán, lắp ráp và biểu diễn độc đáo, nhằm mục đích kích động và gây sốc cho khán giả, đặt câu hỏi về ý nghĩa và mục đích của nghệ thuật và xã hội.
Đầu ra của Adobe Firefly 2 trông không giống bất kỳ tác phẩm nghệ thuật Dada nào và sau khi điều chỉnh lời nhắc nhiều lần, kết quả luôn tương tự nhau.
Midjourney và DALL-E 3 hiểu bối cảnh và tác phẩm của họ hoàn toàn bắt chước chủ nghĩa Dada.
Midjourney thiên về nghệ thuật cắt dán, giống phong cách của nghệ sĩ nổi tiếng người Nga Hannah Höch; DALL-E 3 thiên về bắt chước nghệ sĩ người Pháp Marcel Duchamp nhiều hơn. Cả hai nghệ sĩ đều là những đại diện xuất sắc của phong trào Dada.
Chuyển sang nghệ thuật theo phong cách pixel, lời nhắc được sử dụng là: Phiên bản Q của nghệ thuật pixel trên nền trắng, một nội dung trò chơi từ một trò chơi RPG, có bộ giáp phù thủy rồng sử dụng sức mạnh của lửa, được bao quanh bởi một bộ vật phẩm phù hợp.

Nghệ thuật cách điệu (Nguồn: X blogger @chaseleantj)
Đối với nghệ thuật theo phong cách pixel, DALL-E 3 vượt trội. Nó bao gồm hầu hết tất cả các từ gợi ý, đồng thời tạo ra các ký tự Chibi, ảnh nghệ thuật pixel và bộ vật phẩm.
Firefly 2 quản lý để tạo ảnh nghệ thuật pixel nhưng bỏ qua các từ nhắc "nền trắng" và "nhóm vật phẩm".
Tác phẩm nghệ thuật của Midjourney thậm chí còn không có pixel.

7. Thiết kế đồ họa vector

Tiếp theo là thiết kế đồ họa vector thực tế hơn trong lĩnh vực văn phòng. Đầu tiên, hãy yêu cầu trợ lý AI vẽ trợ lý AI Lời nhắc: Hình minh họa vector phẳng về trợ lý AI.

Thiết kế đồ họa vector (Nguồn: Gold Penguin)
Adobe Firefly 2 lại hiểu lầm. Bản thân đầu ra vẫn là vector art nhưng từ khóa "AI Assistant" không được thể hiện.
Đầu ra của Midjourney và DALL-E 3 giống nghệ thuật vector truyền thống hơn. Phần trước tập trung vào cảnh trợ lý AI giúp con người làm việc, trong khi phần sau tập trung vào chính "trợ lý AI".
Điều đáng chú ý là DALL-E 3 thậm chí còn tự thêm văn bản mà không cần lời nhắc và logic.
Hãy thử lại bằng từ gợi ý cụ thể hơn: hình minh họa vector phẳng đơn giản trên nền trắng về một người phụ nữ đang ngồi ở bàn với máy tính xách tay.

Thiết kế đồ họa vector (Nguồn: X blogger @chaseleantj)
Ba thí sinh ở phần nhắc lời thứ hai đều thể hiện tốt về tổng thể.
Nhưng khi xem xét kỹ hơn, cả Firefly 2 và Midjourney đều có một số sai sót chi tiết. Trong hình ảnh do Firefly 2 tạo ra, bàn tay trái của người phụ nữ dường như "biến mất", trong hình ảnh do Midjourney tạo ra, tai của chú chó con quá nhọn và trông giống một con mèo hơn.
Phong cách thể hiện của DALL-E 3 phẳng hơn và các khối màu sắc rõ ràng nên rất phù hợp để sử dụng trong các bài thuyết trình và tài liệu quảng cáo.

8. Tạo văn bản

Cuối cùng, có tính năng tạo văn bản đáng tự hào của DALL-E 3, Lời nhắc: một thiết kế nhãn dán tùy chỉnh với từ “Rachel” được viết bằng phông chữ trang nhã trên nền trắng, được tô điểm bằng những con bướm màu nước, hoa cúc và tông màu phấn nhẹ nhàng.

Tạo văn bản (Nguồn: X blogger @chaseleantj)
Về mặt tạo văn bản, DALL-E 3 đã đạt được chiến thắng áp đảo. Cả Firefly 2 và Midjourney đều không thể tạo ra văn bản chính xác, nhưng nếu so sánh, Firefly 2 gần với câu trả lời đúng hơn Midjourney một chút.
Firefly 2 và DALL-E 3 có biểu hiện "nhãn dán" rõ ràng hơn, cả hai đều sử dụng nét trắng để thể hiện chúng. Về phong cách màu nước, Firefly 2 thể hiện tốt nhất.
Điều đáng chú ý là Firefly 2 dường như luôn bỏ qua từ nhắc "nền trắng" và "liên tục" thay thế bằng nền xanh nhạt.
Kết luận: Những gã khổng lồ trong ngành tham gia chiến trường và cuộc hỗn chiến của máy tạo hình ảnh AI bắt đầu
AI sáng tạo đang định hình lại lĩnh vực sáng tạo nghệ thuật. Thông qua trình tạo hình ảnh, bất kỳ ai cũng có thể mở ra một thế giới sáng tạo nghệ thuật mới bằng cách viết lời nhắc bằng văn bản. Những người tham gia vào công việc sáng tạo cũng có thể tiết kiệm rất nhiều thời gian và kích thích nhiều khả năng tưởng tượng hơn.
Là một gã khổng lồ phần mềm sáng tạo kỳ cựu, Adobe một lần nữa củng cố sự tích lũy sâu rộng của mình trong lĩnh vực chỉnh sửa hình ảnh thông qua một loạt các bản cập nhật, hiệu suất của Firefly 2 đã được cải thiện rất nhiều so với trước khi nâng cấp và có thể cạnh tranh với Midjourney và DALL -E 3.
Cạnh tranh lành mạnh có thể cung cấp cho người dùng nhiều sự lựa chọn hơn và thúc đẩy sự phát triển lặp đi lặp lại liên tục của sản phẩm. Có lẽ, một năm sau nhìn lại, chúng ta sẽ nhận ra hiệu ứng tạo hình ảnh ngày nay còn “non nớt” đến mức nào.

Tìm kiếm

Có thể bạn quan tâm

Adobe Firefly 2, Midjourney và DALL-E 3 - ba ông vua tạo ảnh AI so găng

Christine May

Editor

Christine May

Cuộc cạnh tranh tạo ảnh giữa Adobe Firefly 2, Midjourney và DALL-E 3

1. Chân dung thực tế

2. Thiết kế kiến trúc

3. Phong cảnh

4. Chủ nghĩa siêu thực

5. Khái niệm trừu tượng

6. Nghệ thuật cách điệu

7. Thiết kế đồ họa vector

8. Tạo văn bản

Trình tạo video AI mới khiến Sora của OpenAI trở nên lỗi thời, xử lý chuyển động cực mượt, độ nét cao

“Thua đứt đuôi” về AI, Apple phải nhờ cậy cả máy chủ Google với số lượng lớn

Cơn sốt trí tuệ nhân tạo - bong bóng dotcom thời hiện đại?

Kỹ sư ML tinh chỉnh 7 mô hình cùng một lúc, đánh bại OpenAI GPT-4

4 lỗi thường gặp khi xác thực bằng khuôn mặt trên ứng dụng ngân hàng

Trình tạo video AI mới khiến Sora của OpenAI trở nên lỗi thời, xử lý chuyển động cực mượt, độ nét cao

OpenAI toan tính gì khi kéo Apple và Microsoft ngồi chung mâm?

5 lý do Toyota Yaris bị tạm dừng phân phối ở Việt Nam

Ngăn chặn spam và SEO "bất chấp" với bản cập nhật thuật toán, Google cũng "đá bay" bát cơm của hàng nghìn doanh nghiệp?

Dassault Systèmes công bố đối tác chuyển đổi số ngành hàng không ở Việt Nam

Apple sẽ tham gia ban quản trị OpenAI?

Sợi carbon là loại vật liệu gì mà được ứng dụng từ lĩnh vực hàng không vũ trụ cho đến xây dựng, thể thao...

Những chiến thuật quân sự kỳ lạ nhất lịch sử, Việt Nam cũng góp 1 cái tên

Đánh giá nổi bật

Gợi ý cộng đồng

Có thể bạn quan tâm

Adobe Firefly 2, Midjourney và DALL-E 3 - ba ông vua tạo ảnh AI so găng

Editor

Cuộc cạnh tranh tạo ảnh giữa Adobe Firefly 2, Midjourney và DALL-E 3​

1. Chân dung thực tế​

2. Thiết kế kiến trúc​

3. Phong cảnh​

4. Chủ nghĩa siêu thực​

5. Khái niệm trừu tượng​

6. Nghệ thuật cách điệu​

7. Thiết kế đồ họa vector​

8. Tạo văn bản​

Trình tạo video AI mới khiến Sora của OpenAI trở nên lỗi thời, xử lý chuyển động cực mượt, độ nét cao

“Thua đứt đuôi” về AI, Apple phải nhờ cậy cả máy chủ Google với số lượng lớn

Cơn sốt trí tuệ nhân tạo - bong bóng dotcom thời hiện đại?

Kỹ sư ML tinh chỉnh 7 mô hình cùng một lúc, đánh bại OpenAI GPT-4

Gợi ý cộng đồng

Cuộc cạnh tranh tạo ảnh giữa Adobe Firefly 2, Midjourney và DALL-E 3

1. Chân dung thực tế

2. Thiết kế kiến trúc

3. Phong cảnh

4. Chủ nghĩa siêu thực

5. Khái niệm trừu tượng

6. Nghệ thuật cách điệu

7. Thiết kế đồ họa vector

8. Tạo văn bản