myle.vnreview
Writer
OpenAI đang tích hợp các khả năng tạo hình ảnh mới trực tiếp vào ChatGPT bắt đầu từ hôm nay — tính năng này được gọi là "Hình ảnh trong ChatGPT" (Images in ChatGPT). Người dùng hiện có thể sử dụng GPT-4o để tạo hình ảnh trong chính ChatGPT.
Bản phát hành ban đầu này chỉ tập trung vào việc tạo hình ảnh và sẽ có sẵn trên các gói đăng ký ChatGPT Plus, Pro, Team và Free. Người phát ngôn Taya Christianson nói với The Verge rằng giới hạn sử dụng của gói miễn phí giống với DALL-E, nhưng nói thêm rằng họ "không có số lượng cụ thể để chia sẻ" và "những con số này có thể thay đổi theo thời gian dựa trên nhu cầu". Theo câu hỏi thường gặp về ChatGPT, người dùng miễn phí trước đây có thể tạo "ba hình ảnh mỗi ngày với DALL·E 3". Về số phận của DALL-E, Christianson cho biết "người hâm mộ" sẽ "vẫn có thể truy cập thông qua GPT tùy chỉnh".
“Mô hình này là một bước tiến vượt bậc so với các mô hình trước đó”, trưởng nhóm nghiên cứu Gabriel Goh trả lời The Verge, đồng thời cho biết nhóm đã sử dụng nền tảng “omnimodal” GPT-4o — hay một mô hình có thể tạo ra bất kỳ loại dữ liệu nào như văn bản, hình ảnh, âm thanh và video — cho tính năng này.
Một số cải tiến mà Gabriel Goh lưu ý bao gồm “liên kết”, ám chỉ mức độ hiệu quả của trình tạo hình ảnh AI trong việc duy trì mối quan hệ chính xác giữa các thuộc tính và đối tượng; ví dụ, một mô hình có liên kết kém có thể nhận được lời nhắc về một ngôi sao màu xanh cộng với một hình tam giác màu đỏ và tạo ra một ngôi sao màu đỏ mà không có hình tam giác.
Gabriel Goh cho biết hầu hết các mô hình hình ảnh đều gặp khó khăn với điều này, thường là trộn lẫn màu sắc và hình dạng khi được yêu cầu hiển thị nhiều mục — thường là khoảng 5 đến 8 mục. Ông cho biết công cụ tạo hình ảnh mới này có thể liên kết chính xác các thuộc tính cho 15 đến 20 đối tượng mà không bị nhầm lẫn, thể hiện sự cải thiện đáng kể về độ chính xác và độ tin cậy.
Người dùng cũng sẽ nhận thấy sự cải thiện trong việc hiển thị văn bản, giúp tạo văn bản mạch lạc mà không có lỗi đánh máy trên hình ảnh dễ dàng hơn (trong các công cụ hiện có, bạn thường thấy văn bản bị bóp méo khá dễ dàng). Gabriel Goh cho biết, việc hiển thị văn bản đúng là một thách thức đáng kể. Nếu các tiêu đề nhỏ hoặc các thành phần văn bản có lỗi đánh máy hoặc lỗi, toàn bộ hình ảnh có thể trở nên không sử dụng được.
Hệ thống sử dụng phương pháp hồi quy tự động — tạo hình ảnh tuần tự từ trái sang phải và từ trên xuống dưới, tương tự như cách viết văn bản — thay vì kỹ thuật mô hình khuếch tán được sử dụng bởi hầu hết các trình tạo hình ảnh (như DALL-E) tạo toàn bộ hình ảnh cùng một lúc. Gabriel Goh suy đoán rằng sự khác biệt về mặt kỹ thuật này có thể là yếu tố giúp Images trong ChatGPT hiển thị và liên kết văn bản tốt hơn.
Trong buổi họp báo trước khi ra mắt tính năng, nhóm đã trình bày một số ví dụ cho thấy khả năng của hệ thống, bao gồm các sơ đồ khoa học như thí nghiệm lăng kính của Newton với các thành phần được dán nhãn chính xác, truyện tranh nhiều ô với các nhân vật và bong bóng văn bản nhất quán, và áp phích thông tin với văn bản chính xác. Họ cũng nêu bật các ứng dụng thực tế như tạo hình nền trong suốt cho nhãn dán, thực đơn nhà hàng và logo.
"Nếu tôi vẽ một hình ảnh, tôi sẽ làm như vậy với giới hạn về kỹ năng của riêng mình... nhưng cũng với tất cả kiến thức về thế giới mà tôi đã tích lũy được", Jackie Shannon, trưởng nhóm sản phẩm đa phương thức của ChatGPT giải thích. "Mô hình đưa kiến thức thế giới vào phương trình, vì vậy khi bạn yêu cầu hình ảnh về thí nghiệm lăng kính của Newton, bạn không cần phải giải thích đó là gì để có được hình ảnh trả về".
Hệ thống mới mất nhiều thời gian hơn để tạo hình ảnh so với trước đây, mặc dù OpenAI cho rằng đây là một sự đánh đổi xứng đáng. Shannon cho biết "Mặc dù chúng tôi chắc chắn có chỗ để cải thiện độ trễ... nhưng chất lượng của những hình ảnh này, khả năng, kiến thức thế giới, thực sự bù đắp cho những giây phút chờ đợi thêm".
Khi được hỏi về các biện pháp bảo vệ — chỉ ra các deepfake khỏa thân khét tiếng của Taylor Swift được tạo ra bằng mô hình của Microsoft, khả năng Grok của xAI để tạo ra Kamala Harris với một khẩu súng và khả năng xóa hình mờ của Google Gemini — nhóm OpenAI nhấn mạnh rằng hệ thống bao gồm các biện pháp bảo vệ mạnh mẽ để ngăn chặn việc sử dụng sai mục đích. Shannon cho biết công cụ này ngăn chặn việc xóa hình mờ, chặn việc tạo ra các deepfake khiêu *** và từ chối các yêu cầu tạo CSAM.
Hệ thống tạo hình ảnh mới của OpenAI không bao gồm hình mờ trực quan hoặc các chỉ báo cho thấy hình ảnh được tạo bởi AI. Tuy nhiên, Shannon giải thích rằng "tất cả các hình ảnh do chúng tôi tạo ra sẽ bao gồm siêu dữ liệu C2PA tiêu chuẩn để đánh dấu hình ảnh là do OpenAI tạo ra" và công ty "sẽ có một số công cụ nội bộ để có thể tra cứu hình ảnh".
“Cuối cùng, không có hệ thống nào là hoàn hảo cho loại việc này, nhưng chúng tôi liên tục cải thiện các biện pháp bảo vệ của mình và chúng tôi coi đây là điểm khởi đầu”, Shannon nói thêm. “Một điều đúng về tất cả các hình ảnh được tạo ra từ ChatGPT là người dùng sở hữu chúng và được tự do sử dụng chúng trong phạm vi chính sách sử dụng của chúng tôi theo ý muốn của họ”.

Bản phát hành ban đầu này chỉ tập trung vào việc tạo hình ảnh và sẽ có sẵn trên các gói đăng ký ChatGPT Plus, Pro, Team và Free. Người phát ngôn Taya Christianson nói với The Verge rằng giới hạn sử dụng của gói miễn phí giống với DALL-E, nhưng nói thêm rằng họ "không có số lượng cụ thể để chia sẻ" và "những con số này có thể thay đổi theo thời gian dựa trên nhu cầu". Theo câu hỏi thường gặp về ChatGPT, người dùng miễn phí trước đây có thể tạo "ba hình ảnh mỗi ngày với DALL·E 3". Về số phận của DALL-E, Christianson cho biết "người hâm mộ" sẽ "vẫn có thể truy cập thông qua GPT tùy chỉnh".
“Mô hình này là một bước tiến vượt bậc so với các mô hình trước đó”, trưởng nhóm nghiên cứu Gabriel Goh trả lời The Verge, đồng thời cho biết nhóm đã sử dụng nền tảng “omnimodal” GPT-4o — hay một mô hình có thể tạo ra bất kỳ loại dữ liệu nào như văn bản, hình ảnh, âm thanh và video — cho tính năng này.
Một số cải tiến mà Gabriel Goh lưu ý bao gồm “liên kết”, ám chỉ mức độ hiệu quả của trình tạo hình ảnh AI trong việc duy trì mối quan hệ chính xác giữa các thuộc tính và đối tượng; ví dụ, một mô hình có liên kết kém có thể nhận được lời nhắc về một ngôi sao màu xanh cộng với một hình tam giác màu đỏ và tạo ra một ngôi sao màu đỏ mà không có hình tam giác.
Gabriel Goh cho biết hầu hết các mô hình hình ảnh đều gặp khó khăn với điều này, thường là trộn lẫn màu sắc và hình dạng khi được yêu cầu hiển thị nhiều mục — thường là khoảng 5 đến 8 mục. Ông cho biết công cụ tạo hình ảnh mới này có thể liên kết chính xác các thuộc tính cho 15 đến 20 đối tượng mà không bị nhầm lẫn, thể hiện sự cải thiện đáng kể về độ chính xác và độ tin cậy.
Người dùng cũng sẽ nhận thấy sự cải thiện trong việc hiển thị văn bản, giúp tạo văn bản mạch lạc mà không có lỗi đánh máy trên hình ảnh dễ dàng hơn (trong các công cụ hiện có, bạn thường thấy văn bản bị bóp méo khá dễ dàng). Gabriel Goh cho biết, việc hiển thị văn bản đúng là một thách thức đáng kể. Nếu các tiêu đề nhỏ hoặc các thành phần văn bản có lỗi đánh máy hoặc lỗi, toàn bộ hình ảnh có thể trở nên không sử dụng được.

Một ví dụ về khả năng tạo văn bản mạch lạc của ChatGPT
Hệ thống sử dụng phương pháp hồi quy tự động — tạo hình ảnh tuần tự từ trái sang phải và từ trên xuống dưới, tương tự như cách viết văn bản — thay vì kỹ thuật mô hình khuếch tán được sử dụng bởi hầu hết các trình tạo hình ảnh (như DALL-E) tạo toàn bộ hình ảnh cùng một lúc. Gabriel Goh suy đoán rằng sự khác biệt về mặt kỹ thuật này có thể là yếu tố giúp Images trong ChatGPT hiển thị và liên kết văn bản tốt hơn.
Trong buổi họp báo trước khi ra mắt tính năng, nhóm đã trình bày một số ví dụ cho thấy khả năng của hệ thống, bao gồm các sơ đồ khoa học như thí nghiệm lăng kính của Newton với các thành phần được dán nhãn chính xác, truyện tranh nhiều ô với các nhân vật và bong bóng văn bản nhất quán, và áp phích thông tin với văn bản chính xác. Họ cũng nêu bật các ứng dụng thực tế như tạo hình nền trong suốt cho nhãn dán, thực đơn nhà hàng và logo.
"Nếu tôi vẽ một hình ảnh, tôi sẽ làm như vậy với giới hạn về kỹ năng của riêng mình... nhưng cũng với tất cả kiến thức về thế giới mà tôi đã tích lũy được", Jackie Shannon, trưởng nhóm sản phẩm đa phương thức của ChatGPT giải thích. "Mô hình đưa kiến thức thế giới vào phương trình, vì vậy khi bạn yêu cầu hình ảnh về thí nghiệm lăng kính của Newton, bạn không cần phải giải thích đó là gì để có được hình ảnh trả về".
Hệ thống mới mất nhiều thời gian hơn để tạo hình ảnh so với trước đây, mặc dù OpenAI cho rằng đây là một sự đánh đổi xứng đáng. Shannon cho biết "Mặc dù chúng tôi chắc chắn có chỗ để cải thiện độ trễ... nhưng chất lượng của những hình ảnh này, khả năng, kiến thức thế giới, thực sự bù đắp cho những giây phút chờ đợi thêm".
Khi được hỏi về các biện pháp bảo vệ — chỉ ra các deepfake khỏa thân khét tiếng của Taylor Swift được tạo ra bằng mô hình của Microsoft, khả năng Grok của xAI để tạo ra Kamala Harris với một khẩu súng và khả năng xóa hình mờ của Google Gemini — nhóm OpenAI nhấn mạnh rằng hệ thống bao gồm các biện pháp bảo vệ mạnh mẽ để ngăn chặn việc sử dụng sai mục đích. Shannon cho biết công cụ này ngăn chặn việc xóa hình mờ, chặn việc tạo ra các deepfake khiêu *** và từ chối các yêu cầu tạo CSAM.
Hệ thống tạo hình ảnh mới của OpenAI không bao gồm hình mờ trực quan hoặc các chỉ báo cho thấy hình ảnh được tạo bởi AI. Tuy nhiên, Shannon giải thích rằng "tất cả các hình ảnh do chúng tôi tạo ra sẽ bao gồm siêu dữ liệu C2PA tiêu chuẩn để đánh dấu hình ảnh là do OpenAI tạo ra" và công ty "sẽ có một số công cụ nội bộ để có thể tra cứu hình ảnh".
“Cuối cùng, không có hệ thống nào là hoàn hảo cho loại việc này, nhưng chúng tôi liên tục cải thiện các biện pháp bảo vệ của mình và chúng tôi coi đây là điểm khởi đầu”, Shannon nói thêm. “Một điều đúng về tất cả các hình ảnh được tạo ra từ ChatGPT là người dùng sở hữu chúng và được tự do sử dụng chúng trong phạm vi chính sách sử dụng của chúng tôi theo ý muốn của họ”.