ChatGPT Images cập nhật: tăng tốc tạo ảnh gấp 4 lần, chất lượng xử lý tiệm cận mức sử dụng thực tế

Đoàn Thúy Hà
Đoàn Thúy Hà
Phản hồi: 0

Đoàn Thúy Hà

Editor
Thành viên BQT
Sáng ngày 17/12, theo giờ VN, OpenAI chính thức phát hành phiên bản mới của ChatGPT Images. Phiên bản này được hỗ trợ bởi mô hình tạo ảnh hàng đầu thế hệ mới nhất, GPT Image 1.5, và có sự nâng cấp toàn diện về quy trình làm việc xử lý ảnh "từ tạo ảnh đến chỉnh sửa".

Theo thông tin được OpenAI công bố, GPT Image 1.5 cho thấy sự cải thiện đáng kể trong việc duy trì tính nhất quán chi tiết so với phiên bản tiền nhiệm, đặc biệt là trong các tình huống phức tạp liên quan đến nhiều vòng chỉnh sửa, sửa đổi cục bộ và tính liên tục về phong cách, nơi nó hoạt động ổn định hơn. Đồng thời, tốc độ tạo ảnh của mô hình mới được tăng lên gấp bốn lần, chuyển đổi quá trình tạo ảnh từ phương pháp "chờ kết quả" sang phản hồi gần như thời gian thực.
1765938158625.png

Ở cấp độ sản phẩm, OpenAI cũng đã tái cấu trúc chức năng xử lý hình ảnh trong ChatGPT. Việc tạo và chỉnh sửa hình ảnh không còn chỉ là các chức năng bổ trợ trong cửa sổ thoại, mà đã có một điểm truy cập độc lập hơn, gần hơn với không gian sáng tạo dưới dạng ChatGPT Images. Người dùng có thể liên tục tạo và chỉnh sửa nhiều lần trong giao diện này, đồng thời quản lý và so sánh các kết quả được tạo ra một cách trực quan hơn.

Ngoài ra, GPT Image 1.5 đã được phát hành cho các nhà phát triển thông qua API. OpenAI cho biết mô hình mới có những cải tiến về bảo toàn yếu tố thương hiệu, tính ổn định cấu trúc hình ảnh và hiệu quả chi phí, với tổng chi phí đầu vào và đầu ra hình ảnh giảm khoảng 20% so với các phiên bản trước, tạo điều kiện thuận lợi cho việc ứng dụng quy mô lớn trong các kịch bản thương mại.

Mô hình mới đã bắt đầu được triển khai cho tất cả người dùng ChatGPT và đang được phát hành đồng thời thông qua API. Trải nghiệm người dùng GPT Image 1.5 trong ChatGPT hiện đang bao phủ hầu hết người dùng cá nhân, quyền truy cập cho người dùng doanh nghiệp và tổ chức sẽ được bổ sung trong các giai đoạn sau.

Tính nhất quán chỉnh sửa ổn định hơn: giảm thiểu vấn đề cũ là "thay đổi một thứ và làm hỏng toàn bộ".

1765938167883.png

Sử dụng các gợi ý để điều chỉnh trang phục của người trong ảnh.
Về khả năng chỉnh sửa hình ảnh, cải tiến đáng kể nhất trong GPT Image 1.5 không nằm ở bất kỳ tính năng cụ thể nào, mà là ở khả năng duy trì tính nhất quán trong nhiều quy trình chỉnh sửa khác nhau.

Một vấn đề tồn tại lâu nay trong các mô hình tạo ảnh trước đây là ngay cả khi mô hình có thể tạo ra kết quả chất lượng cao trong một lần tạo, thì trong các kịch bản chỉnh sửa liên tục, "các chỉnh sửa cục bộ thường dẫn đến sự sai lệch tổng thể." Chi tiết khuôn mặt, tỷ lệ bố cục, hướng ánh sáng, và thậm chí cả phong cách tổng thể có thể dần dần lệch khỏi trạng thái ban đầu sau nhiều vòng chỉnh sửa, khiến quá trình chỉnh sửa trở nên khó kiểm soát.

OpenAI cho biết GPT Image 1.5 đã được tối ưu hóa đặc biệt để giải quyết vấn đề này trong quá trình huấn luyện. Khi người dùng thực hiện các chỉnh sửa một phần đối với hình ảnh đã tải lên, mô hình mới có khả năng phân biệt chính xác hơn giữa "các phần cần thay đổi" và "các phần nên giữ nguyên", đồng thời hiển thị sự bảo toàn của các điểm neo hình ảnh quan trọng trong quá trình suy luận nội bộ.

Trong thực tế sử dụng, những thay đổi do cải tiến này mang lại là rất rõ ràng. Ngay cả trong nhiều vòng chỉnh sửa liên tục, mô hình vẫn có thể duy trì sự ổn định về ngoại hình, bố cục và điều kiện ánh sáng tổng thể của nhân vật, nhờ đó ngăn chặn chuỗi chỉnh sửa bị mất kiểm soát ở các giai đoạn sau.

Khả năng này giúp ChatGPT Images trở nên hữu ích hơn đáng kể trong các trường hợp sau:

- Chỉnh sửa ảnh chức năng (như bố cục, phông nền hoặc chỉnh sửa cục bộ)

- Trang phục, kiểu tóc và các yếu tố ngoại hình khác cần chú trọng và thể hiện.

- Sự cách điệu hóa hoặc tái cấu trúc ý tưởng mà không làm mất đi những đặc điểm chính.

Trong phần giải thích, OpenAI chỉ ra rằng thông qua những cải tiến này, ChatGPT Images đang dần phát triển từ một "công cụ tạo hình ảnh dùng một lần" thành một môi trường sáng tạo có thể tái sử dụng và chỉnh sửa bền vững. Sự thay đổi này cho thấy khả năng tạo hình ảnh đang bắt đầu được tích hợp thực sự vào quy trình sản xuất.

Nâng cao khả năng chỉnh sửa một cách có hệ thống, thay vì chỉ là tập hợp các tính năng rời rạc

1765938218697.png

Sử dụng lời nhắc để chuyển đổi hình ảnh sang kiểu áp phích.
1765938235979.png

So với phiên bản tiền nhiệm, GPT Image 1.5 hoạt động ổn định hơn trên nhiều tác vụ chỉnh sửa ảnh khác nhau và hỗ trợ nhiều thao tác, bao gồm thêm, xóa, kết hợp, hợp nhất và biến đổi.

OpenAI không quảng bá những khả năng này như những tính năng riêng lẻ, mà nhấn mạnh rằng tất cả chúng đều phục vụ một mục tiêu cốt lõi: bảo toàn các đặc điểm hình ảnh và logic cấu trúc ban đầu của một bức ảnh ở mức tối đa trong khi thực hiện các chỉnh sửa.

Cách tiếp cận có hệ thống này cho phép mô hình vượt ra khỏi việc chỉ đơn thuần "hoàn thành các hướng dẫn" khi đối mặt với các nhiệm vụ chỉnh sửa phức tạp, thay vào đó cố gắng duy trì sự cân bằng giữa phạm vi sửa đổi và tính nhất quán tổng thể. Đặc điểm này đặc biệt quan trọng đối với các quy trình sáng tạo đòi hỏi nhiều điều chỉnh và sự hội tụ dần dần của kết quả.

Trong các trường hợp như nhận diện thương hiệu, giới thiệu sản phẩm hoặc tiếp thị nội dung, hình ảnh thường cần duy trì tính nhất quán cao giữa nhiều phiên bản, chỉ với những khác biệt nhỏ. Hiệu suất ổn định của GPT Image 1.5 trong các nhiệm vụ này khiến nó trở nên gần gũi hơn với một "công cụ hữu dụng" hơn là chỉ một mô hình thử nghiệm để tạo cảm hứng.

Khả năng chuyển đổi sáng tạo được nâng cao giúp giảm sự phụ thuộc vào "các lời nhắc được thiết kế sẵn".

1765938258357.png

Trong các tình huống chuyển đổi sáng tạo, mô hình mới thể hiện khả năng nắm bắt các khái niệm trừu tượng và diễn đạt các ý tưởng cụ thể tốt hơn. Bằng cách thêm vào hoặc điều chỉnh các yếu tố (như văn bản, bố cục hoặc phong cách tổng thể), GPT Image 1.5 có thể chuyển đổi các ý tưởng sáng tạo tương đối mơ hồ thành hình ảnh trực quan rõ ràng, có cấu trúc và chi tiết.

OpenAI chỉ ra rằng mô hình mới ít phụ thuộc hơn vào độ phức tạp của các câu hỏi do người dùng đặt ra. Trước đây, để có được kết quả ổn định, người dùng thường phải liên tục điều chỉnh cấu trúc của các câu hỏi, hoặc thậm chí phải sử dụng các phương pháp mô tả được thiết kế phức tạp hơn. Tuy nhiên, trong GPT Image 1.5, người dùng có thể dựa nhiều hơn vào các mô tả bằng ngôn ngữ tự nhiên và nhanh chóng khám phá bằng cách sử dụng các kiểu thiết lập sẵn và các mẫu gợi ý.

Sự thay đổi này giúp giảm chi phí học tập trong việc tạo ảnh và làm cho mô hình phù hợp hơn để sử dụng trong các tình huống thiết kế không chuyên nghiệp, chẳng hạn như tạo nội dung, sản xuất tài liệu giáo dục hoặc tạo tài liệu tiếp thị đơn giản.

Cải tiến "bù đắp" cho việc tuân thủ hướng dẫn và khả năng hiển thị văn bản.

1765938286812.png

1765938294688.png

Sử dụng các gợi ý để thay đổi văn bản trong hình ảnh.
Về khả năng tuân thủ hướng dẫn, mô hình mới thể hiện sự ổn định được cải thiện trong việc hiểu nhiều ràng buộc và các tổ hợp phức tạp. Đặc biệt trong các bố cục gốc nhiều thành phần, các mối quan hệ logic giữa các thành phần ít có khả năng bị mất cân bằng do các sửa đổi cục bộ.

Trong khi đó, GPT Image 1.5 đã nâng cao hơn nữa khả năng hiển thị văn bản, cho phép hiển thị rõ nét hơn các văn bản dày đặc và nội dung có cỡ chữ nhỏ. Khả năng này đặc biệt quan trọng trong các trường hợp tạo hình ảnh liên quan đến đồ họa thông tin, thiết kế bố cục và lập trình.

OpenAI coi sự cải tiến này là một bước cần thiết để các mô hình xử lý hình ảnh trở nên "thực tiễn", chứ không chỉ đơn thuần là nâng cấp hiệu ứng hình ảnh.

Ra mắt không gian sáng tạo hình ảnh độc lập, nhấn mạnh hiệu quả và khả năng sáng tạo song song.

Ngoài việc tạo nội dung hội thoại, OpenAI cũng đã ra mắt mục tạo hình ảnh riêng biệt trong thanh bên ChatGPT để quản lý tập trung quá trình khám phá và tạo hình ảnh.

Không gian sáng tạo này không chỉ đơn thuần là sự tích hợp chức năng, mà được thiết kế dựa trên "thử nghiệm nhanh và khám phá song song", bao gồm nhiều bộ lọc cài sẵn, các gợi ý hướng dẫn phổ biến và các mẫu sáng tạo được cập nhật liên tục. Người dùng cũng có thể tải lên hình đại diện cá nhân của mình một lần để sử dụng cho các lần tạo tiếp theo, nhờ đó giảm chi phí chụp ảnh hoặc tải lên nhiều lần.

Kết hợp với tốc độ tạo ảnh tăng lên đến 4 lần, người dùng có thể tiếp tục gửi yêu cầu sáng tạo mới trong khi ảnh hiện có đang được tạo, giúp quá trình khám phá diễn ra liên tục và hiệu quả hơn.

Cải thiện chất lượng tổng thể: Từ "Trông ổn" đến "Ổn định và dễ sử dụng"

1765938331790.png

1765938340101.png

1765938346851.png

Chất lượng của các hình ảnh được tạo ra đã được cải thiện đáng kể.
Bên cạnh các khả năng cốt lõi, mô hình mới đã được cải thiện ở một số khía cạnh ảnh hưởng đến trải nghiệm thực tế của người dùng, bao gồm hình ảnh tổng thể tự nhiên hơn, khả năng hiển thị chính xác hơn nhiều khuôn mặt nhỏ và khả năng tái tạo chân thực hơn các cảnh phức tạp.

OpenAI cho biết họ đã kiểm tra lại một số ví dụ từ phiên bản tạo ảnh ban đầu và mô hình mới cho thấy sự cải thiện đáng kể trong hầu hết các trường hợp. Tuy nhiên, vẫn còn những hạn chế trong một số tác vụ phức tạp hoặc chuyên biệt.

Cách diễn đạt này cũng phản ánh sự thay đổi trong định vị của OpenAI về khả năng tạo ảnh: không còn theo đuổi "sự kinh ngạc tức thì", mà nhấn mạnh vào sự lặp lại liên tục và sự phát triển ổn định.

API GPT Image 1.5 phiên bản 07 chính thức được phát hành, đồng thời tối ưu hóa chi phí và hiệu quả.

GPT Image 1.5 hiện đã chính thức có sẵn thông qua API và vượt trội hơn đáng kể so với GPT Image 1 về tính nhất quán hình ảnh và độ ổn định khi chỉnh sửa.

Mô hình này hoạt động đặc biệt hiệu quả về tính nhất quán của nhận diện thương hiệu và các yếu tố hình ảnh cốt lõi, khiến nó phù hợp với các kịch bản như tiếp thị, thiết kế hình ảnh thương hiệu và tạo hình ảnh sản phẩm thương mại điện tử.

Đồng thời, so với mô hình thế hệ trước, GPT Image 1.5 giảm chi phí đầu vào và đầu ra hình ảnh khoảng 20%, cho phép các nhà phát triển tạo ra và chỉnh sửa nhiều nội dung hình ảnh hơn trong cùng một ngân sách.

Bắt đầu từ hôm nay, GPT Image 1.5 được triển khai cho người dùng ChatGPT và API trên toàn thế giới, hỗ trợ sử dụng đa mô hình mà không cần lựa chọn thủ công. Các phiên bản ChatGPT Images cũ hơn đã phát hành trước đó sẽ tiếp tục được cung cấp cho người dùng dưới dạng GPT tùy chỉnh.

OpenAI cho biết khả năng tạo ảnh vẫn đang được phát triển. Bản cập nhật này là một nâng cấp cơ bản hướng tới sự ổn định, khả năng tái sử dụng và khả năng phân phối, chứ không phải là bước cuối cùng. Trọng tâm trong tương lai sẽ tiếp tục là tinh chỉnh, tính nhất quán về mặt hình ảnh và hỗ trợ đa ngôn ngữ.

Từ văn bản đến trải nghiệm AI năng động hơn

1765938418753.png

Bên cạnh bản cập nhật kỹ thuật chính thức, Fidji Simo, Giám đốc điều hành mảng ứng dụng của OpenAI, cũng đã giải thích một cách có hệ thống về vị trí của việc nâng cấp khả năng xử lý hình ảnh này trong quá trình phát triển tổng thể của ChatGPT dưới dạng một bài viết về tầm nhìn sản phẩm.

Bài viết của Simo không tập trung vào các thông số cụ thể hoặc chi tiết mô hình, mà thảo luận về một vấn đề ở cấp độ cao hơn: ChatGPT đang chuyển từ "công cụ đối thoại tập trung vào văn bản " sang " giao diện tạo sinh tập trung vào nhiệm vụ và sáng tạo".

Cô ấy tin rằng việc nâng cấp khả năng xử lý hình ảnh không chỉ là một cải tiến chức năng đơn lẻ, mà còn là một bước quan trọng để OpenAI định hình lại tương tác giữa con người và máy tính, các quy trình sáng tạo và hình thức của các sản phẩm trí tuệ nhân tạo.

Sau đây là toàn văn bài viết của Simo có tựa đề "Từ văn bản đến trải nghiệm AI năng động hơn":

Tư duy của con người không chỉ giới hạn ở ngôn từ. Trên thực tế, một số ý tưởng hấp dẫn nhất của chúng ta thường bắt nguồn từ hình ảnh, âm thanh, hành động và các mô hình trong tâm trí. Để trí tuệ nhân tạo (AI) giúp chúng ta phát huy hết tiềm năng, nó cần giao tiếp theo cách phù hợp với cách chúng ta tiếp thu và xử lý thế giới một cách tự nhiên.

Trong vài tháng qua, tôi đã thảo luận về cách ChatGPT phát triển từ một sản phẩm thụ động, chỉ dựa trên văn bản, thành một sản phẩm trực quan hơn và dễ tiếp cận hơn với bất kỳ tác vụ nào mà người dùng muốn thực hiện. Sự chuyển đổi từ văn bản sang đa phương tiện và giao diện người dùng năng động là một phần quan trọng của quá trình chuyển đổi này, và tôi rất hào hứng với những tiến bộ mà chúng ta đang đạt được.
1765938442911.png

Trải nghiệm đầu tiên của nhiều người dùng với ChatGPT là chuyển đổi các lời nhắc văn bản thành hình ảnh. Đó là một cách kỳ diệu để thấy được khả năng của công nghệ này, nhưng giao diện trò chuyện ban đầu không được thiết kế cho mục đích đó. Việc tạo và chỉnh sửa hình ảnh là một loại nhiệm vụ khác; nó đòi hỏi một không gian được xây dựng đặc biệt cho hiệu ứng hình ảnh. Hôm nay, chúng tôi ra mắt mô hình tạo hình ảnh mới và điểm truy cập ChatGPT chuyên dụng cho hình ảnh, hoạt động giống như một studio sáng tạo. Màn hình xem và chỉnh sửa hình ảnh mới giúp người dùng dễ dàng tạo ra những hình ảnh phù hợp với tầm nhìn của họ hoặc lấy cảm hứng từ các lời nhắc phổ biến và bộ lọc cài đặt sẵn. Quan trọng nhất, mô hình mới của chúng tôi nhanh hơn và tốt hơn trong việc tuân theo các hướng dẫn chi tiết, cho phép người dùng đạt được khả năng chỉnh sửa và chuyển đổi sáng tạo chính xác hơn. Nó duy trì tính nhất quán giữa đầu vào và đầu ra trong các yếu tố chính như ánh sáng, bố cục và độ tương đồng, dẫn đến kết quả gần giống với tầm nhìn của người dùng hơn.
1765938464169.png

Nhiều trường hợp sử dụng khác cũng có thể hưởng lợi từ giao diện vượt ra ngoài phạm vi văn bản. Ví dụ, khi người dùng nghiên cứu sản phẩm hoặc nhà hàng, họ không chỉ muốn một báo cáo mô tả các lựa chọn; họ muốn xem ảnh và thông số kỹ thuật so sánh để giúp họ đưa ra quyết định. Khi người dùng tìm hiểu về một chủ đề mới, họ muốn có thể khám phá sâu hơn mà không bị mất vị trí trong cuộc thảo luận. Chúng tôi đang cải thiện các câu trả lời để giới thiệu nhiều hình ảnh hơn với nguồn rõ ràng và bổ sung các cách mới để truy cập nội dung bổ sung. Trong tương lai gần, các câu trả lời sẽ bắt đầu làm nổi bật những người, địa điểm và sản phẩm quan trọng, người dùng có thể nhấp vào đó để truy cập ngay lập tức thông tin chi tiết hơn mà không cần phải đặt câu hỏi tiếp theo. Người dùng sẽ có thể làm nổi bật bất kỳ từ hoặc cụm từ nào trong câu trả lời, và ChatGPT sẽ cung cấp cho người dùng thông tin phù hợp hơn.
1765938469590.png

Triết lý tương tự cũng áp dụng cho các công việc thường ngày khác. Đối với những việc như chuyển đổi đơn vị đo lường hoặc xem kết quả thể thao, người dùng cần một câu trả lời nhanh chóng, trực quan mà họ có thể nắm bắt ngay lập tức. (Điều này sẽ rất tuyệt vời cho chồng tôi, người thường xuyên làm cả hai việc này trong bếp.) Chúng tôi đang triển khai nhiều tiện ích này trong ChatGPT và sẽ tiếp tục bổ sung thêm trong tương lai.
1765938500351.png

Chúng tôi cũng đang hoàn thiện trải nghiệm viết trong ChatGPT. Mặc dù việc viết chủ yếu dựa trên văn bản, nhưng các yếu tố thiết kế quan trọng có thể cải thiện trải nghiệm. Phiên bản đầu tiên của khung viết được người dùng đánh giá cao, nhưng nó lại làm gián đoạn mạch hội thoại. Chúng tôi đang nỗ lực tích hợp khối viết vào cuộc trò chuyện để người dùng có thể chỉnh sửa trực tiếp hoặc chuyển sang chế độ toàn màn hình khi cần. Người dùng cũng sẽ bắt đầu thấy nhiều tùy chọn hơn dựa trên những gì họ đã viết, vì vậy khi người dùng soạn thảo báo cáo, chúng tôi sẽ giúp họ dễ dàng tải xuống tài liệu PDF hoặc Word. Nếu người dùng cần trợ giúp qua email hoặc tin nhắn văn bản, chúng tôi sẽ giúp họ dễ dàng mở phiên bản cuối cùng trong email hoặc ứng dụng nhắn tin của mình.

Các ứng dụng trong ChatGPT là một cách khác mà chúng tôi mang đến những trải nghiệm tương tác phong phú vào các cuộc trò chuyện của người dùng, cho phép họ giới thiệu các công cụ phù hợp và thực sự hành động. Đầu năm nay, chúng tôi đã ra mắt các ứng dụng từ các đối tác như Booking.com, Canva, Coursera, Expedia, Figma, Spotify và Zillow. Sắp tới, sẽ có thêm nhiều ứng dụng trong danh mục mới, bao gồm các ứng dụng từ Adobe, Airtable, Clay, Lovable, OpenTable, Replit và Salesforce, và các nhà phát triển khác cũng có thể gửi ứng dụng của họ để được xem xét. Chúng tôi biết rằng chúng tôi không thể tự xây dựng mọi thứ, và ChatGPT thậm chí còn hữu ích hơn khi nó có thể kết nối với các dịch vụ mà người dùng đã sử dụng và cung cấp các công cụ phù hợp vào những thời điểm quan trọng.

Trong tất cả những lĩnh vực này, và cả những lĩnh vực sắp tới, thật thú vị khi thấy ChatGPT chuyển từ giao diện người dùng chủ yếu dựa trên văn bản và hội thoại sang giao diện người dùng hoàn toàn có khả năng tạo nội dung, tự động giới thiệu các thành phần phù hợp dựa trên những gì người dùng muốn thực hiện. Người dùng nên có thể nhìn thấy và định hình những gì họ đang tạo ra ngay trong quá trình tạo. ChatGPT nên bao gồm hình ảnh khi chúng kể câu chuyện tốt hơn văn bản thuần túy. Nó nên có mặt khi người dùng cần câu trả lời nhanh hoặc bước tiếp theo trong một công cụ khác. Bằng cách này, chúng ta có thể tiếp tục thu hẹp khoảng cách giữa những ý tưởng trong tâm trí người dùng và khả năng hiện thực hóa những ý tưởng đó. #ChatGPTImages
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
http://textlink.linktop.vn/?adslk=aHR0cHM6Ly92bnJldmlldy52bi90aHJlYWRzL2NoYXRncHQtaW1hZ2VzLWNhcC1uaGF0LXRhbmctdG9jLXRhby1hbmgtZ2FwLTQtbGFuLWNoYXQtbHVvbmcteHUtbHktdGllbS1jYW4tbXVjLXN1LWR1bmctdGh1Yy10ZS43NTg0Ni8=
Top