OpenAI ra mắt khả năng tạo hình ảnh tích hợp trong GPT-4o khiến người dùng kinh ngạc

Sóng AI
Sóng AI
Phản hồi: 0

Sóng AI

Writer
J2wUABERjGryxfmzjT3K.webp


  • OpenAI vừa kích hoạt khả năng tạo hình ảnh tích hợp sẵn trong GPT-4o cho người dùng ChatGPT ở các gói Plus, Pro, Team và Free, sắp tới sẽ mở rộng cho Enterprise, Edu và thông qua API.


  • Khác với DALL-E 3 (mô hình biến đổi khuếch tán tái tạo hình ảnh từ văn bản bằng cách loại bỏ nhiễu pixel), công nghệ mới này là một phần của cùng mô hình tạo văn bản và mã, được huấn luyện để hiểu đồng thời nhiều loại phương tiện.


  • Greg Brockman, chủ tịch OpenAI, đã giới thiệu khả năng này từ tháng 5/2024 nhưng công ty giữ lại cho đến nay, sau khi Google AI Studio phát hành tính năng tương tự với mô hình Gemini 2 Flash Experimental.


  • Công nghệ mới tạo ra hình ảnh chân thực hơn với văn bản tích hợp chính xác, đã gây ấn tượng mạnh với người dùng, một số gọi chất lượng là "không thể tin nổi".


  • OpenAI vẫn chưa công bố chính xác dữ liệu huấn luyện cho khả năng tạo hình ảnh của GPT-4o, có khả năng bao gồm nhiều tác phẩm nghệ thuật từ web, một số có thể được bảo vệ bản quyền.


  • GPT-4o tích hợp vào Sora, nền tảng tạo video của OpenAI, mở rộng thêm khả năng đa phương thức.


  • Mô hình mới có thể hiển thị chính xác văn bản trong hình ảnh, thực hiện các yêu cầu phức tạp, duy trì nhất quán qua nhiều tương tác, và hỗ trợ nhiều phong cách nghệ thuật.


  • Người dùng có thể mô tả hình ảnh trong ChatGPT, chỉ định chi tiết như tỷ lệ khung hình, bảng màu, hoặc độ trong suốt, và GPT-4o sẽ tạo ra trong vòng một phút.


  • Các ứng dụng chính bao gồm: thiết kế và xây dựng thương hiệu, giáo dục và trực quan hóa, phát triển trò chơi, tiếp thị và tạo nội dung.


  • GPT-4o cải thiện so với các mô hình trước đây với: tích hợp văn bản tốt hơn, hiểu ngữ cảnh nâng cao, cải thiện liên kết đa đối tượng, và thích ứng phong cách đa dạng.


  • Mô hình vẫn có một số hạn chế: vấn đề cắt xén, độ chính xác văn bản trong các ký tự không phải Latin, giữ chi tiết trong văn bản nhỏ, và độ chính xác khi chỉnh sửa.


  • Tất cả hình ảnh do GPT-4o tạo ra đều bao gồm siêu dữ liệu C2PA, cho phép người dùng xác minh nguồn gốc AI của chúng.


  • OpenAI đã xây dựng công cụ tìm kiếm nội bộ để phát hiện hình ảnh do AI tạo ra và có các biện pháp bảo vệ nghiêm ngặt để chặn nội dung có hại.


  • CEO Sam Altman mô tả bản phát hành này là "dấu mốc mới cho tự do sáng tạo", nhấn mạnh rằng người dùng sẽ có thể tạo ra nhiều loại hình ảnh, với OpenAI quan sát và tinh chỉnh cách tiếp cận dựa trên việc sử dụng thực tế.

📌 OpenAI đã tích hợp khả năng tạo hình ảnh vào GPT-4o cho người dùng ChatGPT, mang đến chất lượng chân thực vượt trội so với DALL-E 3. Công nghệ mới cải thiện việc hiển thị văn bản trong hình ảnh, hiểu ngữ cảnh và liên kết đa đối tượng, đồng thời áp dụng các biện pháp an toàn với siêu dữ liệu C2PA.

Nguồn: Songai.vn
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Top