Google vừa phát động cuộc cách mạng video AI siêu thực từ hình ảnh đến âm thanh

Hail the Judge · 16:29, Thứ 3

Google vừa ra mắt mô hình tạo video mới nhất Veo 3 có thể tạo clip dài 8 giây ở độ phân giải 720p, tích hợp âm thanh đồng bộ như hiệu ứng, nhạc nền, hội thoại – lần đầu tiên trong các công cụ AI của hãng. Kèm theo đó là công cụ làm phim AI trực tuyến Flow kết hợp Veo 3 với Imagen 4 (tạo hình ảnh) và Gemini (ngôn ngữ), giúp người dùng dễ dàng mô tả cảnh quay, quản lý nhân vật, bối cảnh, phong cách.

Cả hai hiện có sẵn cho người dùng Mỹ với gói Google AI Ultra giá 250 USD/tháng, đi kèm 12.500 credit (150 credit/video, tương đương 83 video hoặc khoảng 1,5 USD/video). Nhưng liệu Veo 3 có đáng giá?

Hoạt động như thế nào?

Veo 3 sử dụng công nghệ khuếch tán (diffusion) tương tự các mô hình tạo hình ảnh như Stable Diffusion hay Flux. Quá trình huấn luyện bắt đầu bằng việc thêm nhiễu dần vào video thật cho đến khi chỉ còn tĩnh, rồi huấn luyện mạng nơ-ron đảo ngược quá trình này, tái tạo video từ nhiễu. Khi tạo video, Veo 3 khởi đầu từ nhiễu ngẫu nhiên và prompt (mô tả văn bản hoặc hình ảnh), dần tinh chỉnh thành clip phù hợp. Theo TechCrunch, Google DeepMind không tiết lộ nguồn dữ liệu huấn luyện nhưng YouTube (thuộc Google) rất có thể là một nguồn, vì DeepMind từng xác nhận các mô hình như Veo “có thể” dùng nội dung YouTube.

Veo 3 là hệ thống gồm nhiều mô hình AI: mô hình ngôn ngữ lớn (LLM) phân tích prompt, mô hình khuếch tán video tạo hình ảnh động, mô hình tạo âm thanh thêm hiệu ứng, nhạc, hoặc hội thoại đồng bộ. Để ngăn lạm dụng, Google dùng công nghệ SynthID gắn dấu nước vô hình vào khung hình, bền vững qua nén hoặc chỉnh sửa, giúp nhận diện nội dung AI. Tuy nhiên, dấu nước này chưa đủ ngăn chặn hoàn toàn deepfake. Google cũng chặn các prompt vi phạm chính sách, như nội dung lãng mạn, bạo lực, hoặc đề cập đến thương hiệu, người nổi tiếng, sự kiện lịch sử nhạy cảm.

Vẫn còn chút sạn

Điểm đột phá của Veo 3 là khả năng tạo âm thanh đồng bộ, vượt xa các đối thủ như Sora (OpenAI), Runway hay Pika. Meta từng giới thiệu tính năng tương tự với Movie Gen tháng 10/2024 và DeepMind cũng thử nghiệm tạo nhạc nền AI từ tháng 6/2024, nhưng Veo 3 là mô hình đầu tiên tích hợp tất cả: hiệu ứng, nhạc và hội thoại. Thử nghiệm cho thấy Veo 3 tạo được âm thanh sống động như tiếng xe cộ, chim hót hay giọng nhân vật, nhưng vẫn có lỗi nhỏ: mì Ý kêu “rộp rộp” khi ăn, hoặc hội thoại đôi khi phát ra từ miệng sai nhân vật. Chữ phụ đề trong video cũng hay bị méo mó, do mô hình bắt chước phụ đề từ dữ liệu huấn luyện.

Flow là “trợ thủ” đắc lực, cho phép người dùng tạo clip điện ảnh mà không cần kỹ năng quay phim. Bạn chỉ cần mô tả cảnh, chọn nhân vật, bối cảnh, hoặc phong cách (như origami, tranh sơn dầu), và Flow sẽ kết hợp Veo 3, Imagen 4 và Gemini để hiện thực hóa. Theo CineD, Flow hợp tác với các đạo diễn như Darren Aronofsky cho thấy tiềm năng trong sản xuất chuyên nghiệp. Tuy nhiên, Flow đặt câu hỏi: khi AI làm hết, vai trò của nhà làm phim nằm đâu?

Giá cả

Gói AI Ultra (250 USD/tháng) hơi “chát” với người dùng cá nhân, nhưng hợp lý với nhà sáng tạo chuyên nghiệp, đặc biệt khi mỗi video chỉ tốn 1,5 USD. Theo Tubefilter, Veo 3 đang được các YouTuber và nhà làm phim ngắn sử dụng, như “Influenders” của The Dor Brothers, đạt hàng trăm ngàn lượt xem dù chỉ dùng Veo 3 với chỉnh sửa hậu kỳ. Tuy nhiên, Mashable cảnh báo Veo 3 có thể làm mờ ranh giới thật-giả, đòi hỏi người xem nâng cao kỹ năng nhận diện deepfake. SynthID và dấu nước hiển thị (trừ video Flow của Ultra) là nỗ lực của Google, nhưng chưa đủ, nhất là khi AI ngày càng tinh vi.

Có thể bạn quan tâm

Chủ đề hot

Có thể bạn quan tâm

Google vừa phát động cuộc cách mạng video AI siêu thực từ hình ảnh đến âm thanh

Hail the Judge

Ta chơi xong không trả tiền, vậy đâu có gọi là bán

Hail the Judge

Hoạt động như thế nào?

Vẫn còn chút sạn

Giá cả

"Bão" kiện tụng AI: Reddit "tố" kỳ lân AI Anthropic "trộm" dữ liệu huấn luyện Claude hơn 100.000 lần, đòi bồi thường tỷ đô!

ChatGPT "tiến hóa": Giờ đây có thể "đọc" Google Drive, Dropbox của bạn, tự động ghi chú cuộc họp với "record mode"

Anime đầu tiên sản xuất bằng AI ra mắt: có phải chỉ cần vài chục dòng prompt là làm được anime hay không?

OpenAI lập kỷ lục mới, ngày càng nhiều doanh nghiệp phụ thuộc vào chatGPT

AI "ngoan" và AI "hư": Vì sao Gemini, Grok tuân lệnh còn ChatGPT, Claude lại "phản chủ"?

Cậu bé 14 tuổi tạo ra ứng dụng AI mang tính cách mạng trong ngành y tế

ChatGPT "tiến hóa": Giờ đây có thể "đọc" Google Drive, Dropbox của bạn, tự động ghi chú cuộc họp với "record mode"

Ông Trump "ra đòn" mới: cấm nhập cảnh công dân 12 nước, hạn chế 7 nước khác, với lý do "bảo vệ người Mỹ"

Nhật Bản đồng loạt cấm quảng cáo "khâm diêu" trên các dịch vụ đọc truyện tranh

Trước giờ G sự kiện WWDC25: Apple "nhá hàng" bằng loạt ứng dụng và game thiết kế xuất sắc

Anime đầu tiên sản xuất bằng AI ra mắt: có phải chỉ cần vài chục dòng prompt là làm được anime hay không?

Vụ tai nạn chết người của Tesla cho thấy giới hạn của xe tự lái hoàn toàn

YouTube "khai tử" hỗ trợ loạt iPhone, iPad đời cũ: iPhone 6s, 7 Plus chính thức "hết cửa" cài bản mới!

Từ 1/6/2025, taxi phải lập hóa đơn điện tử ngay khi kết thúc chuyến đi

"Cú phế truất" 5 ngày của ông chủ ChatGPT sắp được dựng thành phim Hollywood, có hẳn "Spiderman" vào vai chính, hứa hẹn tuyệt đối điện ảnh!

Microsoft đang "bí mật" phát triển CorePC: "Lột xác" kiến trúc Windows sau 3 thập kỷ, mở đường cho smartphone Windows tái xuất?

Đánh giá nổi bật

Chủ đề hot

Có thể bạn quan tâm

Google vừa phát động cuộc cách mạng video AI siêu thực từ hình ảnh đến âm thanh

Ta chơi xong không trả tiền, vậy đâu có gọi là bán

Hoạt động như thế nào?​

Vẫn còn chút sạn​

Giá cả​

"Bão" kiện tụng AI: Reddit "tố" kỳ lân AI Anthropic "trộm" dữ liệu huấn luyện Claude hơn 100.000 lần, đòi bồi thường tỷ đô!

ChatGPT "tiến hóa": Giờ đây có thể "đọc" Google Drive, Dropbox của bạn, tự động ghi chú cuộc họp với "record mode"

Anime đầu tiên sản xuất bằng AI ra mắt: có phải chỉ cần vài chục dòng prompt là làm được anime hay không?

OpenAI lập kỷ lục mới, ngày càng nhiều doanh nghiệp phụ thuộc vào chatGPT

AI "ngoan" và AI "hư": Vì sao Gemini, Grok tuân lệnh còn ChatGPT, Claude lại "phản chủ"?

Cậu bé 14 tuổi tạo ra ứng dụng AI mang tính cách mạng trong ngành y tế

Hoạt động như thế nào?

Vẫn còn chút sạn

Giá cả