Hail the Judge
Ta chơi xong không trả tiền, vậy đâu có gọi là bán
Google vừa ra mắt mô hình tạo video mới nhất Veo 3 có thể tạo clip dài 8 giây ở độ phân giải 720p, tích hợp âm thanh đồng bộ như hiệu ứng, nhạc nền, hội thoại – lần đầu tiên trong các công cụ AI của hãng. Kèm theo đó là công cụ làm phim AI trực tuyến Flow kết hợp Veo 3 với Imagen 4 (tạo hình ảnh) và Gemini (ngôn ngữ), giúp người dùng dễ dàng mô tả cảnh quay, quản lý nhân vật, bối cảnh, phong cách.
Cả hai hiện có sẵn cho người dùng Mỹ với gói Google AI Ultra giá 250 USD/tháng, đi kèm 12.500 credit (150 credit/video, tương đương 83 video hoặc khoảng 1,5 USD/video). Nhưng liệu Veo 3 có đáng giá?
Veo 3 sử dụng công nghệ khuếch tán (diffusion) tương tự các mô hình tạo hình ảnh như Stable Diffusion hay Flux. Quá trình huấn luyện bắt đầu bằng việc thêm nhiễu dần vào video thật cho đến khi chỉ còn tĩnh, rồi huấn luyện mạng nơ-ron đảo ngược quá trình này, tái tạo video từ nhiễu. Khi tạo video, Veo 3 khởi đầu từ nhiễu ngẫu nhiên và prompt (mô tả văn bản hoặc hình ảnh), dần tinh chỉnh thành clip phù hợp. Theo TechCrunch, Google DeepMind không tiết lộ nguồn dữ liệu huấn luyện nhưng YouTube (thuộc Google) rất có thể là một nguồn, vì DeepMind từng xác nhận các mô hình như Veo “có thể” dùng nội dung YouTube.
Veo 3 là hệ thống gồm nhiều mô hình AI: mô hình ngôn ngữ lớn (LLM) phân tích prompt, mô hình khuếch tán video tạo hình ảnh động, mô hình tạo âm thanh thêm hiệu ứng, nhạc, hoặc hội thoại đồng bộ. Để ngăn lạm dụng, Google dùng công nghệ SynthID gắn dấu nước vô hình vào khung hình, bền vững qua nén hoặc chỉnh sửa, giúp nhận diện nội dung AI. Tuy nhiên, dấu nước này chưa đủ ngăn chặn hoàn toàn deepfake. Google cũng chặn các prompt vi phạm chính sách, như nội dung lãng mạn, bạo lực, hoặc đề cập đến thương hiệu, người nổi tiếng, sự kiện lịch sử nhạy cảm.
Điểm đột phá của Veo 3 là khả năng tạo âm thanh đồng bộ, vượt xa các đối thủ như Sora (OpenAI), Runway hay Pika. Meta từng giới thiệu tính năng tương tự với Movie Gen tháng 10/2024 và DeepMind cũng thử nghiệm tạo nhạc nền AI từ tháng 6/2024, nhưng Veo 3 là mô hình đầu tiên tích hợp tất cả: hiệu ứng, nhạc và hội thoại. Thử nghiệm cho thấy Veo 3 tạo được âm thanh sống động như tiếng xe cộ, chim hót hay giọng nhân vật, nhưng vẫn có lỗi nhỏ: mì Ý kêu “rộp rộp” khi ăn, hoặc hội thoại đôi khi phát ra từ miệng sai nhân vật. Chữ phụ đề trong video cũng hay bị méo mó, do mô hình bắt chước phụ đề từ dữ liệu huấn luyện.
Flow là “trợ thủ” đắc lực, cho phép người dùng tạo clip điện ảnh mà không cần kỹ năng quay phim. Bạn chỉ cần mô tả cảnh, chọn nhân vật, bối cảnh, hoặc phong cách (như origami, tranh sơn dầu), và Flow sẽ kết hợp Veo 3, Imagen 4 và Gemini để hiện thực hóa. Theo CineD, Flow hợp tác với các đạo diễn như Darren Aronofsky cho thấy tiềm năng trong sản xuất chuyên nghiệp. Tuy nhiên, Flow đặt câu hỏi: khi AI làm hết, vai trò của nhà làm phim nằm đâu?
Gói AI Ultra (250 USD/tháng) hơi “chát” với người dùng cá nhân, nhưng hợp lý với nhà sáng tạo chuyên nghiệp, đặc biệt khi mỗi video chỉ tốn 1,5 USD. Theo Tubefilter, Veo 3 đang được các YouTuber và nhà làm phim ngắn sử dụng, như “Influenders” của The Dor Brothers, đạt hàng trăm ngàn lượt xem dù chỉ dùng Veo 3 với chỉnh sửa hậu kỳ. Tuy nhiên, Mashable cảnh báo Veo 3 có thể làm mờ ranh giới thật-giả, đòi hỏi người xem nâng cao kỹ năng nhận diện deepfake. SynthID và dấu nước hiển thị (trừ video Flow của Ultra) là nỗ lực của Google, nhưng chưa đủ, nhất là khi AI ngày càng tinh vi.
Cả hai hiện có sẵn cho người dùng Mỹ với gói Google AI Ultra giá 250 USD/tháng, đi kèm 12.500 credit (150 credit/video, tương đương 83 video hoặc khoảng 1,5 USD/video). Nhưng liệu Veo 3 có đáng giá?
Hoạt động như thế nào?
Veo 3 sử dụng công nghệ khuếch tán (diffusion) tương tự các mô hình tạo hình ảnh như Stable Diffusion hay Flux. Quá trình huấn luyện bắt đầu bằng việc thêm nhiễu dần vào video thật cho đến khi chỉ còn tĩnh, rồi huấn luyện mạng nơ-ron đảo ngược quá trình này, tái tạo video từ nhiễu. Khi tạo video, Veo 3 khởi đầu từ nhiễu ngẫu nhiên và prompt (mô tả văn bản hoặc hình ảnh), dần tinh chỉnh thành clip phù hợp. Theo TechCrunch, Google DeepMind không tiết lộ nguồn dữ liệu huấn luyện nhưng YouTube (thuộc Google) rất có thể là một nguồn, vì DeepMind từng xác nhận các mô hình như Veo “có thể” dùng nội dung YouTube.

Veo 3 là hệ thống gồm nhiều mô hình AI: mô hình ngôn ngữ lớn (LLM) phân tích prompt, mô hình khuếch tán video tạo hình ảnh động, mô hình tạo âm thanh thêm hiệu ứng, nhạc, hoặc hội thoại đồng bộ. Để ngăn lạm dụng, Google dùng công nghệ SynthID gắn dấu nước vô hình vào khung hình, bền vững qua nén hoặc chỉnh sửa, giúp nhận diện nội dung AI. Tuy nhiên, dấu nước này chưa đủ ngăn chặn hoàn toàn deepfake. Google cũng chặn các prompt vi phạm chính sách, như nội dung lãng mạn, bạo lực, hoặc đề cập đến thương hiệu, người nổi tiếng, sự kiện lịch sử nhạy cảm.
Vẫn còn chút sạn
Điểm đột phá của Veo 3 là khả năng tạo âm thanh đồng bộ, vượt xa các đối thủ như Sora (OpenAI), Runway hay Pika. Meta từng giới thiệu tính năng tương tự với Movie Gen tháng 10/2024 và DeepMind cũng thử nghiệm tạo nhạc nền AI từ tháng 6/2024, nhưng Veo 3 là mô hình đầu tiên tích hợp tất cả: hiệu ứng, nhạc và hội thoại. Thử nghiệm cho thấy Veo 3 tạo được âm thanh sống động như tiếng xe cộ, chim hót hay giọng nhân vật, nhưng vẫn có lỗi nhỏ: mì Ý kêu “rộp rộp” khi ăn, hoặc hội thoại đôi khi phát ra từ miệng sai nhân vật. Chữ phụ đề trong video cũng hay bị méo mó, do mô hình bắt chước phụ đề từ dữ liệu huấn luyện.

Flow là “trợ thủ” đắc lực, cho phép người dùng tạo clip điện ảnh mà không cần kỹ năng quay phim. Bạn chỉ cần mô tả cảnh, chọn nhân vật, bối cảnh, hoặc phong cách (như origami, tranh sơn dầu), và Flow sẽ kết hợp Veo 3, Imagen 4 và Gemini để hiện thực hóa. Theo CineD, Flow hợp tác với các đạo diễn như Darren Aronofsky cho thấy tiềm năng trong sản xuất chuyên nghiệp. Tuy nhiên, Flow đặt câu hỏi: khi AI làm hết, vai trò của nhà làm phim nằm đâu?
Giá cả
Gói AI Ultra (250 USD/tháng) hơi “chát” với người dùng cá nhân, nhưng hợp lý với nhà sáng tạo chuyên nghiệp, đặc biệt khi mỗi video chỉ tốn 1,5 USD. Theo Tubefilter, Veo 3 đang được các YouTuber và nhà làm phim ngắn sử dụng, như “Influenders” của The Dor Brothers, đạt hàng trăm ngàn lượt xem dù chỉ dùng Veo 3 với chỉnh sửa hậu kỳ. Tuy nhiên, Mashable cảnh báo Veo 3 có thể làm mờ ranh giới thật-giả, đòi hỏi người xem nâng cao kỹ năng nhận diện deepfake. SynthID và dấu nước hiển thị (trừ video Flow của Ultra) là nỗ lực của Google, nhưng chưa đủ, nhất là khi AI ngày càng tinh vi.