Derpy
Intern Writer
Nếu như trước đây các mô hình AI tạo video cạnh tranh về chất lượng hình ảnh và độ chân thực, thì cuộc đua hiện nay đang dần chuyển sang một tiêu chí mới: khả năng tương tác theo thời gian thực. Thay vì chỉ tạo một đoạn video hoàn chỉnh sau khi nhận lệnh, các mô hình mới hướng đến việc duy trì cuộc trò chuyện liên tục, phản hồi tức thì và điều khiển nhân vật AI như đang gọi video trực tiếp.
Tại Hội nghị Kinh tế Kỹ thuật số Toàn cầu 2026, Shengshu Technology đã giới thiệu Vidu S1, mô hình video AI thời gian thực do nhóm nghiên cứu của Giáo sư Zhu Jun phát triển. Điểm khác biệt của Vidu S1 là cho phép người dùng trò chuyện bằng giọng nói với nhân vật AI, đồng thời nhân vật có thể thay đổi biểu cảm, khẩu hình và hành động ngay trong quá trình đối thoại mà không cần tạo lại toàn bộ video.
Theo Shengshu, người dùng chỉ cần tải lên một hình ảnh để tạo nhân vật, thay vì phải trải qua quá trình huấn luyện hay mô hình hóa như trước. Hệ thống cũng hỗ trợ tùy chỉnh giọng nói và duy trì hình ảnh nhân vật trong suốt quá trình tương tác.
Về mặt kỹ thuật, Vidu S1 có thể tạo video ở độ phân giải 540P với tốc độ 25 khung hình/giây, tối đa 42 khung hình/giây, đồng thời hỗ trợ tạo nội dung liên tục trong thời gian dài. Mô hình sử dụng kiến trúc kết hợp giữa tự hồi quy và khuếch tán (AR + Diffusion), cho phép liên tục tạo từng khung hình mới dựa trên ngữ cảnh và các lệnh vừa nhận, thay vì phải dựng xong toàn bộ video trước khi phát.
Nhóm phát triển cho biết công nghệ này hướng tới các ứng dụng như trợ lý AI, nhân vật ảo, livestream tương tác, giáo dục, chăm sóc khách hàng và trò chơi. Đây cũng là xu hướng mà nhiều công ty AI đang theo đuổi, khi mục tiêu không còn chỉ là tạo video đẹp mà là xây dựng các nhân vật AI có thể giao tiếp và phản hồi gần như theo thời gian thực.
Sự xuất hiện của những mô hình như Vidu S1 cho thấy video AI đang bước sang một giai đoạn mới, nơi chất lượng hình ảnh vẫn quan trọng nhưng khả năng tương tác, phản hồi nhanh và duy trì hội thoại lâu dài sẽ trở thành yếu tố quyết định.
Tại Hội nghị Kinh tế Kỹ thuật số Toàn cầu 2026, Shengshu Technology đã giới thiệu Vidu S1, mô hình video AI thời gian thực do nhóm nghiên cứu của Giáo sư Zhu Jun phát triển. Điểm khác biệt của Vidu S1 là cho phép người dùng trò chuyện bằng giọng nói với nhân vật AI, đồng thời nhân vật có thể thay đổi biểu cảm, khẩu hình và hành động ngay trong quá trình đối thoại mà không cần tạo lại toàn bộ video.
Theo Shengshu, người dùng chỉ cần tải lên một hình ảnh để tạo nhân vật, thay vì phải trải qua quá trình huấn luyện hay mô hình hóa như trước. Hệ thống cũng hỗ trợ tùy chỉnh giọng nói và duy trì hình ảnh nhân vật trong suốt quá trình tương tác.
Về mặt kỹ thuật, Vidu S1 có thể tạo video ở độ phân giải 540P với tốc độ 25 khung hình/giây, tối đa 42 khung hình/giây, đồng thời hỗ trợ tạo nội dung liên tục trong thời gian dài. Mô hình sử dụng kiến trúc kết hợp giữa tự hồi quy và khuếch tán (AR + Diffusion), cho phép liên tục tạo từng khung hình mới dựa trên ngữ cảnh và các lệnh vừa nhận, thay vì phải dựng xong toàn bộ video trước khi phát.
Nhóm phát triển cho biết công nghệ này hướng tới các ứng dụng như trợ lý AI, nhân vật ảo, livestream tương tác, giáo dục, chăm sóc khách hàng và trò chơi. Đây cũng là xu hướng mà nhiều công ty AI đang theo đuổi, khi mục tiêu không còn chỉ là tạo video đẹp mà là xây dựng các nhân vật AI có thể giao tiếp và phản hồi gần như theo thời gian thực.
Sự xuất hiện của những mô hình như Vidu S1 cho thấy video AI đang bước sang một giai đoạn mới, nơi chất lượng hình ảnh vẫn quan trọng nhưng khả năng tương tác, phản hồi nhanh và duy trì hội thoại lâu dài sẽ trở thành yếu tố quyết định.