Microsoft bất ngờ trình làng AI VASA-1 “cực bá”, biến Mona Lisa thành rapper “xịn xò”, bắn rap như máy khâu

VNR Content +Theo dõi

Thread starter VNR Content
Ngày gửi 20/04/2024

Microsoft vừa bất ngờ công bố công cụ AI mới mang tên tên VASA-1, có thể tạo ra các video chân thực chỉ dựa trên một hình ảnh tĩnh duy nhất và một đoạn âm thanh giọng nói. Kết quả rất ấn tượng và đánh bại tất cả các công cụ sử dụng trí tuệ nhân tạo (AI) tổng hợp trước đây để tạo ra các tác phẩm cực kì ảo diệu.

Microsoft bất ngờ trình làng AI VASA-1 “cực bá”, biến Mona Lisa thành rapper “xịn xò”, bắn rap như máy khâu

Điều đặc biệt thú vị ở VASA-1 là khả năng mô phỏng tổng thể các nét mặt tự nhiên, nhiều cảm xúc và khả năng hát nhép thuần thục.

Các nhà nghiên cứu thừa nhận rằng người mẫu trong nghiên cứu của họ vẫn gặp khó khăn với các yếu tố cứng nhắc, chẳng hạn như tóc. Tuy nhiên, đó cũng là cách để giúp mọi người chú ý hơn khi cần phát hiện video giả mạo.

Đại diện Microsoft cho biết, VASA-1 tạo ra các khung hình video kích thước 512 x 512 ở tốc độ 45 khung hình/giây khi xử lý ngoại tuyến và lên đến 40 khung hình/giây khi phát ngoại tuyến với độ trễ chỉ 170 ms. Kết quả này được đánh giá trên PC có GPU NVIDIA RTX 4090.

Công cụ dựa trên mô hình mới rất dễ sử dụng và thậm chí còn cung cấp khả năng kiểm soát “tín hiệu tùy chọn theo điều kiện”, nghĩa là người dùng có thể đặt hướng nhìn của mắt chính, khoảng cách đầu và bù đắp cảm xúc. Hơn nữa, VASA-1 cũng xử lý các đầu vào phi thực tế, chẳng hạn như nghệ thuật. Vì vậy, nó có thể làm cho những bức tranh trở nên sống động.

VASA-1 có thể làm cho khuôn mặt trong các bức ảnh hát, đọc rap hoặc nói chuyện bằng các ngôn ngữ khác ngoài tiếng Anh. Là một trong những ví dụ, Microsoft đã trình bày một đoạn clip vui nhộn về màn rap điên cuồng của Mona Lisa như trong video phía dưới.

Điều quan trọng là phải nhấn mạnh tác hại tiềm tàng mà công nghệ như vậy có thể gây ra khi được sử dụng để tạo ra nội dung bắt chước người thật. Tin vui là các nhà nghiên cứu của Microsoft đã nhận thức được rủi ro, vì vậy công ty không có kế hoạch phát hành bản demo công khai, API, sản phẩm, chi tiết triển khai bổ sung hoặc bất kỳ dịch vụ liên quan nào cho đến khi họ chắc chắn rằng công nghệ này sẽ được sử dụng một cách có trách nhiệm và tuân thủ các quy định phù hợp.

Microsoft thừa nhận khả năng sử dụng sai mục đích của VASA-1 có thể xảy ra, tuy nhiên công cụ này có thể tạo ra những lợi ích tiềm năng, từ việc nâng cao tính công bằng trong giáo dục, cải thiện khả năng tiếp cận cho những cá nhân gặp khó khăn trong giao tiếp và cung cấp sự đồng hành hoặc hỗ trợ trị liệu cho những người có nhu cầu.

Tháng 3 vừa qua, Alibaba cũng công bố mô hình AI mang tên EMO với khả năng biến ảnh tĩnh thành biết hát, biết rap như ca sĩ chuyên nghiệp. EMO giúp cho phép nhân vật nói và hát, thể hiện các biểu cảm khuôn mặt chân thực và khả năng đồng bộ môi chính xác – ngay cả khi đó là một nhân vật ảo không có thật như cô gái trong clip giới thiệu Sora của OpenAI.

Điều đáng nói là đối thủ của Microsoft là OpenAI cũng phải đối mặt với tình thế khó xử tương tự. Mới gần đây, OpenAI đã trình bày một mô hình AI mạnh mẽ mang tên Sora để nhân bản giọng nói, nhưng cuối cùng đã chọn không công khai nó. Công ty tuyên bố rằng việc phát hành rộng rãi công nghệ này phải đi đôi với các chính sách và biện pháp đối phó để ngăn chặn việc sử dụng sai mục đích.

>> Ngỡ ngàng với AI mới của Alibaba khi có thể biến ảnh tĩnh thành biết hát, biết rap như ca sĩ chuyên nghiệp

Thành viên mới đăng