Ngỡ ngàng với AI mới của Alibaba khi có thể biến ảnh tĩnh thành biết hát, biết rap như ca sĩ chuyên nghiệp

dadieu008 · 13/03/2024

Khi giới công nghệ còn chưa hết bất ngờ về khả năng của AI tạo sinh như biến văn bản thành video với Sora AI thì mới đây một hãng công nghệ lớn của Trung Quốc là Alibaba đã tung ra một AI mới còn biến luôn ảnh tĩnh thành biết nói, biết hát.
Chỉ bằng một bức ảnh, cô gái trong clip giới thiệu Sora đã hóa thân thành ca sĩ Dua Lipa
Công cụ tạo video AI này có tên EMO, viết tắt của Emotive Portrait Alive, đại diện cho một bước tiến đột phá trong lĩnh vực này, được thiết kế để giúp vượt mặt Sora của OpenAI. Trong khi Sora xuất sắc trong việc tạo ra các cảnh quan và phong cảnh ngoạn mục, các nhân vật của nó thường im lặng và bất động. Ngược lại, EMO giúp cho phép nhân vật nói và hát, thể hiện các biểu cảm khuôn mặt chân thực và khả năng đồng bộ môi chính xác – ngay cả khi đó là một nhân vật ảo không có thật như cô gái trong clip giới thiệu Sora của OpenAI.
Dù trong clip của Sora, cô gái chỉ đang đi dạo quanh Tokyo và không hề có chuyển động môi, nhưng cô vẫn có thể hát và nhảy tương tự như ca sĩ Dua Lipa trong bài hát "Don't Start Now".
Một demo khác cho thấy cách EMO có thể khiến nữ diễn viên danh tiếng Audrey Hepburn nhái lại bài hát của Ed Sheeran, không chỉ cả phần âm thanh mà còn cả biểu cảm gương mặt.
Không chỉ có thể nhái lại biểu cảm gương mặt mà ngay cả các chuyển động môi phức tạp như trong một bài rap của Eminem cũng được Leonardo DiCaprio bắt chước giống hệt như thật.
Thậm chí ngay cả biểu cảm của diễn viên Heath Ledger trong vai Joker năm 2008 cũng được tái hiện trên gương mặt của diễn viên Joaquin Phoenix – người cũng đóng vai Joker trong bộ phim cùng tên năm 2019.
Nếu như kỹ thuật deepfake xuất hiện vài năm trước chỉ đơn thuần là việc hoán đổi gương mặt bằng AI nhưng không tái hiện được biểu cảm gương mặt cũng như phải cần đến các clip cho trước, thì EMO chỉ cần một hình ảnh tĩnh duy nhất. Không chỉ tiếng Anh, mô hình AI này có thể tạo ra nhân vật với các ngôn ngữ, giọng điệu khác nhau như tiếng Hàn.
Được nghiên cứu bởi Viện Điện toán Thông minh (IIC) của Alibaba với các tác giả LinRui Tian, Qi Wang, Bang Zhang và LieFeng Bo, EMO có khả năng "tạo biểu cảm kèm âm thanh từ nhân vật trong ảnh". Nói cách khác, AI có thể biến một hình ảnh tham chiếu tĩnh và âm thanh giọng nói thành một video có thể nói, hát với biểu cảm tự nhiên.
So với các AI trước đây chỉ làm biến đổi miệng và một phần khuôn mặt, EMO có thể tạo nét mặt, tư thế, di chuyển phần lông mày, nhíu mắt hay thậm chí lắc lư theo điệu nhạc. Đặc biệt, phần miệng được AI thể hiện tự nhiên, đồng bộ môi chính xác.
Trong một số video do Alibaba công bố, hình ảnh sẽ biến thành video và hát các bài được nhập vào nhanh chóng. Bên cạnh tiếng Anh và tiếng Trung, EMO cũng hỗ trợ nhiều ngôn ngữ khác. Alibaba cho biết đã huấn luyện AI với một lượng lớn dữ liệu về hình ảnh, âm thanh và video nhằm tạo biểu cảm khuôn mặt một cách chân thực thông qua mô hình khuếch tán riêng có tên Audio2Video.
"Chúng tôi muốn giải quyết thách thức lớn hiện nay là tính chân thực và tính biểu cảm trong việc tạo video từ hình ảnh và âm thanh bằng cách tập trung vào mối liên hệ cũng như sắc thái giữa tín hiệu âm thanh và chuyển động trên khuôn mặt", đại diện nhóm giải thích. "Phương pháp được áp dụng là tổng hợp, bỏ qua liên kết mô hình 3D trung gian hoặc các điểm mốc trên khuôn mặt, chuyển tiếp khung hình liền mạch và bảo toàn tính nhất quán trong video, mang lại ảnh động có tính biểu cảm cao và sống động như thật".
Hiện dữ liệu của EMO đã được công bố trên Github, còn các tài liệu nghiên cứu được đăng trên ArXiv. Alibaba chưa tiết lộ khi nào sẽ phát hành đại trà AI này.
>> Ngỡ ngàng với loạt video AI tạo bằng văn bản từ công cụ Sora do OpenAI vừa công bố, giới làm phim, làm TVC lo dần đi là vừa

Có thể bạn quan tâm

Chủ đề hot

Có thể bạn quan tâm

Ngỡ ngàng với AI mới của Alibaba khi có thể biến ảnh tĩnh thành biết hát, biết rap như ca sĩ chuyên nghiệp

dadieu008

Writer

dadieu008

Điều gì khiến trình duyệt AI có thể biến thành “kẻ nội gián” ngay trên máy tính của bạn?

Tại sao OpenAI lại chi tới 600 tỷ đô chỉ để “thuê đám mây”?

Chiến lược tự phát triển AI thất bại, Apple giờ phải "cầu cứu" Google Gemini

Trung Quốc vừa phanh phui vụ lừa đảo quảng cáo sai sự thật bằng AI

Một loại vật liệu bán mới dẫn giúp động cơ máy bay điện nhẹ và nhỏ gọn

Sự hoang mang và áp lực trong ngành công nghệ AI đằng sau thuật ngữ Agent

Lừa đảo mạo danh ngân hàng bùng nổ, rủi ro cao cho người dùng

1.330 tên miền giả mạo nhắm vào các thương hiệu xa xỉ Gucci, Chanel, Prada

Cảnh báo: Mã độc giả mạo Telegram X chiếm toàn bộ điện thoại và thiết bị của bạn

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

Synology củng cố bảo mật sản phẩm cùng cộng đồng nghiên cứu toàn cầu tại sự kiện Pwn2Own Ireland 2025

Lộ diện đối thủ đáng gờm của pin lithium-ion, Trung Quốc lại vượt mặt Nhật Bản

Đánh giá nổi bật