AI của Meta giúp tăng khả năng nén âm thanh tối ưu gấp 10 lần so với MP3

hunglx112 · 19/03/2022

Tuần trước, Meta đã công bố một phương pháp nén âm thanh được hỗ trợ bởi AI được gọi là "EnCodec", có khả năng nén âm thanh nhỏ hơn 10 lần so với định dạng MP3 ở tốc độ 64kbps mà không làm giảm chất lượng. Meta cho biết kỹ thuật này có thể cải thiện đáng kể chất lượng âm thanh của giọng nói trên các kết nối băng thông thấp, chẳng hạn như các cuộc gọi điện thoại ở những khu vực có dịch vụ không ổn định. Kỹ thuật này cũng hoạt động đối với âm nhạc.

AI của Meta giúp tăng khả năng nén âm thanh tối ưu gấp 10 lần so với MP3

Meta đã trình làng công nghệ này vào hôm 25/10 và tác giả chính là các nhà nghiên cứu Alexandre Défossez, Jade Copet, Gabriel Synnaeve cùng Yossi Adi tại Meta. Meta cũng tóm tắt nghiên cứu trên blog của mình dành cho EnCodec. Meta mô tả phương pháp của nó như một hệ thống 3 phần, được đào tạo để nén âm thanh xuống kích thước mục tiêu mong muốn. Đầu tiên, bộ mã hóa chuyển đổi dữ liệu không nén thành dạng frame rate thấp hơn. Sau đó, “bộ định lượng” nén bản này xuống kích thước mục tiêu mà vẫn theo dõi thông tin quan trọng nhất, vốn sẽ được sử dụng để xây dựng lại tín hiệu ban đầu. Tín hiệu nén này là những gì được gửi qua mạng hoặc được lưu vào đĩa. Cuối cùng, bộ giải mã chuyển dữ liệu nén trở lại thành âm thanh trong thời gian thực, bằng cách sử dụng mạng nơ-ron trên một CPU.

Việc sử dụng các bộ phân biệt của Meta, chứng tỏ chìa khóa để tạo ra một phương pháp nén âm thanh nhiều nhất có thể, mà không làm mất các yếu tố chính của tín hiệu là làm cho nó trở nên đặc biệt và dễ nhận biết: “Chìa khóa để nén lossy là xác định những thay đổi mà con người sẽ không thể nhận ra được, vì không thể tái tạo hoàn hảo ở bit rate thấp. Để làm như vậy, chúng tôi sử dụng các bộ phân biệt để cải thiện chất lượng cảm nhận của các mẫu đã tạo. Mô hình nén cố gắng tạo ra các mẫu để đánh lừa những bộ phân biệt bằng cách đẩy các mẫu được tái tạo trở nên giống với các mẫu ban đầu hơn.”

Cần lưu ý rằng việc sử dụng mạng nơ-ron để nén và giải nén âm thanh còn khá mới lạ — đặc biệt là để nén giọng nói — nhưng các nhà nghiên cứu của Meta khẳng định họ là nhóm đầu tiên áp dụng công nghệ này cho âm thanh stereo 48 kHz (tốt hơn một chút so với sampling rate 44,1 kHz của CD), tiêu biểu cho các file nhạc được phân phối trên Internet. Đối với các ứng dụng, Meta cho biết "siêu nén âm thanh" được giúp sức bởi AI này có thể hỗ trợ "cuộc gọi nhanh hơn, chất lượng tốt hơn" trong điều kiện mạng xấu. Và tất nhiên, các nhà nghiên cứu cũng đề cập đến hàm ý metaverse của EnCodec, cho biết rằng công nghệ này cuối cùng có thể mang đến “trải nghiệm metaverse phong phú mà không yêu cầu cải thiện băng thông lớn." Ngoài ra, chúng ta cũng có thể sớm thấy được những file âm thanh nén thực sự nhỏ. Hiện tại, công nghệ mới của Meta vẫn đang trong giai đoạn nghiên cứu, nhưng nó hướng tới một tương lai mà âm thanh chất lượng cao có thể sử dụng ít băng thông hơn. Đây sẽ là một tin tuyệt vời cho các nhà cung cấp băng thông rộng di động khi bị quá tải từ các nền tảng stream media. >>> Doanh thu Meta giảm trong quý 3, Mark Zukerberg lại lỗ tiếp 3,6 tỷ USD vì giấc mơ metaverse Nguồn: ArsTechnica