Công nghệ EnCodec là gì?

Công nghệ EnCodec có thể cho phép truyền tải các cuộc gọi và âm nhạc chất lượng cao trên các kết nối tốc độ thấp nhờ khả năng nén tốt hơn 10 lần so với MP3.

Công nghệ EnCodec là gì?

Tuần trước, Meta (tên mới của Facebook) đã công bố một phương pháp nén âm thanh được hỗ trợ bởi AI được gọi là “EnCodec” có thể nén âm thanh nhỏ hơn 10 lần so với định dạng MP3 ở tốc độ 64kbps mà không làm giảm chất lượng.

Công nghệ EnCodec là gì?

Meta cho biết kỹ thuật này có thể cải thiện đáng kể chất lượng âm thanh của giọng nói trên các kết nối băng thông thấp, chẳng hạn như các cuộc gọi điện thoại ở các khu vực có dịch vụ phát âm thanh. Kỹ thuật này cũng hoạt động đối với âm nhạc.

Meta đã ra mắt công nghệ này vào ngày 25 tháng 10 trong một bài báo có tiêu đề ” Nén âm thanh thần kinh trung thực cao “, do các nhà nghiên cứu Meta AI Alexandre Défossez , Jade Copet, Gabriel Synnaeve và Yossi Adi tác giả. Meta cũng tóm tắt nghiên cứu trên blog của mình dành cho EnCodec.

Công nghệ EnCodec là gì?

Meta tuyên bố codec (bộ mã hóa / giải mã âm thanh) mới của họ có thể nén âm thanh nhỏ hơn 10 lần so với MP3.
Meta mô tả phương pháp của nó như một hệ thống ba phần được đào tạo để nén âm thanh xuống kích thước mục tiêu mong muốn. Đầu tiên, bộ mã hóa chuyển đổi dữ liệu không nén thành biểu diễn “không gian tiềm ẩn” tốc độ khung hình thấp hơn. Sau đó, “bộ định lượng” nén biểu diễn xuống kích thước mục tiêu trong khi vẫn theo dõi thông tin quan trọng nhất mà sau này sẽ được sử dụng để xây dựng lại tín hiệu ban đầu. (Tín hiệu nén này là những gì được gửi qua mạng hoặc được lưu vào đĩa.) Cuối cùng, bộ giải mã chuyển dữ liệu nén trở lại thành âm thanh trong thời gian thực bằng cách sử dụng mạng nơ-ron trên một CPU.

Công nghệ EnCodec là gì?
Sơ đồ khối minh họa cách nén EnCodec của Meta hoạt động.

Việc sử dụng các bộ phân biệt của Meta chứng tỏ chìa khóa để tạo ra một phương pháp nén âm thanh nhiều nhất có thể mà không làm mất các yếu tố chính của tín hiệu làm cho nó trở nên đặc biệt và dễ nhận biết:

“Chìa khóa để nén mất mát là xác định những thay đổi mà con người sẽ không thể nhận ra được, vì không thể tái tạo hoàn hảo ở tốc độ bit thấp. Để làm như vậy, chúng tôi sử dụng các bộ phân biệt để cải thiện chất lượng cảm nhận của các mẫu đã tạo. Điều này tạo ra một con mèo- trò chơi và chuột trong đó công việc của người phân biệt là phân biệt giữa các mẫu thực và mẫu tái tạo. Mô hình nén cố gắng tạo ra các mẫu để đánh lừa những người phân biệt bằng cách đẩy các mẫu được tái tạo trở nên giống với các mẫu ban đầu hơn. “

Cần lưu ý rằng việc sử dụng mạng nơ-ron để nén và giải nén âm thanh không phải là điều mới mẻ — đặc biệt là để nén giọng nói — nhưng các nhà nghiên cứu của Meta khẳng định họ là nhóm đầu tiên áp dụng công nghệ này cho âm thanh nổi 48 kHz (tốt hơn một chút so với tốc độ lấy mẫu 44,1 kHz của CD ), tiêu biểu cho các tệp nhạc được phân phối trên Internet.

Ứng dụng của Meta EnCodec trong thế giới thực

Khi nói đến các ứng dụng, kỹ thuật này có thể cung cấp ‘cuộc gọi nhanh hơn và chất lượng tốt hơn’ trong các khu vực mạng dưới mức tối ưu. Nó cũng có khả năng mang lại “trải nghiệm metaverse phong phú mà không yêu cầu cải tiến băng thông lớn”, Meta nói.

Bất kể tiềm năng của nó như thế nào, công nghệ EnCodec của Meta vẫn đang trong giai đoạn nghiên cứu. Đó là một kỹ thuật đầy hứa hẹn để giảm nhu cầu băng thông chất lượng cao mà không ảnh hưởng đến chất lượng. Công nghệ này có thể tỏ ra có lợi cho các nhà cung cấp dịch vụ băng rộng di động bị quá tải bởi nhu cầu truyền phát phương tiện cao.

Ngoài ra, có thể một ngày nào đó chúng ta cũng sẽ lấy được các tệp âm thanh âm nhạc thực sự nhỏ ra khỏi nó. Hiện tại, công nghệ mới của Meta vẫn đang trong giai đoạn nghiên cứu, nhưng nó hướng tới một tương lai nơi âm thanh chất lượng cao có thể sử dụng ít băng thông hơn, đây sẽ là một tin tuyệt vời cho các nhà cung cấp băng thông rộng di động với mạng quá tải từ các phương tiện truyền trực tuyến.

Chat Zalo
Hotline

0889235298