MetaがAIを使って従来の10倍の圧縮率を実現した音声コーデック「EnCodec」を発表

masapoco
投稿日
2022年11月2日 10:49
encodec hero 2 800x451 1

Meta(メタ)はAIによって驚異的な圧縮を実現した新たな音声コーデック「EnCodec」を発表した。このコーデックでは、MP3形式の10倍の64kbpsで、品質を落とさずに音声を圧縮できるとのことだ。Metaによると、この技術により、サービスが不安定な地域での電話など、低帯域幅の接続における音声の音質を劇的に改善することができるという。また、この技術は音楽にも応用できるようだ。

研究の詳細については、「High Fidelity Neural Audio Compression」と題する論文で詳しく解説されており、また、要約は上記のMetaによるブログで公開されている。

Metaによると、この技術の肝となる部分は、音声を目的のサイズに圧縮するために訓練された3つの部分からなるシステムとのことだ。まず、エンコーダーが非圧縮データをより低いフレームレートの「潜在的空間」表現に変換する。次に「量子化器」がこの表現を目標サイズに圧縮し、後に元の信号を再構築するために使用される最も重要な情報を記録する。(この圧縮された信号が、ネットワークを通じて送信されたり、ディスクに保存されたりするのである)。最後に、デコーダーが圧縮されたデータを、1つのCPUでニューラルネットワークを使ってリアルタイムにオーディオに戻す。

このプロセスの最後に行われる、Metaの識別器(Discriminator)の使用が、信号の特徴や認識を可能にする重要な要素を失うことなく、可能な限り音声を圧縮する方法を生み出す鍵となる。

ロッシー圧縮の鍵は、低ビットレートでは完全な復元が不可能なため、人間が知覚できないような変化を識別することとなります。そのために、生成されたサンプルの知覚的な品質を向上させるために識別器を使用します。このため、識別器の仕事は実際のサンプルと再構成されたサンプルを区別することであり、猫とネズミのゲームを作り出すことになります。圧縮モデルは、復元されたサンプルが元のサンプルと知覚的に似ているように押し出すことで、識別器を欺くためにサンプルを生成しようとします。

音声の圧縮・伸張にニューラルネットワークを利用することは、特に音声圧縮の場合、決して新しいことではないが、Meta社の研究者は、この技術をインターネット上で配信される音楽ファイルによく見られる48kHzステレオ音声(CDの44.1kHzよりわずかに良いサンプリングレート)に適用した例は、Metaの今回のテクノロジーが初だという。

アプリケーションとしては、このAIによる「音声の超圧縮」が、ネットワークの状態が悪いときに「より速く、より質の高い通話」をサポートする可能性があるとのことだ。そして、この技術は最終的に「大きな帯域の改善を必要としないリッチなメタバース体験」を提供できるだろうとしている

今のところ、Metaの新技術はまだ研究段階だが、高品質のオーディオがより少ない帯域幅で利用できるようになる未来を示唆しており、ストリーミングメディアでネットワークの負担が大きいモバイルブロードバンドプロバイダーにとっては朗報だろう。

研究の要旨

本稿では、ニューラルネットワークを活用した最新のリアルタイム高忠実度オーディオコーデックを紹介する。このコーデックは、量子化された潜在空間をエンドツーエンドで学習するストリーミングエンコーダ・デコーダアーキテクチャで構成されています。本論文では、マルチスケールスペクトログラムを用いた学習により、アーチファクトを低減し、高品質なサンプルを生成することを可能にする。損失の重みは、それが表すべき全体的な勾配の割合を定義し、このハイパーパラメータの選択を損失の典型的なスケールから切り離すものである。最後に、軽量なTransformerモデルを用いて、実時間より高速でありながら、得られた表現をさらに40%まで圧縮する方法について研究している。提案モデルの主要な設計上の選択について、学習目的、アーキテクチャの変更、様々な知覚的損失関数の研究など、詳細な説明を提供する。また、音声、残響音声、音楽を含む様々な帯域幅とオーディオドメインに対するアブレーションの研究とともに、広範な主観評価(MUSHRAテスト)を提示する。その結果,24 kHzのモノラル音声と48 kHzのステレオ音声の両方において,ベースラインの手法よりも優れていることが分かった。



この記事が面白かったら是非シェアをお願いします!


  • zvpLnVqJgYSCQriBY8WYJc 970 80.jpg
    次の記事

    ブラックホールには量子的な性質がある事が判明

    2022年11月2日 11:49
  • 前の記事

    YouTubeが、米国で様々な有料ストリーミングサービスをまとめて管理出来る「Primetime Channels」を提供開始

    2022年11月2日 6:27
    Primetime Channels Hero.max 1000x1000 1

スポンサーリンク


この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です


おすすめ記事

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • google logo image

    Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

  • Pixel 8 in Rose.max 936x936.format webp

    Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事