Meta、AIラボの10周年という節目に3つのAIプロジェクトを発表

MetaのAI研究チーム「Fundamental AI Research (FAIR)」の10周年を記念して、同社は3つの新しい研究プロジェクト、「Ego-Exo4D」、「Seamless Communication」、「Audiobox」を発表した。

Ego-Exo4D

「Ego-Exo4D」は、ビデオ学習とマルチモーダル認識におけるAI研究を支援するためのデータセットおよびベンチマークセットである。このプロジェクトは、MetaのFAIR、Project Aria、世界中の15の大学パートナーによって2年間にわたって収集された取り組みの成果である。Ego-Exo4Dは、Project Ariaのヘッドセットを装着した参加者のカメラからの「自己中心的」な視点と、周囲のカメラからの「エクソセントリック」な視点の両方を捉える。データセットは、スポーツ、音楽、料理、ダンス、自転車修理などの複雑な人間活動に焦点を当てている。

Metaは、このデータセットを拡張現実（AR）システムに応用することを見込んでいる。例えば、スマートヘッドセットを装着した人が、仮想AIトレーナーの指導により教育ビデオを通じて新しいスキルを迅速に学ぶことができる。また、周囲の人々を観察するロボットが、物理的な経験を少なくして新しい取り扱いスキルを学ぶことができる分野や、ビデオで知識や補完的なスキルを共有することに基づいて新しいコミュニティが出現するソーシャルネットワークなどにも応用が可能である。1,400時間以上のビデオデータセットは12月にオープンソースとして公開され、来年にはEgo-Exo4Dのための公開ベンチマークコンペティションが計画されている。+

Seamless Communication

「Seamless Communication」プロジェクトは、表現豊かで迅速なAI翻訳を実現することを目指している。FAIRは8月にSeamlessM4Tマルチモーダル翻訳モデルを発表した後、旧モデルを基にして言語の境界を越えたより自然で本物のコミュニケーションを可能にするAI研究モデルのファミリーを現在発表している。このプロジェクトは4つのモデルから構成されている。

SeamlessExpressive：既存の翻訳ツールでは考慮されていなかった表現のニュアンスに着目し、言語の境界を越えて話し言葉の表現とニュアンスを保持する。
SeamlessStreaming：約2秒の遅延でオフラインモデルとほぼ同じ精度の翻訳を提供する大規模多言語モデル。約100の入力言語と36の出力言語の音声合成翻訳に加えて、約100の入力言語と出力言語の自動音声認識と音声テキスト翻訳をサポートする。
SeamlessM4T v2：声とテキストのコミュニケーションを容易にする多言語・マルチタスクモデル。
Seamless：SeamlessExpressive、SeamlessStreaming、SeamlessM4T v2の機能を1つのモデルに統合する。

MetaはSeamlessExpressiveのデモも公開しており、ここでは自分の声を翻訳することができる。

Audiobox

「Audiobox」は、音声生成のための生成AIモデルである。今年前半に発表された「Voicebox」の後継であるAudioboxは、音声入力と自然言語のテキストプロンプトの組み合わせを通じて、声や効果音を生成する能力を持っている。音声、効果音（犬の鳴き声、車のクラクション、雷の音などの短い個別の音）、サウンドスケープの生成・編集機能を統合し、それぞれのユースケースで制御性を最大化するさまざまな入力メカニズムを備えることで、音声の生成AIをさらに進化させている。

当初、このモデルは、音声生成研究の最先端を推進し、人工知能の責任ある開発を確保するために、選ばれた研究者や学術機関に提供される予定であるとMetaは述べている。

Source

Meta: