元の形式を維持した、最適化されたコンテンツは次のとおりです。
MusicLM は、条件付き音楽生成を階層的なシーケンス対シーケンスのモデリング タスクとしてキャストすることにより、条件付き音楽生成に対する新しいアプローチを提供します。生成された音楽は数分間にわたり一貫性があり、24 kHz で生成され、実験によれば、音質とテキスト説明の遵守において以前のシステムを上回っています。さらに、MusicLM はテキストとメロディーの両方を条件付けることができ、口笛や鼻歌のメロディーをテキスト キャプションで説明されているスタイルに合わせて変換できます。
さらなる研究を支援するために、チームは MusicCaps を公開しました。これは人間の専門家によって提供されたリッチ テキストの説明を特徴とする 5.5k の音楽とテキストのペアを含むデータセットです。このデータセットは、音楽の生成と分析に興味のある将来の研究者にとって貴重なリソースとして役立ちます。
全体として、MusicLM は条件付き音楽生成に対する有望な新しいアプローチを提供し、以前のシステムと比較して優れた結果をすでに実証しています。 MusicCaps のリリースにより、AI 生成音楽の分野におけるさらなる研究開発が促進されることは間違いありません。