這是優化後的內容,保持原始格式:
MusicLM 通過將其轉換為分層序列到序列建模任務,提出了一種新穎的條件音樂生成方法。根據他們的實驗,生成的音樂在幾分鐘內保持一致,並以 24 kHz 生成,在音頻質量和遵守文本描述方面優於以前的系統。此外,MusicLM 可以根據文本和旋律進行調節,使其能夠轉換口哨和哼唱的旋律以匹配文本標題中描述的風格。
為了支持進一步的研究,該團隊公開發布了 MusicCaps,這是一個包含 5500 個音樂文本對的數據集,其中包含由人類專家提供的豐富文本描述。該數據集將為未來對音樂生成和分析感興趣的研究人員提供寶貴的資源。
總體而言,MusicLM 提供了一種有前途的條件音樂生成新方法,並且與以前的系統相比,已經展示了卓越的結果。 MusicCaps的發布無疑將促進AI生成音樂領域的進一步研究和發展。