Conformer-2 是語音識別 AI 模型先鋒的最新成員。這個更新的模型以 Conformer-1 為基礎,在包含 110 萬小時英語音頻的極其廣泛的數據集上進行了訓練。這個龐大的數據集使 Conformer-2 能夠顯著完善其語音識別功能的多個方面。
主要特徵
- 重點領域:Conformer-2 的主要目的是改善對專有名詞、字母數字的識別及其噪聲魯棒性。通過磨練這些特定領域的技能,它已經微調了其將口語內容準確轉換為無縫轉錄的潛力。
- 縮放法則和訓練數據:Conformer-2 背後的團隊在開發過程中務實地應用了 DeepMind 的 Chinchilla 論文中討論的縮放法則。認識到海量訓練數據對於增強大型語言模型的不可或缺的作用,Conformer-2 的訓練過程使用了無與倫比的 110 萬小時英語音頻數據來支持其學習。
- 集成技術:Conformer-2 的另一個特點是其對模型集成的創造性使用。 Conformer-2 避開了單個模型的輸出來進行預測,而是從一系列模範教師模型中提取標籤。這種獨特的集成系統有助於減少差異並提高 Conformer-2 在處理培訓課程中以前未遇到的數據方面的成就。
- 提高速度和處理能力:與較大模型尺寸的預期結果相反,Conformer-2 與 Conformer-1 相比實現了更高的速度。開發團隊精心調整了服務基礎設施,確保模型以更令人印象深刻的速度執行。總而言之,Conformer-2 將整個音頻文件持續時間範圍內的相對處理時間縮短了 55%。
- 實際性能:在實際應用中進行測試時,Conformer-2 在各種以用戶為中心的指標中表現出色。該模型在字母數字方面顯著增強了 31.7%,將專有名詞錯誤率提高了 6.8%,並將噪聲魯棒性提高了 12.0%。這些勝利歸功於龐大的訓練數據集和模型集合的創新使用。
用例
Conformer-2 無疑是致力於利用語音數據的人工智能驅動應用程序的候選者。其一流的語音到文本轉錄功能使其成為進行非常準確的轉錄的重要工具。因此,它對人工智能管道,特別是那些針對生成式人工智能應用程序的管道,具有很高的前景,提供卓越的精度和可靠性。