Google研究團隊宣布AudioPaLM:一個能說能聽的大型語言模型
大型語言模型(LLMs)近幾個月一直備受關注。作為人工智能領域最重要的進展之一,這些模型正在改變人機交互的方式。隨著各行各業紛紛採用這些模型,它們成為人工智能在全球蔓延的最佳例證。LLMs 在處理複雜交互和知識檢索任務時表現出色,其中最著名的例子是由OpenAI 開發的ChatGPT 聊天機器人,它基於GPT 3.5 和GPT 4 的Transformer 架構。
除了文本生成外,還開發了像CLIP(對比性語言圖像預訓練)這樣的模型,用於圖像生成,使得可以根據圖像的內容生成文本。
為了在音頻生成和理解方面取得進展,Google 的研究團隊推出了AudioPaLM,這是一個大型語言模型,可以處理語音理解和生成任務。AudioPaLM 結合了兩個現有模型的優勢,即PaLM-2 模型和AudioLM 模型,以產生一個統一的多模態架構,能夠處理和生成文本和語音。這使得AudioPaLM 可以處理各種應用,從語音識別到語音轉文字。
雖然AudioLM 在保持諸如說話者身份和語氣信息方面表現出色,而以文本為基礎的語言模型PaLM-2 則專注於特定於文本的語言知識。通過結合這兩個模型,AudioPaLM 利用了PaLM-2 的語言專業知識和AudioLM 的附加語言信息保存能力,從而更全面地理解和生成文本和語音。
AudioPaLM 使用一個聯合詞彙表,可以使用有限數量的離散標記表示語音和文本。將這個聯合詞彙表與標記化的任務描述相結合,可以在各種聲音和基於文本的任務上訓練單個解碼器模型。傳統上需要單獨模型來處理的語音識別、文本轉語音合成和語音到語音翻譯等任務現在可以統一到一個架構和訓練過程中。
經過評估,AudioPaLM 在語音翻譯方面的表現明顯優於現有系統。它展示了對語言組合執行零樣本語音到文本翻譯的能力,也就是說,它可以準確地將從未遇到過的語言的語音翻譯成文本,為更廣泛的語言支持開闢了可能性。
AudioPaLM 還可以基於簡短的口語提示在語言之間進行聲音轉換,並能捕捉並重現不同語言中的獨特聲音,實現語音轉換和適應。
團隊提到的AudioPaLM 主要貢獻包括:
AudioPaLM 利用了文本預訓練模型PaLM 和PaLM-2 的功能。
在自動語音翻譯和語音到語音翻譯基準測試中取得了最先進的結果,並在自動語音識別基準測試中具有競爭力的表現。
該模型通過語音轉換來進行聲音轉換,超越了現有方法在語音質量和聲音保留方面的表現。
AudioPaLM 通過使用未見過的語言組合進行自動語音翻譯,展示了零樣本功能。
總而言之,AudioPaLM 是一個統一的大型語言模型,通過利用基於文本的語言模型的能力和整合音頻提示技術,可以同時處理語音和文本,成為LLM 列表中強有力的補充。
AudioPaLM Hugging Face 頁面:https://huggingface.co/papers/2306.12925