微軟語言訓練模型DeBERTa在SuperGlue閱讀測試中超過人類基線
具有百萬參數的訓練網絡近期獲得了巨大進展。微軟近日更新了DeBERTa (Decoding-enhanced BERT with disentangled attention)模型,訓練了一個由48個Transformer層組成,擁有15億個參數的模型。
性能的大幅提升使得單個DeBERTa 模型在SuperGLUE 語言處理和理解上的宏觀平均得分首次超過了人類的表現(89.9 分VS 89.8分),以相當大的優勢(90.3分對89.8分)超過了人類基線。
SuperGLUE 基準包括廣泛的自然語言理解任務,包括問題回答、自然語言推理。該模型也以90.8 的宏觀平均分位居GLUE 基準排名的前列。
DeBERTa 使用三種新穎的技術改進了之前最先進的PLM(例如BERT、RoBERTa、UniLM):一個分離的注意力機制、一個增強的掩碼解碼器和一個用於微調的虛擬對抗訓練方法。
相比較由110 億個參數組成的谷歌T5 模型,擁有15 億個參數的DeBERTa 在訓練和維護上更加節能,而且更容易壓縮和部署到各種環境的應用中。
DeBERTa在SuperGLUE上超越人類的表現,標誌著向通用AI邁進的重要里程碑。儘管在SuperGLUE上取得了可喜的成績,但該模型絕不是達到NLU的人類級智能。
微軟將把這項技術整合到微軟圖靈自然語言表示模型的下一個版本中,用於Bing、Office、Dynamics和Azure認知服務等地方,通過自然語言為涉及人機、人與人交互的各種場景提供動力(如聊天機器人、推薦、答題、搜索、個人助理、客服自動化、內容生成等)。此外,微軟還將向公眾發布15億參數的DeBERTa模型和源代碼。