AI研究人員推出更嚴格的SuperGLUE語義理解基準測試
Facebook人工智能研究員和Google旗下的DeepMind、華盛頓大學、以及紐約大學合作,於今日正式推出了SuperGLUE 。作為一個嚴格的語義理解基準測試項目,其能夠針對現代高性能語義理解AI的性能,展開一系列的基準測試。當然,SuperGLUE投入使用的前提,是某會話AI的深度學習模型已經觸及了天花板,並希望接受更大的挑戰。
(圖自:SuperGLUE,via VentureBeat)
SuperGLUE使用谷歌的BERT作為性能基準模型,因為早在2018年的時候,它就已經在多方面被認為是最先進的、甚至打敗了新一年的諸多競爭對手,比如微軟的MT-DNN、谷歌自家的XLNet、以及Facebook的RoBERTa 。
SuperGLUE 的前身,是紐約大學、華盛頓大學和DeepMind 研究人員於2018 年4 月推出的針對語義理解AI 的’通用語義理解評估’(GLUE)基準測試。
發展到現在的SuperGLUE,它能夠評估比GLUE 更複雜的任務表現,鼓勵構建能夠賬務更複雜或細微差別的語義理解模型。
據悉,GLUE 能夠根據AI 對自然語言理解(NLU)系統給出的九個英語短句的識別處理表現,而給出該模型的分值,比如在線影視評論數據集中提取情感細節的斯坦福情感樹庫(SST-2)。
目前RoBERTa 在GLUE 基準測試數據庫中的得分為榜上第一,但9 項GLUE 任務中拿到了4 項最高分。不過SuperGLUE 包含了在一系列困難的NLP 任務中測試創造性解決方案的新方法。
Facebook AI 研究人員在一篇博客文章中稱:這些任務側重於機器學習在諸多核心領域的創新,包括高效採樣、轉運、多任務、以及自我監督學習。
為向其他研究人發出挑戰,SuperGLUE 選擇了各種形式的任務、更加細緻的問題、尚未被最先進方案所解決的內容、以及很容易被人類理解的題目。
簡而言之,新基準測試包括了八項任務,用於測試AI 語義理解模型是否遵循基本的因果關係、或者是否在做閱讀理解時出現了偏差。
此外,SuperGLUE 包含了性別偏見檢測工具Winogender 。至於最終的排行,將在super.gluebenchmark.com 官網上發布。感興趣的朋友,可以閱讀5 月和7 月份的修訂版論文。