人類評估已不是NLG的最佳標準,華盛頓大學提出新觀點遭網友質疑
AI生成的文本好不好,最權威的評估者竟然不是人類自己?最近,華盛頓大學和艾倫人工智能研究院的學者們在研究中發現:未經過訓練的人類評估文本時,往往過分關註生成文本像不像人話,而忽略了生成文本更重要的問題,即它的內容是否正確、合乎邏輯。
明敏發自凹非寺
研究人員就給出了一個例子:
他們分別讓未經訓練的人類和機器來評價一段GPT-3生成的文字。
這段文字翻譯過來為:從前,有一個海盜。他是那種寧願把時間花在驅趕在船周圍游泳的鯊魚上,也不願駛向外國港口尋找戰利品的海盜。他是個好海盜,高尚的海盜,誠實的海盜。他是個寧願和妻兒呆在家裡也不願出海的海盜。
人類評估員認為這段文字除了有些囉嗦外,沒什麼大毛病。這可能就是一個海盜想回家陪老婆孩子吧,AI可能沒理解,但是這也沒什麼稀奇的。
機器評估也認為這段文字很囉嗦,不過它對文段的內容提出了質疑:海盜會有老婆孩子?還不和他一起在船上生活?
對比兩種判斷,人類評估更看重這段話像不像人話,在檢驗過它的確非常流暢後,就會默認這段文本沒什麼大問題了。
而機器的判斷角度則更加多維,會考慮到文字傳達的意思是否正確。
很難分辨出GPT-3生成的文本
為了驗證自己的觀點,研究人員讓未經訓練的評估人員來區分人類寫的文本和AI生成的文本。
他們選擇了故事、新聞、菜譜三種不同的文體進行測試。
具體測試中,受試人員不僅要判斷給出的文本是否人類創作的,還要填寫相應的理由。
結果顯示,在區分人類和GPT-2創作的文本時,被測試群體的正確率為57.9%。
但是在區分GPT-3生成的文本上,正確率就下降到了49.9%。
而二選一問題的隨機概率就有50%……
顯然,普通人已經很難識別出當下最先進的NLG模型所生成的文本。
為了更進一步了解受試人員是如何做出判斷的,研究人員對150個回答進行了分析。
結果發現,受試人員在做出判斷後,更加傾向於從文本的格式、風格、語法角度上給出理由。
150個回答中,基於文本形式的判斷幾乎是基於內容判斷的2倍。
但是,GPT-3在文本流暢度方面的表現其實已經非常出色,這或許也是為什麼人類很難分辨GPT-3生成文本。
而且研究人員發現,受試人員給出判斷的理由都不盡相同,這也表明人類評估文本沒有一個明確的標準。
既然NLG模型訓練後可以變強,那培訓一下評估人員呢?
研究人員決定對一些受試人員進行了培訓,提高他們評估文字的能力和速度。
他們準備了3種不同的培訓:
第一種是給出明確的判斷標準,讓受試人員學習後來判斷;
第二種是通過大量的實例訓練,也就是題海戰術;
第三種是通過不斷對比來完成訓練。
然而結果表明,這好像並沒有什麼用。
三種培訓後的判斷正確率分別為52%、55%、53%,相較於未受訓時的表現,沒有顯著提高。
不過從受試人員的回答中可以看到,更多人現在會多維度判斷文本了,還是有進步的。
基於這樣的實驗結果,研究人員認為在評估最先進的NLG模型方面,人類可能真的不太靠譜了。
這實驗不太靠譜
對於這樣的結論,網友們提出了一些不同的看法:判斷文本質量其實是一件非常艱鉅的任務,需要專家來進行評估。或許是這項研究中的受試人員不太行?
有人就指出了問題所在:他們用的Amazon Mechanical Turk的評估員。是受試人員不太行。
AMTurk作為一個眾包平台,近年來實在是飽受詬病。
此前BBC報導稱,由於招募到的志願者所在的地區存在一些觀念偏見,導致最後研究出的算法也存在偏見。
而且招募到的人員水平也常常參差不齊。
不過有人也表示:這些人可能也是最適合的,因為他們最接近普通大眾水平,專家認為好的文字,普通人未必也這麼認為。這要取決於生成文本的目標人群是誰。實驗中的志願者對喬伊斯(後現代文學作家)的欣賞程度肯定和英文系教授不同。儘管頂級文學評論家將其描述為“20世紀實驗文學的偉大紀念碑之一”和“英語中最美麗的散文詩之一”,但對於大多數普通讀者而言,它非常晦澀難懂。
此外,也有人就對這項研究提出了改進建議:我認為他們可以用更簡單的NLG算法(基於規則,n-gram, rnn)進行更精細的分析,並對“非專家”評估者進行排名,而不是將他們作為一個群體來處理。
而關於NLG模型生成文本的評估問題,Google曾給出過一個方案。
2020年,它們提出了一個可量化評估NLG模型性能的指標—— BLEURT。
這是一個基於BERT的學習評價指標,在學習了幾千個人類評估案例後,它可以對不同模型生成的文本進行打分。
其最大的優勢就是,評估速度更快。
Google研究人員認為這個指標有助於NLG模型的研究和開發,而且可以為開發人員提供更加多維的評判標準。
論文地址: