Google員工對Bard進行單條式的評估、修正訓練確保給出高質量答案

不久前，谷歌在內部發起了代號為“鬥狗”的活動，要求公司所有員工每周用兩到四個小時幫助測試和改進其新的人工智能搜索聊天機器人Bard。就在Bard發布前不久，微軟也剛剛發布了採用ChatGPT聊天機器人背後技術的新版必應搜索引擎，它允許用戶就幾乎任何話題進行多輪對話。

然而，在Bard被發現提供了一個錯誤的答案後，對於谷歌的質疑也逐漸浮現。同樣，隨著越來越多的人測試了新必應，他們的聊天機器人也遇到了問題，比如其傾向於好鬥的行為。

像Bard和ChatGPT這樣的AI聊天機器人，可以通過接受人類編寫的文本訓練來模仿人類對話，這就解釋了為什麼必應的回復有時候看起來有些情緒化和不可預測。畢竟，被訓練得像人一樣的機器人也很容易犯下人類的錯誤。

这些聊天机器人最初通过摄取大量的训练数据来完成大部分学习。此外，Bard项目的产品主管杰克·克劳奇克(Jack Krawczyk)在一份备忘录中告诉员工，谷歌的研究发现，为用户查询添加高质量的响应“显著”提高了其AI模型的质量。

據多位AI專家透露，谷歌員工可能會為Bard編寫高質量的答復以改進其模型。這些專家已經在AI和大型語言模型領域完成了廣泛的研究。

克勞奇克讓員工向Bard詢問他們擅長的領域，比如最喜歡的興趣愛好。然後，他們被要求評估Bard的答案，以確保這些答案符合人們的期望，長度和結構也都要合理。如果某個答案過於人性化、存在事實錯誤或者沒有任何意義，員工可以重寫答案並提交給Bard的模型訓練。

英屬哥倫比亞大學計算機科學助理教授韋德·施瓦茨(ved Shwartz)表示，要想持續改進Bard，谷歌可以採取監督式學習和強化學習相結合的方式。

其中，監督式學習是第一步，研究人員可以向聊天機器人輸入人類編寫的查詢和答案，直到它學會如何像人類那樣回复。在此基礎上，谷歌可以構建一個強化學習模型，用谷歌員工寫的答案來訓練它，以幫助它理解該公司希望Bard的答案展現哪些價值觀，包括在結構、語氣以及其他方面加以改進。

這個強化學習模型會查看Bard給出的答案，剔除其中不合適的答案，並驗證合格的答案，直到聊天機器人明白它應該如何行事。基本上，來自谷歌員工的“正確”答案將幫助該模型改進。

強化學習模型還可以教會Bard在不談論情感或以其他方式假裝人類的情況下提供信息。第一種模型主要學習基本的寫作技巧，而第二種模型將引導機器按照預期的方向回答問題。

哥倫比亞大學計算機科學教授周宇(音譯)說，有了足夠好的答案進行分析，強化學習模型就能知道哪些是合適的答案，哪些是不合適的答案。

確保事實準確性

谷歌始終對推出聊天機器人持謹慎態度，可能是因為其可能對搜索業務利潤產生短期影響，並擔心準確性。谷歌要求員工拒絕回答Bard試圖就金融或健康等敏感話題向用戶提供建議的問題，因為回答錯誤的風險很高。

AI領域始終在努力解決事實準確性問題，OpenAI在1月份發布了更新，以提高ChatGPT在各種話題上對話的準確性。本月在舊金山舉行的一場關於聊天機器人和AI的會議上，Anthropic首席執行官達里奧·阿莫代(Dario Amodei)表示，他相信隨著模型的改進，聊天機器人將不再編造事實。

雖然訓練有助於提高聊天機器人所生成答案的質量，但施瓦茨表示，她不認為這能夠徹底解決事實準確性的問題。Bard和ChatGPT都有所謂的“幻覺”傾向，這是該行業用來形容聊天機器人編造事實的術語。它們會從網頁上提取內容，有時不可避免地會錯誤地總結這些內容。（小小）

WONGCW 網誌