谷歌外包審核抱怨:很多話題我都不懂如何短時間判斷Bard說的對不對
谷歌近日推出了聊天機器人Bard,並呼籲公司員工進行內部測試,同時也委託了許多外部承包商進行評估。然而,一些承包商爆料稱,他們根本沒有足夠的時間來驗證Bard的答案是否正確,最終只能憑藉猜測。
在OpenAI聊天機器人ChatGPT爆火後,谷歌也迅速跟進,在3月份推出了聊天機器人Bard的有限測試版。與ChatGPT類似,用戶可以向Bard提問或下達任務指令,Bard會給出類似人類的答复。
目前,跨國AI訓練數據服務公司Appen的承包商正在幫助改進谷歌的聊天機器人。雖然這些人沒有被明確告知他們被分配的任務與Bard有關,但是關於新任務的內部討論可以追溯到2月7日,也就是在谷歌首次發布Bard的時候。Appen內部文件顯示承包商需要審查AI聊天機器人所提供的回應質量。
這些承包商通常會幫助評估谷歌搜索算法和搜索結果中廣告的相關性,還會標記有害網站,使得這些網站不會出現在搜索結果中。
四名接受采訪的承包商表示,自1月份以來,他們的大部分工作已經轉向審查AI聊天機器人的提示。在評估過程中,承包商們對聊天機器人的表現感到失望,並稱他們沒有足夠時間準確評估聊天機器人對提示的響應是否正確,有時只能憑藉猜測。不過他們仍然可以拿到報酬。
Bard在一次演示活動中因為給出錯誤答案而受到批評。谷歌對此表示,聊天機器人會隨著時間的推移而變得越來越好,它不應該被視為搜索的替代品。
在正式發布前,谷歌曾在2月份要求其員工每天用兩到四個小時幫助測試這款聊天機器人,包括向它提問,並標記出不符合公司準確性標準和其他衡量標準的答案。員工可以重寫任何問題的回答,以供Bard從中學習。谷歌和Appen沒有回應置評請求。
沒有足夠時間
根據承包商指導文件,他們將收到用戶向AI聊天機器人發出的提示(例如提問、指令或陳述),以及兩個機器生成的回應。承包商需要幫助確認哪種回應更好。他們還可以在文本框中詳細說明選擇的原因,以幫助聊天機器人學習在可接受的響應中尋找特定屬性。聊天機器人給出的回答應該連貫而準確,並引入最新信息。
承包商表示,他們被設定固定的時間來完成每項任務。審查提示的任務時間從60秒到幾分鐘不等,差異很大。這些人承認,如果他們不熟悉聊天機器人談論的話題,比如區塊鍊等技術,就很難給AI的回應評分。
由於每項任務都有固定報酬,一些承包商表示,即使他們意識到自己無法準確評估聊天機器人的反應,他們也會盡力完成任務。
一位評估人員說:“在短短60秒內,我沒有足夠的時間去了解我不懂的領域,所以我只能給出最好的猜測,這樣我就可以繼續工作和領取報酬。”
另一位承包商表達了類似的觀點,稱他們也想獲得正確答案,提供盡可能優質的聊天機器人體驗,但在進行評估之前,他們沒有足夠的時間來研究某些話題。他補充說:“老實說,我們中的很多人都快要崩潰了!”
第三位承包商表示:“用三個小時的研究來完成短短60秒的任務,這非常明顯地凸顯了我們現在面臨的問題。”
要求改善工作條件
目前,通過外包公司為谷歌工作的承包商,越來越多地要求改善工作條件。
今年2月,許多承包商訪問了谷歌總部Googleplex,向搜索業務負責人普拉巴卡爾·拉加萬(Prabhakar Raghavan)遞交了一份請願書,希望提高報酬。他們為Appen工作,每小時的薪資在14美元到14.5美元之間。而他們所支持的業務(搜索和廣告)是谷歌的主要收入來源。
Alphabet工人工會已經表示支持這些承包商,並幫助他們採取行動,但該組織不能正式代表承包商與穀歌進行談判。
在得克薩斯州奧斯汀,YouTube的承包商去年年底宣布了與AWU成立工會的計劃。該組織估計,谷歌僱用了20多萬名承包商,但這些人未被計入公司的官方員工總數中。(小小)