新研究稱ChatGPT提供錯誤編程答案的比例高達52%

使用Copilot、Gemini 和ChatGPT 等生成式人工智慧聊天機器人的一大賣點是，與人類回答相同的提示相比，它們可以更快地回答有關編碼和程式設計的問題，從而幫助節省時間。然而，最近的一份報告稱，ChatGPT 在回答程式設計問題時提供了大量錯誤答案。

普渡大學的研究小組在5 月初舉行的電腦-人交互大會上提交的一份報告中，檢查了發送到ChatGPT 回答的517 個Stack Overflow 問題。

普渡大學的研究小組回饋說，ChatGT 為這些程式設計問題提供錯誤答案的比例高達52%。

雖然人工智慧聊天機器人提供錯誤的問題答案也許是意料之中的事，但珀杜大學的研究小組卻更進一步指出，人類程式設計師在35% 的情況下仍然更喜歡ChatGPT 的答案，”因為它們的答案具有全面性和清晰的語言風格”。更糟的是，在39% 的情況下，人類程式設計師並沒有發現ChatGPT 的錯誤答案。

雖然這只是對ChatGPT 功能的一個方面進行的研究，但它表明，生成式人工智慧機器人仍然容易犯下許多錯誤，而人類可能無法發現這些錯誤。

Google的人工智慧”概述”（AI Overviews）於今年5 月初在美國地區的Google搜尋中投入使用，它已經對一些搜尋字串產生了奇怪且充滿錯誤的答案摘要。 Google在向新聞機構發表的聲明中試圖解釋這些明顯的錯誤：

我們看到的例子一般都是非常不常見的查詢，並不能代表大多數人的經驗。絕大多數人工智慧概述都提供了高品質的信息，並附有深入挖掘的網路連結。

聲明還說，Google將利用這些”孤立的例子”來幫助”完善我們的系統”。

WONGCW 網誌