新研究:人工智能聊天機器人的創造力超越人類平均水平
最近發表在《科學報告》雜誌上的一項研究表明,大型語言模型(LLM) 人工智能聊天機器人在創造性任務中可能超越普通人類,例如集思廣益常見物品的替代用途——這反映了發散性思維。然而,在這些任務中得分最高的個人仍然超過了表現最好的聊天機器人的結果。 發散思維是一種通常與創造力聯繫在一起的思維過程,強調針對特定任務產生許多不同的想法或解決方案。它通常通過替代用途任務(AUT)進行評估,其中要求參與者在短時間內想出盡可能多的日常物品的替代用途。回答分為四個不同的類別:流暢性、靈活性、原創性和詳盡性。Mika Koivisto 和Simone Grassini 將256 名人類參與者的反應與三個AI 聊天機器人(ChatGPT3、ChatGPT4 和Copy.Ai)的反應進行了比較,並對四種物體(一根繩子、一個盒子、一支鉛筆和一支蠟燭)的AUT 做出了反應。作者通過對語義距離(響應與對象原始用途的相關程度)和創造力進行評級來評估響應的原創性。使用計算方法以0 到2 的範圍來量化語義距離,而人類評估者對響應的發起者視而不見,主觀地對創造力進行1 到5 的評分。平均而言,聊天機器人生成的響應得分明顯高於人類對語義距離(0.95 vs. 0.91)和創造力(2.91 vs. 2.47)的反應。人類的反應在這兩項指標上都有更大的範圍——最低分數遠低於人工智能的反應,但最高分數通常更高。在八個評分類別中的七個中,人類的最佳反應優於每個聊天機器人的最佳反應。這些發現表明,人工智能聊天機器人現在至少可以像普通人一樣產生創意。然而,作者指出,他們只考慮了與創造力評估相關的單個任務的表現。作者提出,未來的研究可以探索如何將人工智能整合到創意過程中,以提高人類的表現。