AI幻覺產生的錯誤回報正浪費開發人員的時間和精力
生成式人工智慧服務可用於產生通用文字片段、不可思議的圖像,甚至是各種程式語言的程式碼腳本。但是,當使用LLM 製造出有問題或毫無意義的報告時,其結果可能在很大程度上不利於專案的開發。
curl 軟體的原始作者和首席開發者 Daniel Stenberg 最近撰文談到了LLM 和人工智慧模型對專案造成的問題影響。這位瑞典程式設計師指出,團隊有一個漏洞賞金計劃,為發現安全問題的駭客提供真金白銀的獎勵,但透過人工智慧服務創建的膚淺報告正在成為一個真正的問題。
斯滕貝格說,迄今為止,Curl 的漏洞懸賞計畫已經支付了7 萬美元的獎勵。該程式設計師共收到415 份漏洞報告,其中77 份為”資訊性”報告,64 份最終被確認為安全問題。在報告的問題中,有相當一部分(66%)既不是安全問題,也不是普通的漏洞。
生成式人工智慧模型被越來越多地用作(或建議用作)自動完成複雜編程任務的一種方式,但LLM 以其”幻覺”和提供無意義結果的卓越能力而聞名,同時聽起來卻對其輸出絕對有自信。用斯騰伯格自己的話來說,基於人工智慧的報告看起來更好,似乎也有道理,但”更好的垃圾”仍然是垃圾。
斯滕伯格說,程式設計師在關閉這種報告之前就必須在報告上花費更多的時間和精力。人工智慧產生的垃圾對專案一點幫助都沒有,因為它會佔用開發人員的時間和精力,使他們無法從事有成效的工作。curl團隊需要妥善調查每一份報告,而人工智慧模型可以倍增撰寫錯誤報告所需的時間,這些錯誤或許根本不存在。
斯滕伯格引用了兩份很可能由人工智慧創建的假報告。第一份報告聲稱描述了一個真實的安全漏洞(CVE-2023-38545),而這個漏洞甚至還沒有被披露,但它卻充滿了”典型的人工智能式幻覺”。史滕伯格說,舊安全問題中的事實和細節被混雜在一起,組成了一個與現實”毫無關聯”的新東西。
HackerOne 上最近提交的另一份報告描述了WebSocket 處理中潛在的緩衝區溢位漏洞。史騰伯格試圖就這份報告提出一些問題,但他最終得出的結論是,這個漏洞並不真實,他很可能是在與一個人工智慧模型而非真人對話。
這位程式設計師說,人工智慧可以做”很多好事”,但也可能被利用做錯事。從理論上講,可以訓練LLM 模型以富有成效的方式報告安全問題,但我們仍需找到這方面的”好例子”。史騰伯格說,隨著時間的推移,人工智慧產生的報告將變得越來越常見,因此團隊必須學會如何更好地觸發”人工智慧生成”訊號,並迅速駁回那些假報告。