微軟向大眾發佈內部生成式AI紅隊工具
儘管生成式人工智慧(GenAI)模型具有先進的功能,但我們也看到許多模型失控、產生幻覺或被惡意行為者利用的漏洞。為了幫助緩解這個問題,微軟推出了一款工具,可以幫助識別生成式人工智慧系統中的風險。
本週四,微軟發布了用於生成式人工智慧的Python 風險識別工具包(PyRIT),微軟的人工智慧紅隊一直在使用該工具檢查包括Copilot 在內的基因人工智慧系統的風險。
博文稱,在過去的一年中,微軟與60 多個高價值的基因人工智慧系統進行了紅組,從中了解到這些系統的紅組過程與經典人工智慧或傳統軟體有很大不同。
這個過程看起來有所不同,因為微軟除了要考慮通常的安全風險外,還要考慮負責任的人工智慧風險,例如確保不會故意產生有害內容,或確保模型不會輸出虛假資訊。
此外,基因人工智慧模型的架構差異很大,同樣的輸入可能產生不同的結果,因此很難找到一個適合所有模型的簡化流程。
因此,手動探測所有這些不同的風險最終會成為一個耗時、乏味和緩慢的過程。微軟分享說,自動化可以幫助紅色團隊識別需要更多關注的風險領域,並將常規任務自動化,這正是PyRIT 的用武之地。
該工具包”經過了微軟人工智慧團隊的實戰檢驗”,它向生成式人工智慧系統發送惡意提示,一旦收到回應,其評分代理就會給系統打分,然後根據先前的評分反饋發送新的提示。
微軟表示,PyRIT 的最大優勢在於它幫助微軟紅人團隊提高了工作效率,大大縮短了任務所需的時間。
微軟在新聞稿中說:”例如,在我們對Copilot 系統進行的一次紅隊演習中,我們能夠選擇一個危害類別,產生數千個惡意提示,並使用PyRIT 的評分引擎來評估Copilot 系統的輸出,這一切只需要幾個小時而不是幾週的時間。”
該工具包即日起可供訪問,其中包括一系列演示,幫助用戶熟悉該工具:
微軟也將舉辦一場關於PyRIT的網路研討會,示範如何在紅隊生成式人工智慧系統中使用PyRIT。