亞馬遜將提供人類基準測試團隊來測試人工智慧模型
亞馬遜希望用戶能更好地評估人工智慧模型,並鼓勵更多人類參與這一過程。在AWS re: Invent 大會上,AWS 資料庫、分析和機器學習副總裁Swami Sivasubramanian 宣布了Bedrock 上的模型評估(Model Evaluation on Bedrock)功能,該功能現已推出預覽版,適用於其儲存庫Amazon Bedrock 中的模型。
如果沒有透明測試模型的方法,開發人員最終可能會使用那些對於問答專案來說不夠準確的模型,或者對於他們的使用案例來說過於龐大的模型。
Sivasubramanian 說:”模型選擇和評估不只是在開始時進行,而是要定期重複進行。我們認為有一個人在環路中是很重要的,因此我們提供了一種方法,可以輕鬆管理人工評估工作流程和模型性能指標”。
有些開發人員常常不知道是否應該在專案中使用更大的模型,因為他們以為功能更強大的模型可以滿足他們的需求。後來他們發現,他們本來可以在更小的模型上進行開發。模型評估包括兩個部分:自動評估和人工評估。在自動化版本中,開發人員可以進入Bedrock 控制台,選擇一個模型進行測試。然後,他們就可以評估模型在摘要、文字分類、問題解答和文字生成等任務中的穩健性、準確性或毒性等指標的表現。
Bedrock 包括流行的第三方人工智慧模型,如Meta 的Llama 2、Anthropic 的Claude 2 和Stability AI 的Stable Diffusion。
AWS 提供測試資料集,客戶也可以將自己的資料帶入基準測試平台,以便更了解模型的表現。系統隨後會產生一份報告。
如果需要人工參與,使用者可以選擇與AWS 人工評估團隊或自己的團隊合作。客戶必須指定任務類型(例如摘要或文字生成)、評估指標以及想要使用的資料集。AWS 將為與評估團隊合作的客戶提供客製化的價格和時間表。
AWS 負責生成式人工智慧的副總裁Vasi Philomin 表示,更了解模型的性能可以更好地指導開發。它還允許公司在使用模型進行建構之前,了解模型是否不符合一些負責任的人工智慧標準,例如較低或過高的毒性敏感度。
Philomin說:”重要的是,模型要適合我們的客戶,要知道哪種模型最適合他們,我們正在為他們提供一種更好的評估方法。”AWS不會要求所有客戶都對模型進行基準測試,因為有些開發人員以前可能使用過Bedrock上的一些基礎模型,或是對模型的功能有一定的了解。仍在探索使用哪種模型的公司可以從基準測試過程中受益。
Sivasubramanian 也表示,當人類評估人工智慧模型時,他們可以檢測到自動化系統無法檢測到的其他指標–例如同理心或友善度。
AWS 表示,雖然基準測試服務仍處於預覽階段,但它只對評估過程中使用的模型推理收費。
雖然沒有特定的人工智慧模型基準標準,但一些行業普遍接受特定的指標。Bedrock基準測試的目標不是對模型進行廣泛評估,而是為企業提供一種衡量模型對其專案影響的方法。