亞馬遜將提供人類基準測試團隊來測試人工智慧模型

2023-11-30 Comments 0 Comment

亞馬遜希望用戶能更好地評估人工智慧模型，並鼓勵更多人類參與這一過程。在AWS re: Invent 大會上，AWS 資料庫、分析和機器學習副總裁Swami Sivasubramanian 宣布了Bedrock 上的模型評估（Model Evaluation on Bedrock）功能，該功能現已推出預覽版，適用於其儲存庫Amazon Bedrock 中的模型。

如果沒有透明測試模型的方法，開發人員最終可能會使用那些對於問答專案來說不夠準確的模型，或者對於他們的使用案例來說過於龐大的模型。

Sivasubramanian 說：”模型選擇和評估不只是在開始時進行，而是要定期重複進行。我們認為有一個人在環路中是很重要的，因此我們提供了一種方法，可以輕鬆管理人工評估工作流程和模型性能指標”。

有些開發人員常常不知道是否應該在專案中使用更大的模型，因為他們以為功能更強大的模型可以滿足他們的需求。後來他們發現，他們本來可以在更小的模型上進行開發。模型評估包括兩個部分：自動評估和人工評估。在自動化版本中，開發人員可以進入Bedrock 控制台，選擇一個模型進行測試。然後，他們就可以評估模型在摘要、文字分類、問題解答和文字生成等任務中的穩健性、準確性或毒性等指標的表現。

Bedrock 包括流行的第三方人工智慧模型，如Meta 的Llama 2、Anthropic 的Claude 2 和Stability AI 的Stable Diffusion。

AWS 提供測試資料集，客戶也可以將自己的資料帶入基準測試平台，以便更了解模型的表現。系統隨後會產生一份報告。

如果需要人工參與，使用者可以選擇與AWS 人工評估團隊或自己的團隊合作。客戶必須指定任務類型（例如摘要或文字生成）、評估指標以及想要使用的資料集。AWS 將為與評估團隊合作的客戶提供客製化的價格和時間表。

AWS 負責生成式人工智慧的副總裁Vasi Philomin 表示，更了解模型的性能可以更好地指導開發。它還允許公司在使用模型進行建構之前，了解模型是否不符合一些負責任的人工智慧標準，例如較低或過高的毒性敏感度。

Philomin說：”重要的是，模型要適合我們的客戶，要知道哪種模型最適合他們，我們正在為他們提供一種更好的評估方法。”AWS不會要求所有客戶都對模型進行基準測試，因為有些開發人員以前可能使用過Bedrock上的一些基礎模型，或是對模型的功能有一定的了解。仍在探索使用哪種模型的公司可以從基準測試過程中受益。

Sivasubramanian 也表示，當人類評估人工智慧模型時，他們可以檢測到自動化系統無法檢測到的其他指標–例如同理心或友善度。

AWS 表示，雖然基準測試服務仍處於預覽階段，但它只對評估過程中使用的模型推理收費。

雖然沒有特定的人工智慧模型基準標準，但一些行業普遍接受特定的指標。Bedrock基準測試的目標不是對模型進行廣泛評估，而是為企業提供一種衡量模型對其專案影響的方法。

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

WONGCW 網誌

記錄生活經驗與點滴

亞馬遜將提供人類基準測試團隊來測試人工智慧模型

2023-11-30 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆