Anthropic的Claude為快速改進的AI應用增添了一個”評估”方式
Anthropic公司週二發布了幾項新功能,幫助開發人員利用該公司的語言模型Claude創建更有用的應用程式。開發人員現在可以使用Claude 3.5 Sonnet 產生、測試和評估提示,利用提示工程技術創建更好的輸入,並改進Claude 對專門任務的回答。
當語言模型被要求執行某些任務時,它們的容錯率很高,但有時對提示語措辭的微小改動也會導致結果的巨大改進。通常情況下,使用者必須自己斟酌措辭,或聘請一名提示工程師來完成這項工作,但這項新功能提供的快速回饋可以讓你更輕鬆地找到改進之處。
這些功能位於Anthropic Console 的新”評估”標籤下。控制台是這家新創公司為開發人員提供的測試廚房,旨在吸引那些希望使用Claude打造產品的企業。其中一項功能是Anthropic的內建提示產生器,它利用Anthropic自己的提示工程技術,透過對任務的簡短描述,產生更長、更充實的提示。
Anthropic 的工具可能無法完全取代提示工程師,但該公司表示,它將幫助新用戶,並為有經驗的提示工程師節省時間。
在”評估”中,開發人員可以測試其人工智慧應用程式的提示在一系列場景中的有效性。開發人員可以將現實世界中的範例上傳到測試套件中,或讓Claude產生一系列人工智慧產生的測試案例。然後,開發人員可以並排比較各種提示的有效性,並對樣本答案進行五級評分。
輸入產生的數據提示,找出好的和壞的反應。
在Anthropic 部落格文章中的一個例子中,一位開發人員發現他們的應用程式在多個測試案例中給出的答案太短。開發人員能夠調整提示符中的一行,使答案變長,並同時應用於所有測試案例。這可以為開發人員節省大量的時間和精力,尤其是那些幾乎沒有提示工程經驗的開發人員。
Anthropic 執行長兼聯合創辦人 Dario Amodei)在今年稍早接受Google雲端運算大會(Google Cloud Next)採訪時表示,及時工程是企業廣泛採用生成式人工智慧的最重要因素之一。 “這聽起來很簡單,但與及時工程人員交談30分鐘,往往就能讓應用程式正常運行,而以前卻不行。”