本科生已不夠AI公司僱用各領域專家訓練大模型
人工智慧模型的性能在很大程度上依賴其訓練資料的品質。傳統方法通常是僱用大量低成本勞動力對圖像、文字等資料進行標註,以滿足模型訓練的基本需求。然而,這種方式容易導致模型在理解和產生訊息時出現「幻覺」現象,即產生不準確或誤導性的資訊。為了解決這個問題,許多新創公司如今更傾向於聘請擁有高學歷和專業背景的專家來參與模型訓練,確保訓練資料的準確性和深度,從而提升模型的整體表現。
以下為翻譯全文:
早年,像ChatGPT及其競爭對手Cohere等人工智慧模型要產生類似人類的反應,需要依賴大量低成本的人力團隊,幫助模型區分基本事實,例如一張圖像是汽車還是胡蘿蔔。
然而,隨著競爭愈發激烈,對人工智慧模型的升級已轉變為一項高複雜度的專業任務,如今需要一個快速擴展的專業訓練師網路。這些訓練師涵蓋從歷史學家到科學家等專業人才,有些甚至擁有博士學位。
Cohere聯合創始人Ivan Zhang在談到其內部訓練師隊伍的變化時表示:「一年前,我們還可以僱用本科生來大致教AI如何改進。而現在,我們有執業醫師教模型如何在醫療環境中工作,還有金融分析師和會計師幫助模型在特定領域表現更好。
為提升培訓能力,估值已超50億美元的Cohere與一家名為Invisible Tech的新創公司合作。 Cohere是OpenAI的主要競爭對手之一,專注於為企業提供AI服務。
新創公司Invisible Tech僱用了數千名遠端培訓師,並已成為AI行業的主要合作夥伴之一,為包括AI21和微軟在內的多家人工智慧公司提供訓練服務,幫助減少被稱為“幻覺”的AI錯誤現象。 Invisible創辦人 Francis Pedraza表示:“我們在全球100多個國家擁有5000多名具有博士、碩士學位及深厚專業知識的專家。”
根據任務的複雜程度和工作地點,Invisible的時薪最高可達40美元。其他公司如Outlier支付的時薪高達50美元,而Labelbox則為像量子物理這樣的「高專業性」科目提供高達200美元的時薪,基礎類任務起步價為15美元。
Invisible成立於2015年,最初主要為DoorDash等公司提供工作流程自動化服務,例如將外帶菜單數位化。然而,轉捩點出現在2022年春季,在ChatGPT公開發布前,OpenAI主動尋求與Invisible合作。
佩德拉薩回憶道:「OpenAI遇到了一個問題,早期版本的ChatGPT在回答問題時容易陷入’幻覺’,其答案不可靠。為此,他們需要一個能夠透過人類反饋來強化AI學習的先進訓練夥伴。
生成式人工智慧依賴過去用於訓練的資料來產生新內容。然而,有時它無法區分真假訊息,產生所謂的「幻覺」。一個例子發生在2023年,當時谷歌的聊天機器人在宣傳影片中分享了哪個望遠鏡首次拍攝到太陽系外行星的不準確資訊。
AI公司意識到,「幻覺」現象可能會影響生成式人工智慧在商業領域的吸引力,因此他們正在嘗試各種方法來減少這種現象,其中包括利用人類訓練師來教導AI區分事實與虛構。
自與OpenAI合作以來,Invisible迅速成為許多生成式AI公司的首選培訓夥伴,其客戶包括Cohere、AI21和微軟等。儘管微軟尚未正式確認合作關係,但Cohere和AI21已承認是Invisible的大客戶。
佩德拉薩指出:“在人工智慧行業,培訓成本是企業的第二大支出,僅次於算力。而高品質的培訓對於確保模型的準確性和可靠性至關重要。”
它是如何運作的?
OpenAI的生成式人工智慧熱潮背後有一個名為「人類資料團隊」的團隊支援。團隊與AI訓練師合作,收集專業資料以訓練ChatGPT等模型。
熟悉該公司流程的知情人士透露,OpenAI的研究人員設計了一系列實驗,旨在解決諸如減少「幻覺」、優化寫作風格等問題。他們與Invisible等供應商的AI訓練師合作,根據需求收集和處理資料。
上述知情人士說,在任何時候,同時進行的實驗項目都可能多達數十項,這些項目擁有的可以採用OpenAI的自研工具,也可以使用供應商提供的解決方案。
Invisible會根據AI公司的需求,僱用具有相關學科背景的專家,無論是研究瑞典歷史的學者還是金融建模專家,都可以為這些AI項目貢獻力量,幫助減少AI公司管理大量訓練師的負擔。
佩德拉薩表示:「OpenAI擁有世界頂尖的電腦科學家,但他們不一定精通瑞典歷史、化學或生物等專業領域的問題。」他補充說,光是OpenAI就有超過1000名合約工為其提供數據標註服務。
Cohere的Ivan Zhang親自體驗了Invisible訓練師的能力,並成功教會Cohere的生成式AI模型如何從大數據集中提取相關資訊。
競爭加劇
在AI訓練資料集領域,Scale AI是Invisible的主要競爭對手。這家私人新創公司估值達140億美元,不僅提供資料集服務,也開始為AI公司提供培訓服務,並將OpenAI列為其客戶之一。 Scale AI沒有回應置評請求。
相較之下,Invisible的資金募集顯得更為保守,自2021年起開始獲利,僅獲得了800萬美元的主要資本。佩德拉薩表示:「我們70%的股權歸團隊所有,30%的股權歸投資者。」他也透露,最近的公司估值已達5億美元。
最早進入AI訓練領域的培訓師主要透過從事數據標註工作,要求相對較低,因此報酬也較低,有時每小時薪酬低至2美元,主要由非洲和亞洲國家的勞動者完成。
然而,隨著AI技術的快速發展,對專業培訓師的需求急劇上升,涵蓋數十種語言和領域,創造了一個高薪利基市場。如今,來自各學科的專家無需程式設計技能,也有機會成為AI培訓師。
AI公司的需求正催生出更多提供類似服務的企業。 Ivan Zhang說:「我的收件匣幾乎被不斷湧現的新公司所淹沒,這些公司紛紛湧入人工智慧訓練服務市場。這的確是一個全新的領域,公司僱用人類只是為了給我們這樣的人工智慧實驗室創造數據。