OpenAI希望與機構合作建立新的人工智慧訓練資料集
用於訓練人工智慧模型的資料集存在嚴重缺陷,這已是公開的秘密。圖像語料庫往往以美國和西方為中心,部分原因是在編制資料集時,西方影像在網路上佔據主導地位。最近,艾倫人工智慧研究所(Allen Institute for AI)的一項研究強調,用於訓練大型語言模型(如Meta’s Llama 2)的數據包含有毒語言和偏見。
模型會以有害的方式放大這些缺陷。現在,OpenAI 表示希望透過與外部機構合作創建新的資料集來消除這些缺陷,並希望這些資料集能夠改進。
OpenAI 今天宣布了”資料夥伴關係”(Data Partnerships)計劃,該計劃旨在與第三方機構合作,建立用於人工智慧模型訓練的公共和私有資料集。OpenAI 在一篇部落格文章中表示,資料合作夥伴關係旨在”讓更多組織能夠幫助引導人工智慧的未來”,並”從更有用的模型中獲益”。
「為了最終製造出安全且有益於全人類的[人工智慧],我們希望人工智慧模型能夠深入理解所有主題、產業、文化和語言,這就需要盡可能廣泛的訓練資料集,」OpenAI寫道。”將您的內容納入其中可以增加人工智慧模型對您所在領域的理解,從而對您更有幫助。”
OpenAI 表示,作為數據合作夥伴計劃的一部分,它將收集”反映全人類社會”的”大規模”數據集,這些數據集目前還不容易在網上獲取。該公司計劃在包括圖像、音訊和視訊在內的各種模式下開展工作,但它特別希望收集能”表達人類意圖”的數據(如長篇寫作或對話),這些數據將跨越不同的語言、主題和格式。
OpenAI表示,如有必要,它將與企業合作,使用光學字元辨識和自動語音辨識工具對訓練資料進行數位化處理,並在必要時刪除敏感或個人資訊。
一開始,OpenAI 希望創建兩種類型的資料集:一種是公開的開源資料集,任何人都可以在人工智慧模型訓練中使用;另一種是私有資料集,用於訓練專有的人工智慧模型。OpenAI表示,私有資料集的物件是那些希望資料保密,但又希望OpenAI的模型能更好地理解其領域的組織;到目前為止,OpenAI已經與冰島政府和Miðeind ehf合作,提高了GPT-4的冰島語能力,並與自由法律計畫合作,提高了模型對法律文件的理解能力。
「總之,我們正在尋求合作夥伴,幫助我們教導人工智慧理解我們的世界,以便最大限度地幫助每個人,」OpenAI 寫道。
那麼,OpenAI 能比之前的許多資料集建置工作做得更好嗎?暫時還不太確定–最大限度地減少資料集的偏差是困擾世界上許多專家的難題。至少,希望該公司能對整個過程保持透明——以及在創建這些數據集時不可避免地遇到的挑戰。
儘管這篇部落格文章用詞華麗,但其中似乎也有明顯的商業動機,那就是以犧牲他人利益為代價來提高OpenAI 模型的性能,而且還不給數據所有者任何補償。這完全符合OpenAI 的權利。但考慮到一些創作者的公開信和訴訟,稱OpenAI 在未經他們許可或支付報酬的情況下,用他們的作品訓練了許多模型,這似乎有點聽不進去。