OpenAI希望與機構合作建立新的人工智慧訓練資料集

2023-11-10 Comments 0 Comment

用於訓練人工智慧模型的資料集存在嚴重缺陷，這已是公開的秘密。圖像語料庫往往以美國和西方為中心，部分原因是在編制資料集時，西方影像在網路上佔據主導地位。最近，艾倫人工智慧研究所（Allen Institute for AI）的一項研究強調，用於訓練大型語言模型（如Meta’s Llama 2）的數據包含有毒語言和偏見。

模型會以有害的方式放大這些缺陷。現在，OpenAI 表示希望透過與外部機構合作創建新的資料集來消除這些缺陷，並希望這些資料集能夠改進。

OpenAI 今天宣布了”資料夥伴關係”（Data Partnerships）計劃，該計劃旨在與第三方機構合作，建立用於人工智慧模型訓練的公共和私有資料集。OpenAI 在一篇部落格文章中表示，資料合作夥伴關係旨在”讓更多組織能夠幫助引導人工智慧的未來”，並”從更有用的模型中獲益”。

「為了最終製造出安全且有益於全人類的[人工智慧]，我們希望人工智慧模型能夠深入理解所有主題、產業、文化和語言，這就需要盡可能廣泛的訓練資料集，」OpenAI寫道。”將您的內容納入其中可以增加人工智慧模型對您所在領域的理解，從而對您更有幫助。”

OpenAI 表示，作為數據合作夥伴計劃的一部分，它將收集”反映全人類社會”的”大規模”數據集，這些數據集目前還不容易在網上獲取。該公司計劃在包括圖像、音訊和視訊在內的各種模式下開展工作，但它特別希望收集能”表達人類意圖”的數據（如長篇寫作或對話），這些數據將跨越不同的語言、主題和格式。

6E9B92E7230BF1952B5470A09D023B5EB7E14821_size929_w1738_h1051.webp

OpenAI表示，如有必要，它將與企業合作，使用光學字元辨識和自動語音辨識工具對訓練資料進行數位化處理，並在必要時刪除敏感或個人資訊。

一開始，OpenAI 希望創建兩種類型的資料集：一種是公開的開源資料集，任何人都可以在人工智慧模型訓練中使用；另一種是私有資料集，用於訓練專有的人工智慧模型。OpenAI表示，私有資料集的物件是那些希望資料保密，但又希望OpenAI的模型能更好地理解其領域的組織；到目前為止，OpenAI已經與冰島政府和Miðeind ehf合作，提高了GPT-4的冰島語能力，並與自由法律計畫合作，提高了模型對法律文件的理解能力。

「總之，我們正在尋求合作夥伴，幫助我們教導人工智慧理解我們的世界，以便最大限度地幫助每個人，」OpenAI 寫道。

那麼，OpenAI 能比之前的許多資料集建置工作做得更好嗎？暫時還不太確定–最大限度地減少資料集的偏差是困擾世界上許多專家的難題。至少，希望該公司能對整個過程保持透明——以及在創建這些數據集時不可避免地遇到的挑戰。

儘管這篇部落格文章用詞華麗，但其中似乎也有明顯的商業動機，那就是以犧牲他人利益為代價來提高OpenAI 模型的性能，而且還不給數據所有者任何補償。這完全符合OpenAI 的權利。但考慮到一些創作者的公開信和訴訟，稱OpenAI 在未經他們許可或支付報酬的情況下，用他們的作品訓練了許多模型，這似乎有點聽不進去。

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

WONGCW 網誌

記錄生活經驗與點滴

OpenAI希望與機構合作建立新的人工智慧訓練資料集

2023-11-10 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆