蘋果公司稱會採取”負責任”的方式培訓Apple Intelligence模型
蘋果公司發布了一份技術文件,詳細介紹了其為Apple Intelligence(Apple Intelligence)開發的模型,未來幾個月內,蘋果將在iOS、macOS 和iPadOS 上推出一系列生成式人工智慧功能。
在這份文件中,蘋果反擊了有關其在訓練某些模型時採用了有道德問題的方法的指責,重申它沒有使用私人用戶數據,而是綜合利用了公開數據和授權數據來開發Apple Intelligence 。
“[預]訓練資料集由…我們從出版商處獲得授權的資料、經過策劃的公開或開源資料集以及我們的網路爬蟲Applebot 抓取的公開資訊組成,”蘋果公司在論文中寫道。 “鑑於我們注重保護用戶隱私,我們注意到資料混合物中不包括蘋果用戶的私人資料”。
今年7 月,Proof News報道稱,蘋果公司使用了一個名為”The Pile”的資料集(其中包含數十萬個YouTube 影片的字幕)來訓練一系列專為設備處理而設計的模型。許多字幕被捲入The Pile 的YouTube 創作者並不知道也不同意這樣做;蘋果後來發表聲明稱,它並不打算使用這些模型為其產品中的任何人工智慧功能提供動力。
這份技術文件揭開了蘋果公司在今年6 月WWDC 2024大會上首次披露的名為”蘋果基礎模型(Apple Foundation Models,AFM)”的模型的神秘面紗,文件強調,AFM 模型的訓練數據是以”負責任”的方式取得的–至少按照蘋果公司的定義是負責任的。
AFM 模型的訓練資料包括公開的網路資料以及未公開出版商的授權資料。根據《紐約時報》報道,蘋果在2023 年底與NBC、Condé Nast 和IAC 等多家出版商達成了價值至少5000 萬美元的多年協議,在出版商的新聞檔案中訓練模型。蘋果的AFM 模型也在GitHub 上託管的開源程式碼上進行了訓練,特別是Swift、Python、C、Objective-C、C++、JavaScript、Java 和Go 程式碼。
在未經許可的程式碼(即使是開放程式碼)上訓練模型是開發人員之間的一個爭議點。一些開發者認為,有些開源程式庫沒有獲得許可,或在使用條款中不允許進行人工智慧訓練。但蘋果表示,它對程式碼進行了”許可過濾”,盡量只包含使用限制最少的軟體來源,例如那些採用MIT、ISC 或Apache 許可的軟體來源。
論文稱,為了提高AFM 模型的數學技能,蘋果特別在訓練集中加入了來自網頁、數學論壇、部落格、教程和研討會的數學問題和答案。該公司還利用了”高品質、可公開取得的”資料集(論文中未提及名稱),這些資料集”擁有允許用於訓練…模型的許可證”,並經過過濾以去除敏感資訊。
總的來說,AFM 模型的訓練資料集約有6.3 兆個詞元(詞元是小塊數據,通常更容易被生成式人工智慧模型吸收)。相較之下,這還不到Meta 用來訓練其旗艦文本生成模型Llama 3.1 405B 的代幣數量(15 兆)的一半。
蘋果收集了更多數據,包括人類回饋的數據和合成數據,以微調AFM 模型,並嘗試減少任何不良行為,例如泵出毒性內容。
該公司表示:”我們創建模型的目的是幫助用戶在他們的蘋果產品上進行日常活動。”
這篇論文中沒有提供任何證據,也沒有令人震驚的見解–這是精心設計的。由於競爭壓力,同時也因為揭露過多可能會為公司帶來法律糾紛,所以這類論文很少會非常露骨。
一些公司透過搜尋公共網路資料來培訓模型,並聲稱他們的做法受到合理使用原則的保護。但這個問題仍有待商榷,而且訴訟數量也不斷增加。
蘋果在論文中指出,它允許網站管理員阻止其爬蟲搜尋他們的資料。但這讓個人創作者陷入困境。舉例來說,如果藝術家的作品集存放在一個拒絕阻止蘋果資料抓取的網站上,他該怎麼辦?
法庭之爭將決定人工智慧生成模型及其訓練方式的命運。不過目前,蘋果正試圖將自己定位為一個有道德的企業,同時避免不必要的法律審查。
了解更多: