維基百科向AI開發者提供其數據以抵禦機器人採集工具
維基百科正試圖透過發布專門針對訓練AI模型而優化的資料集,來阻止人工智慧開發人員抄襲該平台。維基媒體基金會週三宣布,已與Google旗下託管機器學習資料的資料科學社群平台Kaggle合作,發布「英語和法語結構化維基百科內容」的測試版資料集。

維基百科表示,Kaggle 託管的數據集“在設計時充分考慮了機器學習的工作流程”,使AI 開發人員能夠更輕鬆地訪問機器可讀的文章數據,以進行建模、微調、基準測試、對齊和分析。資料集中的內容已公開授權,截至4 月15 日,內容包括研究摘要、簡短描述、圖像連結、資訊框資料和文章章節,但不包括參考文獻或音訊檔案等非書面元素。
維基百科表示,Kaggle 用戶可以使用“結構良好的JSON 格式維基百科內容”,這應該比“抓取或解析原始文章文字”更具吸引力。由於自動化AI 機器人不斷消耗平台頻寬,維基百科的伺服器目前承受著巨大的壓力。維基百科已經與Google和互聯網檔案館簽署了內容共享協議,但與Kaggle 的合作應該會讓小型公司和獨立數據科學家更容易獲得這些數據。
Kaggle 合作夥伴負責人Brenda Flynn 表示:“作為機器學習社區的工具和測試平台,Kaggle 非常高興能夠成為維基媒體基金會數據的託管平台。Kaggle 很高興能夠在確保這些數據的可訪問性、可用性和實用性方面發揮作用。”