Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

業內:ChatGPT們毀了網絡共享根基,內容所有者不願再分享

業內:ChatGPT們毀了網絡共享根基,內容所有者不願再分享

2023-09-01 Comments 0 Comment

隨著人工智能技術的迅猛發展,曾經用於搜索引擎索引的網絡爬蟲現在被用於收集訓練數據來開發人工智能模型。內容創作者意識到,他們的勞動成果被大科技公司免費使用來開發新的人工智能工具,爬蟲協議已經無法解決這個問題。這可能會影響內容所有者在線分享內容的動力,從而從根本上改變互聯網。

以下為翻譯內容:

20世紀90年代末,出現了一種名為爬蟲協議(robots.txt)的簡單代碼,允許網站所有者告知搜索引擎的機器人爬蟲哪些頁面可以抓取,哪些頁面不能抓取。如今,爬蟲協議已成為業界普遍接受的非官方網絡規則之一。

機器人爬蟲的主要目的是索引信息,改善搜索引擎的搜索結果。谷歌、必應和其他搜索引擎都有爬蟲程序,它們生成網絡內容的索引信息,並提供給潛在的數十億用戶。這也是互聯網蓬勃發展的基礎,創作者們在網絡上分享豐富信息,因為他們知道用戶會訪問他們的網站並瀏覽廣告、訂閱服務或購買商品。

然而,生成式人工智能和大語言模型正在從根本上迅速改變網絡爬蟲的任務。這些工具並沒有為內容創作者提供支持,反而成為他們的敵人。

機器人餵飽了大科技公司

現在,網絡爬蟲收集在線信息,並生成大規模的數據集,這些數據集被富有的科技公司免費用於開發人工智能模型。比如,CCBot為最大的人工智能數據集之一CommonCrawl提供數據;GPTbot則是向人工智能明星創企OpenAI提供數據。谷歌將自家的大語言模型的訓練數據稱為“無限集合”,但沒有提及大部分數據來自CommonCrawl的精簡版C4。

這些公司開發的人工智能模型使用這些免費信息來學習如何回答用戶的問題,這與為網站建立索引信息、讓用戶訪問原始內容的既定模式相去甚遠。

如果沒有潛在的消費者,內容創作者就沒有動力讓網絡爬蟲繼續收集免費數據。GPTbot已被亞馬遜、愛彼迎、Quora和其他上千家網站屏蔽。對CommonCrawl數據集的CCBot的屏蔽也越來越多。

“粗糙的工具”

阻止這些網絡爬蟲的方式並沒有太大變化。網站所有者只能部署爬蟲協議並屏蔽特定爬蟲,但效果並不理想。

“這是件有點粗糙的工具,”Wordpress前高管、科技投資者、數字營銷公司Yoast創始人約斯特·德·瓦爾克(Joost de Valk)說。“它沒有法律依據,基本上是由谷歌維護的,儘管他們聲稱是與其他搜索引擎共同維護的。”

考慮到各大企業對高質量人工智能數據的巨大需求,爬蟲協議也容易被操縱。例如,像OpenAI這樣的公司只需更改其網絡爬蟲的名稱,就可以繞過人們使用爬蟲協議設置的禁止規則。

此外,由於爬蟲協議是自願遵守的,網絡爬蟲也可以簡單地忽略指令並繼續收集信息。像Brave等較新的搜索引擎的網絡爬蟲就不會受到規則的影響。

“網上的一切信息都被模型吸進了真空,”研究人類生成數據與人工智能之間關係的計算機科學教授尼克·文森特(Nick Vincent)說。“這背後發生了很多事情。在接下來的時間裡,我們希望能以不同的方式評估這些模型。

創作者的回應

德·瓦爾克警告稱,內容所有者和創作者可能已經太遲鈍,無法理解允許這些網絡爬蟲免費獲取他們的數據、不加區分地使用這些數據來開發人工智能模型的風險。

“現在,什麼都不做意味著,’我認可我的內容出現在世界上所有的人工智能和大語言模型中,’”德·瓦爾克說。“這是完全錯誤的。需要創建更好的爬蟲協議,但搜索引擎和大型人工智能團隊自己很難會去做這件事。”

一些大公司和網站最近做出了回應,其中一些是第一次部署爬蟲協議。

檢測人工智能生成內容的公司Originality.ai表示,截至8月22日,在1000個最受用戶歡迎的網站中有70個使用爬蟲協議屏蔽GPTBot。

Originality.ai還發現,在1000個最受歡迎的網站中,有62個屏蔽了CommonCrawl的網絡爬蟲CCBot。隨著人們對人工智能數據收集的意識日益增強,今年有越來越多的網站開始屏蔽CommonCrawl。

然而,網站不能強制執行爬蟲協議。任何爬蟲都可以忽略該文件,繼續收集網頁上的數據,而網頁所有者可能根本不知情。即使部署爬蟲協議具有法律依據,其初衷與利用網絡信息開發人工智能模型關係不大。

紐約大學技術法律與政策診所主任傑森·舒爾茨(JasonSchultz)表示,”Robots.txt不太可能被視為禁止使用網站數據的法律。”這主要是為了表明人們不希望自己的網站被搜索引擎編入索引,而不是表示人們不希望自己的內容被用於訓練機器學習和人工智能。

“這是一個雷區”

事實上,這種情況已經持續了多年。早在2018年,OpenAI就公佈了首個GPT模型,並通過BookCorpus數據集進行訓練。CommonCrawl始於2008年,並於2011年通過亞馬遜雲服務公開了數據集。

儘管如今屏蔽GPTBot的網站越來越多,但對於那些擔心自己的數據被用於訓練人工智能模型的企業來說,CommonCrawl的威脅更大。可以說,CommonCrawl之於人工智能,就像谷歌之於互聯網搜索。

非營利組織知識共享(Creative Commons)首席執行官凱瑟琳·斯蒂勒(Catherine Stihler)表示,

“這是一個雷區。我們幾年前才更新了戰略,現在我們處於一個不同的世界。”

知識共享始於2001年,是創作者和內容所有者用知識共享許可協議來替代嚴格版權,在網上使用並分享作品許可的一種方式。在共享許可協議的基礎上,創作者和所有者保留他們的權利,並允許其他人訪問內容並創作衍生作品。維基百科、Flickr、StackOverflow等許多知名網站都是通過知識共享許可協議運作的。

知識共享組織在最新的五年戰略中表示,在訓練人工智能技術方面,開放內容的使用存在問題。知識共享組織希望使在線作品共享更加公平。

1600億網頁

通過CCBot爬取公開信息的CommonCrawl擁有最大的數據存儲庫。自2011年以來,它已從1600億個網頁中抓取和保存信息,並持續增加。一般來說,CommonCrawl每月抓取並保存大約30億個網頁的信息。

Common Crawl稱,這項事業是一個“開放數據”項目,旨在讓任何人“打開自己的好奇心,分析世界,追求卓越的想法”。

然而,現在的情況完全不同。大量Common Crawl收集的數據被大科技公司用於開發專有模型。即使一家大型科技公司目前沒有從人工智能產品中獲利,未來也有可能這樣做。

一些大型科技公司已停止披露訓練數據來源。然而,許多強大的人工智能模型都是使用CommonCrawl開發的。它幫助谷歌開發了Bard,幫助Meta訓練Llama,幫助OpenAI創建ChatGPT。

Common Crawl還向ThePile提供數據,後者還擁有更多從其他爬蟲抓取的數據集。ThePile已廣泛用於人工智能項目,包括Llama和微軟與英偉達共同開發的MT-NLG。

從今年6月份開始,ThePile下載量最大的數據之一是受版權保護的漫畫書,包括阿奇漫畫、蝙蝠俠、X戰警、星球大戰和超人系列的作品。這些作品都是DC漫畫和漫威創作的,現在仍受版權保護。最近有報導稱,ThePile中還存儲了大量受版權保護的書籍。

紐約大學的舒爾茨表示,爬蟲的目的和使用方式完全不同。很難監管或要求它們以特定方式使用數據。

對於The Pile來說,雖然它承認數據中包含受版權保護的材料,但在創立數據集的技術文章中聲稱,“處理和分發他人擁有的數據也可能違反版權法”的說法幾乎沒有人會認同。

此外,The Pile還辯稱,儘管數據集中存儲了相對未經改變的作品,但根據合理使用原則,對這些材料的使用應該是變革性的。ThePile還承認,在訓練大語言模型時,需要使用完整的版權內容以產生最佳效果。

網絡爬蟲和人工智能項目中所謂的合理使用觀點已經受到了質疑。作家、視覺藝術家甚至源代碼開發人員起訴OpenAI、微軟和Meta等公司,因為他們的原創作品在未經許可的情況下被用於訓練模型,而他們並沒有從中受益。

微軟前高管、風投公司安德森·霍洛維茨(Andreessen Horowitz)合夥人史蒂文·辛諾夫斯基(Steven Sinofsky)最近在社交媒體上寫道,即便將東西放到互聯網上,也不能不經同意就免費、無限制地將某人的勞動成果用於商業用途。

沒有解決辦法

“我們現在正在努力解決所有這些問題,”知識共享組織首席執行官斯蒂勒表示,有很多問題需要解決:補償、授權、信任。在人工智能時代,我們還沒有答案。

德·瓦爾克表示,由於知識共享許可協議可以促進版權的流通性、允許自己擁有的作品在互聯網上使用,可以作為開發人工智能模型的一種潛在許可模式。

斯蒂勒對此並不確定。她說,涉及到人工智能時,也許並沒有單一的解決方案。即使是更靈活的通用協議,也可能行不通。你如何向整個互聯網授權?

斯蒂勒說:“與我交談過的每一位律師都說,許可並不能解決問題。”

她經常與作者、人工智能行業高管等利益相關者討論這個問題。斯蒂勒今年早些時候會見了OpenAI的代表,並表示公司正在討論如何獎勵創作者。

但她補充說,目前還不清楚人工智能時代的公共空間將會是什麼樣子。

鑑於網絡爬蟲已經為大型科技公司收集了大量數據,加上內容創作者根本無法掌控,互聯網可能會發生巨大變化。

如果發布信息意味著將數據免費提供給與自己競爭的人工智能模型,那麼這種活動可能會停止。

已經有跡象表明,訪問問答網站Stack Overflow來回答問題的程序員越來越少,因為他們之前的付出被用來訓練人工智能模型,現在這些模型可以自動回答許多問題。

斯蒂勒表示,所有在線創作內容的未來可能很快就會像現在的流媒體一樣,內容被鎖在訂閱服務中,成本越來越高。

“如果我們不小心,最終就會導致公共空間關閉,”斯蒂勒說。“將會有更多有圍牆的花園、更多人們無法訪問的東西。這不是未來知識和創造力的成功模式。”

分享此文:

  • 按一下即可分享至 X(在新視窗中開啟) X
  • 按一下以分享至 Facebook(在新視窗中開啟) Facebook
  • 分享到 WhatsApp(在新視窗中開啟) WhatsApp
  • 按一下以分享到 Telegram(在新視窗中開啟) Telegram
  • 分享到 Pinterest(在新視窗中開啟) Pinterest
  • 分享到 Reddit(在新視窗中開啟) Reddit
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟) 電子郵件
  • 點這裡列印(在新視窗中開啟) 列印

相關


網絡資訊

Post navigation

PREVIOUS
蘋果的怪獸芯片M2 Ultra深度解讀
NEXT
Xbox主機即將支持錄頻片段直接同步OneDrive

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
赫思醫美
限時免費
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
WordPress資訊
WeChat資訊
PHP資訊
教學資源
開源程序
網頁工具
SEO工具
醫療健康
其他資訊
Content from
Content to
2023 年 9 月
一 二 三 四 五 六 日
 123
45678910
11121314151617
18192021222324
252627282930  
« 8 月   10 月 »

分類

  • 網站公告
  • 赫思醫美
  • 限時免費
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 其他資訊

彙整

近期文章

  • 植髮手術怎麼選?從剃髮與不剃髮的區別找到最適合方案 2025-07-09
  • 把葉綠體「偷」到自己體內這些動物曬太陽就能活 2025-07-09
  • 茶顏悅色進軍美國:不賣奶茶專攻茶週邊零食 2025-07-09
  • 全球最大的3D列印學校建築計畫正在卡達建設中 2025-07-09
  • 分析師呼籲特斯拉董事會限制馬斯克結束“肥皂劇” 2025-07-09
  • Switch2在日首月熱銷140萬台《瑪利歐賽車:世界》登頂軟體榜 2025-07-09
  • 全新速騰L正式下線顏值飆升 2025-07-09
  • 多人收到河北文旅千條簡訊轟炸手機流量被限速、佔用數十GB儲存空間 2025-07-09
  • 全球最高遺產稅壓頂三星家族拋售梨泰院豪宅賺了146億 2025-07-09
  • 石破茂:美國造的尺寸大、油耗高的汽車在日本沒有市場 2025-07-09

熱門文章與頁面︰

  • 無3C行動電源禁止登機一文看懂到底什麼是3C認證、如何分辨真偽
  • 您可以在Windows 11 24H2 中找回WordPad
  • YouTube By Click 2.2.86(含:註冊機序列號)
  • CCleaner全家桶激活密鑰
  • 日本川崎重工確認開發氫能飛機部件計劃2040年投用
  • 美國力推車聯網(V2X)技術以降低交通事故率
  • 拆解報告:20000mAh 18W PD雙向快充版小米移動電源3 PLM18ZM
  • Windows 10用固態硬盤還是太卡?教你一個提速神招
  • Photon Matrix:針對蚊子的“防空系統”
  • 充電器上的100V-240V代表什麼意思?

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

赫思醫美

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2025   All Rights Reserved.