Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
    • WordPress 插件及主題下載
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

網路爬蟲無處不在,應當如何規制?

網路爬蟲無處不在,應當如何規制?

2021-10-29 Comments 0 Comment

在大數據時代,除直接通過用戶採集,另一個主要的數據來源就是使用網路爬蟲採集公開資訊。 爬蟲的使用到了何種程度? 有業內人士稱,互聯網50%以上,甚至更高的流量其實都是爬蟲貢獻的。 對某些熱門網頁,爬蟲的訪問量甚至可能佔據了該頁面總訪問量的90%以上。

從技術角度來看,爬蟲就是通過程式去類比人類上網或者瀏覽網頁或者APP行為,再從中抓取爬蟲作者所需要的信息的過程。 隨著數據產業的不斷發展,數據價值的日益高漲,對於數據的爭奪日趨激烈。 “爬蟲”與”反爬蟲”成為無休止的”攻防對抗”,一些爬蟲違反網站意願,對網站進行未經授權的訪問,獲取了網站大量公開或非公開的數據,由此引發諸多法律爭議。

10月23日,杭州長三角大數據研究院、上海市楊浦區人民檢察院、上海市企業法律顧問協會、浙江省企業法律顧問協會與《財經》商業治理研究院共同發起”長三角數據合規論壇暨數據爬蟲的法律規制研討會”,邀請了多位重量級法律學者、法官、檢察官、互聯網從業者從”數據爬蟲技術與產業影響”、”數據爬蟲的民法責任”、”數據爬蟲的刑事合規” 等不同角度展開討論。

01

爬蟲無處不在

“爬蟲應用場景廣泛,合規與不合規的場景都有。 例如,抓取電商網站的評價數據做市場調研;做數字內容的可以利用爬蟲去抓取網路相應內容;抓取裁判文書網數據,進行優化后推出”付費版資料庫”;企查查、天眼查也在利用爬蟲技術對政府公開數據實現商業使用。 “歐萊雅中國區數字化負責人劉煜介紹。

劉煜對爬蟲的基本原理進行了解釋,通常爬蟲會定位網站所有的URL鏈接,獲取頁面里的數據,再對數據進行拆解利用。 不管在網頁端還是移動端,基本爬蟲都基於這樣的原理。 使用爬蟲技術對於『爬蟲一方』和『被爬蟲一方』都具有風險,輕則網站崩潰、重則面臨牢獄之災。

具體來說,對於那些小網站或者技術實力弱的網站,如果爬蟲7X24小時持續訪問,可能因伺服器無法承受激增的流量,導致網站崩潰。 更麻煩的是,對編寫爬蟲的程式師來說,如果爬到不該爬取數據,再利用這些數據,可能屬於違法行為。

劉煜表示,在不同場景中,對於爬蟲的態度截然不同。 例如,搜尋引擎爬蟲受人歡迎,因為搜尋引擎能提高被爬網站的曝光率;但大多數網站也會基於伺服器的風險、或者種種商業原因,不希望爬蟲抓取數據。 拒絕分兩種,『反爬』機制,『反反爬』機制。 網站可以去制定相應策略或者技術手段,去防止爬蟲抓取數據。

網站常見的應對策略是放置Robots協定,該協定由荷蘭工程師傅馬丁·科斯特(Martijn Koster )在1994年編寫,後來成為數據爬取方和被爬取方之間通行的溝通機制。 中國互聯網協會2012年發佈的《中國互聯網行業自律公約》中,將遵守Robots協議認定為「國際通行的行業管理與商業規則」。

▲ Robots 協定是數據爬取方與被爬取方之間的意願溝通機制
▲ Robots 協定是數據爬取方與被爬取方之間的意願溝通機制

但劉煜稱,Robots協定更像君子協定,只能起到告示作用,起不到防範作用。 爬蟲技術、反爬蟲技術、反反爬蟲技術一直在反覆運算,只要網站、App能夠被用戶訪問,就存在被爬取的可能。

惡劣的爬蟲手段會造成社會資源和技術資源的浪費,這些資源都來之不易。 小紅書總法律顧問曾翔表示,有的爬蟲會通過”模擬真人訪問”或者”通過協定破解”來爬取數據。 “這些都是不光彩的手段,被爬取得的網站不得不採取攻防措施,造成不少企業資源的浪費。”

曾翔說,對內容平臺而言,遭遇爬蟲攻擊極易對於自身以及使用者享有的智慧財產權造成侵害。 通常爬取都是有目的的,如果爬取到核心商業機密,可直接用到其他地方形成競爭優勢。 另外,在他看來,爬蟲還涉及到對於互聯網公共秩序的破壞。 “爬取的數據能否有效利用,是否被置於監管之下,這些數據流向何方,都是非常大的問號。”

02

爬蟲的民事責任判定

“技術是中立的,但技術應用永遠不是中立的。” 新浪集團訴訟總監張喆表示,在討論爬蟲技術原理時,更重要的是看爬蟲技術用來幹什麼,看它的行為本身是否具有正當性。

近期,北京市高級人民法院(下稱”北京高院”)對”今日頭條訴微博不正當競爭案”作出二審判決。 此案中,微博因在Robots協定中設置黑名單,限制位元組跳動公司抓取相關網頁內容被訴。 法院認為,微博是在行使企業自主經營權範疇內的正當行為,並不構成不正當競爭,同時撤銷一審判決等。 張喆表示,司法機關對Robots協議評價是”一體兩面”的。

在2020年北京高院對”360訴百度不正當競爭案”做出判決時,認為百度在缺乏合理、正當理由的情況下,不得以主體作為區分,去限制訪問搜尋引擎抓取網站網頁內容(太拗口了,簡單點)。 而在「今日頭條訴微博不正當競爭案」中,法院確立的原則是,企業有權在自主經營範圍內去限制其他訪問者,只有在違反公共利益以及侵犯消費者權利的時候,才有可能被認定其行為不正當。

在華東政法大學法律學院教授、數據法律研究中心主任高富平看來,爬蟲和數據產業是連一起的,現在所謂的數據公司談及的數據智慧、大數據分析基本上是抓取數據,再進行挖掘分析。 現在普遍認為爬蟲是項中立性的技術,但更多時候,消費者是為實現『不勞而獲』的目的。

高富平認為,不談論數據合法生產者具有控制權,難以對爬蟲合法性進行判斷。 國內外爬蟲的合法性邊界探討,主要著眼從數據爬取的手段、目的兩個方面。

從手段上來看,爬蟲無視網站的訪問控制,或者假扮為合法訪問者,會被認為是不合法的;從目的上來看,數據爬取一方是否對被爬取一方提供的部分產品或服務進行”實質性替代”,如果屬”實質性替代”,則目的便是不合法。

網站合法積累數據資源,那麼網站生產端就可以對其進行控制使用,更重要的是承認數據控制者可以基於商業目的來開放數據,通過許可使用方式、交換、交易等方式讓數據能夠被更多人使用。 “高富平對此補充道,”基於數據合法生產者具有控制權的前提,就可以對於那些無視Robots協定的爬取者進行打擊。 ”

上海浦東法院智慧財產權庭法官徐弘韜認為,Robots協定與數據流轉有兩個問題需要考慮:第一,”互聯互通”與數據共享之間的度如何把握;第二,當下各互聯網產業經營者採取的Robots協定策略是否可能導致數據孤島。 互聯互通的實質在於確保數據有序流轉,而不是強行要求互聯網產業經營者對己方平臺內的數據資源向競爭對手全面開放。 在「互聯互通」的語境下,”有序”和”流轉”同等重要、缺一不可,需排除假借”互聯互通”妨礙公平競爭、危害用戶數據安全的行為。

在某新媒體公司爬取微信公眾平台數據案中,杭州互聯網法院已經亮明觀點。 網路平台設置了Robots協定,希望在競爭過程中還是能遵守競爭規範,或者至少能保持一個互相尊重互相遵守協定,才是有序的基礎。

在上述案件中,法院認為,任由第三方爬蟲工具爬取公眾號資訊會打擊平臺創造積極性,並扭曲大數據要素市場競爭機制;從消費者利益角度,未經授權爬取資訊並進行展示,未能尊重資訊發佈主體的意願;從公共利益角度,被告爬取資訊后未深度挖掘、創新,也無更深層次的應用,未能提升社會整體公共利益,加之爬取數據來源並非正常,難謂正當。

徐弘韜認為,數據是內容產業的核心競爭資源,內容平臺經過匯總分析處理后的數據往往具有極高經濟價值。 如果要求內容平台經營者將其核心競爭資源向競爭對手無限開放,不僅有違「互聯互通」的精神實質,也不利於優質內容的不斷更迭和互聯網產業的持續發展。

徐弘韜表示,對非搜尋引擎爬蟲的正當性判斷,可以歸納為四個要素:第一看是否尊重被抓取網站預設的Robots協定;第二看是否破壞被抓取網站的技術措施;第三看是否威脅用戶數據的安全;第四從創造性與公共利益的衡量。

徐弘韜特別指出,包括身份數據、行為數據等在內的用戶數據,不僅僅是經營者的競爭資源,同樣具有個人隱私屬性,而此類數據的集合更涉及社會公共利益。 如果在抓取數據時危害用戶數據安全,其行為不具正當性。

03

爬蟲涉及刑事合規

刑事合規,最初起源於美國,是指國家以刑法為工具,為推動企業開展合規管理,建立的一套督促機制、約束機制和激勵機制。

2020年,在最高人民檢察院推動下,深圳、浙江、江蘇、上海等地基層檢察機關積極探索企業刑事合規。 為了鼓勵更多企業進行合規改制,”刑事合規不起訴”這一全新的刑事訴訟制度在全國鋪開,嘗試選取有可能建立合規的涉罪企業,通過企業認罪認罰、承諾建立合規計劃,進而對企業採取不起訴措施。

上海市人民檢察院第二分院第三檢察部副主任吳菊萍表示,刑事合規主要是為了給涉案企業一個整改自救、重新出發的機會,也是為了保證社會經濟的高質量發展。 而目前很多企業所關注的刑事合規更多的是在探討其經營行為如何避免刑事風險。 吳菊萍認為,企業利用爬蟲技術來做數據分析,就應當注重如何落實刑事合規。

吳菊萍表示,「除了木馬病毒程式等本身就不合法的技術,我們評判一項與爬蟲技術相關的行為是否構成犯罪,首先要看行為人用爬蟲技術幹了什麼事情,有沒有社會危害性,然後再去評判該行為是侵入計算機資訊系統,還是非法獲取計算機資訊系統數據,再看爬取的數據涉及的是企業數據還是公民個人資訊,分別適用相關罪名。 ”

其中,還需要考慮到被爬取數據的法律屬性到底是財產還是僅僅只是數據。 吳菊萍表示,這在司法實踐中存在較大爭議。 “比如,我們有個以非法拘禁的方法強迫對方交付虛擬貨幣的案件,刑事上認定為非法拘禁罪,否定了虛擬貨幣的財產屬性,民事上判返還財產,認可了財產屬性。” 她認為,數據在數位經濟發展中是一個重要的生產要素,本質上應當具備財產屬性,但當前的法律和司法實踐還沒有完全跟上。

華東政法大學教授張勇對爬蟲可能涉及到的犯罪行為進行分類:從可能侵犯到的權益上看,包括計算機系統安全、個人資訊、版權、國家秘密、商業秘密、市場競爭秩序等;從爬取方式來看,可能危害到計算機信息系統安全,非法獲取公民個人資訊,非法獲取商業秘密,破壞版權技術保護措施等;從爬取結果來看,存在不正當競爭類、侵犯著作權類、侵犯人格權類等問題。 ”

《財經》E法在裁判文書網檢索到54份與爬蟲相關的刑事判決,涉及多項罪名。 其中,被認定為侵犯公民個人資訊罪的有26份;非法獲取計算機信息系統罪10份;傳播淫穢物品牟利罪5份;破壞計算機信息系統罪3份;提供侵入、非法控制計算機程式、工具罪3份;侵犯智慧財產權罪3份;非法侵入計算機信息系統罪、開設賭場罪、盜竊罪、詐騙罪各1份。

分享此文:

  • 分享到 Twitter(在新視窗中開啟)
  • 按一下以分享至 Facebook(在新視窗中開啟)
  • 分享到 WhatsApp(在新視窗中開啟)
  • 按一下以分享到 Telegram(在新視窗中開啟)
  • 分享到 Pinterest(在新視窗中開啟)
  • 分享到 Reddit(在新視窗中開啟)
  • 按一下即可分享至 Skype(在新視窗中開啟)
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟)
  • 點這裡列印(在新視窗中開啟)

相關


網絡資訊

Post navigation

PREVIOUS
Redmi Note 11系列手機發佈:120W快充15分鐘滿血
NEXT
上海研製的載人飛行器首飛測試成功 爭取三年後取得適航認證

發表迴響 取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
限時免費
ESET NOD32
WINDOWS 10 &11 INSIDER PREVIEW
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
金融資訊
WhatsApp Stickers教學
WordPress資訊
WeChat資訊
PHP資訊
Plesk資訊
TensorFlow
教學資源
開源程序
網頁工具
SEO工具
醫療健康
旅遊及消閒
其他資訊
Content from
Content to
2021 年 10 月
一 二 三 四 五 六 日
 123
45678910
11121314151617
18192021222324
25262728293031
« 9 月   11 月 »

分類

  • 網站公告
  • 限時免費
  • ESET NOD32
  • WINDOWS 10 &11 INSIDER PREVIEW
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WhatsApp Stickers教學
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • Plesk資訊
  • TensorFlow
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 旅遊及消閒
  • 其他資訊

彙整

近期文章

  • Google版ChatGPT Bard開放測試我們已經體驗上了 2023-03-22
  • Bard開放測試只懂英文、不會編程,一次性給多種答案 2023-03-22
  • Google類ChatGPT產品“巴德”公測準確性依舊是個問題 2023-03-22
  • 應歐盟法規要求消息稱iOS 17將允許第三方應用商店 2023-03-22
  • 對抗ChatGPT:谷歌Bard公測炸場巨頭開啟AI對決 2023-03-22
  • 數字烹飪來了3D打印蛋糕色香味俱全 2023-03-22
  • 自家聊天機器人竟說公司壟斷Google無奈回應:這證明AI會犯錯 2023-03-22
  • 既想加快部署、又要美國製造拜登的充電樁補貼新規自相矛盾 2023-03-22
  • 雀巢稱其三分之一銷售額來自不健康食品35%的產品不健康 2023-03-22
  • 美國芯片製造商Marvell公司宣布裁員4% 2023-03-22

熱門文章與頁面︰

  • DP vs HDMI 誰才是遊戲玩家最佳選擇?
  • 打車叫到特斯拉不會開門很尷尬?官方介紹開關門方法
  • ESET NOD32 LICENSE KEY (UPDATED 2023-01-17)
  • NVIDIA H100 Hopper加速計算卡上市:配備80GB顯存價格超24萬元
  • Windows及OFFICE激活密鑰+電話激活教程–自用
  • Explorer Patcher:讓Windows 11恢復Windows 10的行為特徵
  • 下載WINDOWS10 登入畫面的圖片 (WINDOWS焦點)
  • 微信消息撤回也沒用???這些辦法都能查看撤回的內容
  • Autodesk AutoCAD 2020.1 正式版-簡體中文/繁體中文/英文
  • Autodesk AutoCAD 2021 正式版註冊版-簡體/繁體中文/英文版

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2023   All Rights Reserved.