網路爬蟲無處不在,應當如何規制?
在大數據時代,除直接通過用戶採集,另一個主要的數據來源就是使用網路爬蟲採集公開資訊。 爬蟲的使用到了何種程度? 有業內人士稱,互聯網50%以上,甚至更高的流量其實都是爬蟲貢獻的。 對某些熱門網頁,爬蟲的訪問量甚至可能佔據了該頁面總訪問量的90%以上。
從技術角度來看,爬蟲就是通過程式去類比人類上網或者瀏覽網頁或者APP行為,再從中抓取爬蟲作者所需要的信息的過程。 隨著數據產業的不斷發展,數據價值的日益高漲,對於數據的爭奪日趨激烈。 “爬蟲”與”反爬蟲”成為無休止的”攻防對抗”,一些爬蟲違反網站意願,對網站進行未經授權的訪問,獲取了網站大量公開或非公開的數據,由此引發諸多法律爭議。
10月23日,杭州長三角大數據研究院、上海市楊浦區人民檢察院、上海市企業法律顧問協會、浙江省企業法律顧問協會與《財經》商業治理研究院共同發起”長三角數據合規論壇暨數據爬蟲的法律規制研討會”,邀請了多位重量級法律學者、法官、檢察官、互聯網從業者從”數據爬蟲技術與產業影響”、”數據爬蟲的民法責任”、”數據爬蟲的刑事合規” 等不同角度展開討論。
01
爬蟲無處不在
“爬蟲應用場景廣泛,合規與不合規的場景都有。 例如,抓取電商網站的評價數據做市場調研;做數字內容的可以利用爬蟲去抓取網路相應內容;抓取裁判文書網數據,進行優化后推出”付費版資料庫”;企查查、天眼查也在利用爬蟲技術對政府公開數據實現商業使用。 “歐萊雅中國區數字化負責人劉煜介紹。
劉煜對爬蟲的基本原理進行了解釋,通常爬蟲會定位網站所有的URL鏈接,獲取頁面里的數據,再對數據進行拆解利用。 不管在網頁端還是移動端,基本爬蟲都基於這樣的原理。 使用爬蟲技術對於『爬蟲一方』和『被爬蟲一方』都具有風險,輕則網站崩潰、重則面臨牢獄之災。
具體來說,對於那些小網站或者技術實力弱的網站,如果爬蟲7X24小時持續訪問,可能因伺服器無法承受激增的流量,導致網站崩潰。 更麻煩的是,對編寫爬蟲的程式師來說,如果爬到不該爬取數據,再利用這些數據,可能屬於違法行為。
劉煜表示,在不同場景中,對於爬蟲的態度截然不同。 例如,搜尋引擎爬蟲受人歡迎,因為搜尋引擎能提高被爬網站的曝光率;但大多數網站也會基於伺服器的風險、或者種種商業原因,不希望爬蟲抓取數據。 拒絕分兩種,『反爬』機制,『反反爬』機制。 網站可以去制定相應策略或者技術手段,去防止爬蟲抓取數據。
網站常見的應對策略是放置Robots協定,該協定由荷蘭工程師傅馬丁·科斯特(Martijn Koster )在1994年編寫,後來成為數據爬取方和被爬取方之間通行的溝通機制。 中國互聯網協會2012年發佈的《中國互聯網行業自律公約》中,將遵守Robots協議認定為「國際通行的行業管理與商業規則」。
▲ Robots 協定是數據爬取方與被爬取方之間的意願溝通機制
但劉煜稱,Robots協定更像君子協定,只能起到告示作用,起不到防範作用。 爬蟲技術、反爬蟲技術、反反爬蟲技術一直在反覆運算,只要網站、App能夠被用戶訪問,就存在被爬取的可能。
惡劣的爬蟲手段會造成社會資源和技術資源的浪費,這些資源都來之不易。 小紅書總法律顧問曾翔表示,有的爬蟲會通過”模擬真人訪問”或者”通過協定破解”來爬取數據。 “這些都是不光彩的手段,被爬取得的網站不得不採取攻防措施,造成不少企業資源的浪費。”
曾翔說,對內容平臺而言,遭遇爬蟲攻擊極易對於自身以及使用者享有的智慧財產權造成侵害。 通常爬取都是有目的的,如果爬取到核心商業機密,可直接用到其他地方形成競爭優勢。 另外,在他看來,爬蟲還涉及到對於互聯網公共秩序的破壞。 “爬取的數據能否有效利用,是否被置於監管之下,這些數據流向何方,都是非常大的問號。”
02
爬蟲的民事責任判定
“技術是中立的,但技術應用永遠不是中立的。” 新浪集團訴訟總監張喆表示,在討論爬蟲技術原理時,更重要的是看爬蟲技術用來幹什麼,看它的行為本身是否具有正當性。
近期,北京市高級人民法院(下稱”北京高院”)對”今日頭條訴微博不正當競爭案”作出二審判決。 此案中,微博因在Robots協定中設置黑名單,限制位元組跳動公司抓取相關網頁內容被訴。 法院認為,微博是在行使企業自主經營權範疇內的正當行為,並不構成不正當競爭,同時撤銷一審判決等。 張喆表示,司法機關對Robots協議評價是”一體兩面”的。
在2020年北京高院對”360訴百度不正當競爭案”做出判決時,認為百度在缺乏合理、正當理由的情況下,不得以主體作為區分,去限制訪問搜尋引擎抓取網站網頁內容(太拗口了,簡單點)。 而在「今日頭條訴微博不正當競爭案」中,法院確立的原則是,企業有權在自主經營範圍內去限制其他訪問者,只有在違反公共利益以及侵犯消費者權利的時候,才有可能被認定其行為不正當。
在華東政法大學法律學院教授、數據法律研究中心主任高富平看來,爬蟲和數據產業是連一起的,現在所謂的數據公司談及的數據智慧、大數據分析基本上是抓取數據,再進行挖掘分析。 現在普遍認為爬蟲是項中立性的技術,但更多時候,消費者是為實現『不勞而獲』的目的。
高富平認為,不談論數據合法生產者具有控制權,難以對爬蟲合法性進行判斷。 國內外爬蟲的合法性邊界探討,主要著眼從數據爬取的手段、目的兩個方面。
從手段上來看,爬蟲無視網站的訪問控制,或者假扮為合法訪問者,會被認為是不合法的;從目的上來看,數據爬取一方是否對被爬取一方提供的部分產品或服務進行”實質性替代”,如果屬”實質性替代”,則目的便是不合法。
網站合法積累數據資源,那麼網站生產端就可以對其進行控制使用,更重要的是承認數據控制者可以基於商業目的來開放數據,通過許可使用方式、交換、交易等方式讓數據能夠被更多人使用。 “高富平對此補充道,”基於數據合法生產者具有控制權的前提,就可以對於那些無視Robots協定的爬取者進行打擊。 ”
上海浦東法院智慧財產權庭法官徐弘韜認為,Robots協定與數據流轉有兩個問題需要考慮:第一,”互聯互通”與數據共享之間的度如何把握;第二,當下各互聯網產業經營者採取的Robots協定策略是否可能導致數據孤島。 互聯互通的實質在於確保數據有序流轉,而不是強行要求互聯網產業經營者對己方平臺內的數據資源向競爭對手全面開放。 在「互聯互通」的語境下,”有序”和”流轉”同等重要、缺一不可,需排除假借”互聯互通”妨礙公平競爭、危害用戶數據安全的行為。
在某新媒體公司爬取微信公眾平台數據案中,杭州互聯網法院已經亮明觀點。 網路平台設置了Robots協定,希望在競爭過程中還是能遵守競爭規範,或者至少能保持一個互相尊重互相遵守協定,才是有序的基礎。
在上述案件中,法院認為,任由第三方爬蟲工具爬取公眾號資訊會打擊平臺創造積極性,並扭曲大數據要素市場競爭機制;從消費者利益角度,未經授權爬取資訊並進行展示,未能尊重資訊發佈主體的意願;從公共利益角度,被告爬取資訊后未深度挖掘、創新,也無更深層次的應用,未能提升社會整體公共利益,加之爬取數據來源並非正常,難謂正當。
徐弘韜認為,數據是內容產業的核心競爭資源,內容平臺經過匯總分析處理后的數據往往具有極高經濟價值。 如果要求內容平台經營者將其核心競爭資源向競爭對手無限開放,不僅有違「互聯互通」的精神實質,也不利於優質內容的不斷更迭和互聯網產業的持續發展。
徐弘韜表示,對非搜尋引擎爬蟲的正當性判斷,可以歸納為四個要素:第一看是否尊重被抓取網站預設的Robots協定;第二看是否破壞被抓取網站的技術措施;第三看是否威脅用戶數據的安全;第四從創造性與公共利益的衡量。
徐弘韜特別指出,包括身份數據、行為數據等在內的用戶數據,不僅僅是經營者的競爭資源,同樣具有個人隱私屬性,而此類數據的集合更涉及社會公共利益。 如果在抓取數據時危害用戶數據安全,其行為不具正當性。
03
爬蟲涉及刑事合規
刑事合規,最初起源於美國,是指國家以刑法為工具,為推動企業開展合規管理,建立的一套督促機制、約束機制和激勵機制。
2020年,在最高人民檢察院推動下,深圳、浙江、江蘇、上海等地基層檢察機關積極探索企業刑事合規。 為了鼓勵更多企業進行合規改制,”刑事合規不起訴”這一全新的刑事訴訟制度在全國鋪開,嘗試選取有可能建立合規的涉罪企業,通過企業認罪認罰、承諾建立合規計劃,進而對企業採取不起訴措施。
上海市人民檢察院第二分院第三檢察部副主任吳菊萍表示,刑事合規主要是為了給涉案企業一個整改自救、重新出發的機會,也是為了保證社會經濟的高質量發展。 而目前很多企業所關注的刑事合規更多的是在探討其經營行為如何避免刑事風險。 吳菊萍認為,企業利用爬蟲技術來做數據分析,就應當注重如何落實刑事合規。
吳菊萍表示,「除了木馬病毒程式等本身就不合法的技術,我們評判一項與爬蟲技術相關的行為是否構成犯罪,首先要看行為人用爬蟲技術幹了什麼事情,有沒有社會危害性,然後再去評判該行為是侵入計算機資訊系統,還是非法獲取計算機資訊系統數據,再看爬取的數據涉及的是企業數據還是公民個人資訊,分別適用相關罪名。 ”
其中,還需要考慮到被爬取數據的法律屬性到底是財產還是僅僅只是數據。 吳菊萍表示,這在司法實踐中存在較大爭議。 “比如,我們有個以非法拘禁的方法強迫對方交付虛擬貨幣的案件,刑事上認定為非法拘禁罪,否定了虛擬貨幣的財產屬性,民事上判返還財產,認可了財產屬性。” 她認為,數據在數位經濟發展中是一個重要的生產要素,本質上應當具備財產屬性,但當前的法律和司法實踐還沒有完全跟上。
華東政法大學教授張勇對爬蟲可能涉及到的犯罪行為進行分類:從可能侵犯到的權益上看,包括計算機系統安全、個人資訊、版權、國家秘密、商業秘密、市場競爭秩序等;從爬取方式來看,可能危害到計算機信息系統安全,非法獲取公民個人資訊,非法獲取商業秘密,破壞版權技術保護措施等;從爬取結果來看,存在不正當競爭類、侵犯著作權類、侵犯人格權類等問題。 ”
《財經》E法在裁判文書網檢索到54份與爬蟲相關的刑事判決,涉及多項罪名。 其中,被認定為侵犯公民個人資訊罪的有26份;非法獲取計算機信息系統罪10份;傳播淫穢物品牟利罪5份;破壞計算機信息系統罪3份;提供侵入、非法控制計算機程式、工具罪3份;侵犯智慧財產權罪3份;非法侵入計算機信息系統罪、開設賭場罪、盜竊罪、詐騙罪各1份。