莫讓「爬蟲」變「害蟲」 如何規制惡意爬取數據?
步入大數據時代,網路爬蟲由網頁爬取「進化」到數據爬取,尤其隨著大數據應用加速,數據的價值極具增加,並成為市場競爭的重要資源,惡意爬蟲爬取數據案件也在頻繁發生。 據不完全統計,自2016年至今,涉及網路爬蟲的司法案件多達十余起,其中民事案件居多。包括2016年「車來了」App爬取「酷米客」App公交車行駛實時數據案、2017年脈脈非法抓取使用新浪微博用戶資訊案、2017年今日頭條未經授權移植新浪微博大V帳號內容數據案、2019年刷寶App爬取抖音App短視頻及使用者評論數據案、2021年”極致了”網站爬取微信公眾號文章數據案等。
除了民事案件,因爬取個人信息數據涉及的刑事案件也呈增多趨勢,其中不乏數億級別的數據被爬取案件。 比如,2021年6月,河南省商丘市睢陽區人民法院公佈的刑事判決書顯示,逯某和黎某兩男子通過自己開發的爬蟲軟體,對淘寶實施了長達8個月的數據爬取,非法獲取近12億條使用者消息。
原本技術中立的”網络爬蟲”卻因應用於數據爬取,有變成”害蟲”的威脅。 惡意爬蟲在輕易爬取數據時,未經授權抓取、突破Robots協定、同行業間數據爬取,往往是典型情形。 網路爬蟲的法律邊界在哪裡? 數據企業如何保護自身合法權益? 如何規制惡意爬蟲抓取數據亂象,引導行業合規健康發展? 這是已經進入大數據時代后,行業參與者亟待解答的問題。
未經授權爬取數據涉嫌不正當競爭
政策加持讓數據迎來高光時刻。 2020年4月9日,《中共中央國務院關於構建更加完善的要素市場化配置體制機制的意見》正式發佈,將數據作為一種新型生產要素。
然而,涉及數據權利的配套制度法規還未出臺,非法數據爬蟲已經襲來。 2014年,因認為脈脈未經用戶允許和微博平台授權,非法抓取、使用新浪微博用戶資訊,非法獲取並使用脈脈註冊用戶手機通訊錄聯繫人與微博使用者的對應關係,新浪微博將脈脈訴至法院。 該案也被稱為首例大數據不正當競爭糾紛案。
2016年,北京市海澱區人民法院(下稱”北京海澱法院”)一審認為,網路平臺可以就他人未經許可擅自使用其經過使用者同意收集並使用的用戶數據資訊主張權利。 2017年,北京知識產權法院終審認定,脈脈未經用戶允許和微博平台授權,非法抓取、使用新浪微博使用者資訊,構成不正當競爭。
未經授權和超出授權範圍使用成為上述案件判決的重要考量因素。 北京智慧財產權法院認為,作為第三方開發者通過Open API獲得使用者資訊時必須遵循”使用者授權+平臺授權+使用者授權”,即使用者同意平臺向第三方提供資訊,平臺授權第三方獲取資訊,使用者再次授權第三方使用資訊,而且使用者的同意必須是具體的、清晰的,是使用者在充分知情的前提下自由作出的決定。 這也被行業稱為”三重授權原則”。
“三重授權原則”對後續案件影響重大,並成為第三方爬取、使用數據的大前提。 然而,惡意爬蟲往往越過紅線。 現實中,數據爬取多發生在電商領域和內容平臺,以內容平臺為例,2021年9月,杭州互聯網法院審理斯氏(杭州)新媒體科技有限公司(下稱”斯氏公司”)爬取微信公眾號平臺數據案時認為,斯氏公司運營的”極致了”網站違背誠實信用原則,擅自使用其他經營者徵得使用者同意、依法彙集且具有商業價值的數據,構成不正當競爭。
尤其在數位內容領域,數據是內容產業的核心競爭資源,內容平臺經過匯總分析處理后的數據往往具有極高的經濟價值。 如果要求內容平台經營者將其核心競爭資源向競爭對手無限開放,不僅損害創作者的創作環境,使得社會整體內容生產萎靡,消費者對優質內容的需求也就無從保障,而且有違”互聯互通”的精神實質,不利於優質內容的不斷更迭和互聯網產業的持續發展。
突破Robots協議違背商業道德
在涉及網路爬蟲的案件中,Robots協定是繞不開的話題。 Robots協定的全稱是「網路爬蟲排除標準」,網站通過Robots協議明確警示搜尋引擎哪些頁面可以爬取,哪些頁面不能爬取,類似於行業的”君子協定”。
按照Robots協議規則,搜尋引擎會按照每個網站主給予自己的許可權來抓取。 實踐中可以發現,通過百度搜尋引擎無法搜索到淘寶網的資訊,可以搜索到京東商城的商品資訊,原因是2008年淘寶禁止百度爬蟲,而京東商城則沒有對百度爬蟲說”不”。 這其中的原因,和淘寶、京東的流量入口選擇和商業利益考量密切有關。
淘寶網禁止百度爬蟲Baiduspider訪問自己網站
但Robots協定並非強制性規定,在商業利益驅動下,網路爬蟲與反爬取方之間更像是一場攻防戰,一些網路平臺的惡意爬蟲不惜冒著風險主動出擊,突破Robots協定,而被爬取方只能在技術上被動防守,並通過求助司法訴訟主動維權。
在這場攻防戰中,也不乏互聯網領域知名企業的身影,其中,新浪微博和今日頭條間的矛盾衝突就不止一次出現。
2017年,因認為今日頭條未經授權抓取新浪微博賬號內容,新浪微博將今日頭條訴至法院。 2021年5月17日,該不正當競爭糾紛案落槌,北京海澱法院一審判定,未獲平臺授權第三方不得抓取用戶內容,今日頭條的母公司位元組跳動通過類似”複製粘貼”的方式對新浪微博內容進行大規模移植,有針對性地將新浪微博的內容移植至今日頭條,構成不正當競爭,賠償新浪微博2000萬元。
位元組跳動轉而起訴新浪微博通過Robots協定禁止頭條搜索的爬蟲,構成不正當競爭。 該案經歷一審敗訴,二審反轉的劇情。 2021年10月8日,北京市高級人民法院終審認為,網路平臺通過Robots協定對網路爬蟲進行限制是網路經營者經營自主權的一種體現。 Robots協定在某種意義上已經成為維繫企業核心競爭力,維繫市場有序競爭的一種手段,應當允許網站經營者通過Robots協定對其他網路機器人的抓取進行限制。
值得一提的是,通过Robots协议对网络爬虫进行限制并不违背互联网行业的商业道德。在互联网行业中,除了新浪微博通过Robots协议限制爬虫抓取,包括字节跳动在内的互联网公司均会通过Robots协议来明示禁止抓取的内容。
司法裁判指导数据合规
非法爬取数据案件背后,恶意爬虫所建立的数据服务往往与被爬取方形成直接的竞争关系,甚至形成某种替代关系。
法院在案件裁判中也明确,互联网领域中消费者福利的增加,不是通过数据爬取对数据进行明显替代性或同质化地利用。非法爬虫不劳而获地爬取数据,获得竞争权益等行为,显然具有“搭便车”的不正当性。比如,在“极致了”网站爬取微信公众号数据案中,法院认定,“极致了”网站违背诚实信用原则,擅自使用其他经营者征得用户同意、依法汇集且具有商业价值的数据,并实质性替代其他经营者提供的部分产品或服务,损害公平竞争的市场秩序。
同時,法院在認定數據企業享有數據競爭權益時,也把數據企業對收集、整理時付出的人力物力財力等經營成本作為重要考慮因素。 比如,在抖音起訴刷寶爬取數據案件中,法院認為,微播公司(抖音App的開發者和運營者)投入相應的人力、財力成本,通過正當合法的經營積累使用者和短視頻內容。 刷寶App在未投入相應成本的情況下,直接獲取視頻資源、評論內容,掠奪微播公司的經營成果,損害了抖音的合法權益,構成不正當競爭。
研讀案件裁判思路不難發現,當數據企業面臨未經授權的惡意爬取時,司法機關也在不斷探索數據權益保護路徑,定紛止爭。 在已有的司法判決中,法院對數據企業所享有的正當權益持肯定態度。 數據企業的數據權利在遭受他人侵害時有權要求侵權人承擔侵權責任,包括在他人未經許可而竊取數據時,有權要求侵權人停止侵害、刪除非法竊取的數據;在侵權人因故意或過失造成損害時,有權要求侵權人承擔侵權賠償責任。
此外,從市場經濟發展的角度來看,如果數據從業者尤其是數據企業對於自己收集、存儲的數據無法合理有效地控制,爬蟲可以任由抓取,來去自如,數據企業顯然就沒有動力投入成本去收集、存儲以及利用海量數據,進而挖掘數據中蘊涵的巨大價值,更不可能研發更多的數據產品,數據產業的發展與大數據時代也就沒有談起。
當前,雖然法律尚未對數據權利進行界定,但司法實踐中日漸增多的行業案例,其中,數據”權利”或”權益”並非完全無法界定,”用權”的合法事實和情景,”授權”鏈條相對清晰,且已經得到相當程度認可,尤其是司法審判對於數據權利部分的探索和認定,將對指導數據企業開展數據合規提供諸多參考和借鑒。
文/王瓊飛
編輯/魯偉