爬虫：数据获取捷径还是会招致犯罪歧途？

（原标题：爬虫：数据获取捷径还是会招致犯罪歧途？）

在GPT、AI绘画等人工智能大模型工具极为火热的当下，数据再一次成为关注的焦点，成为与土地、劳动、知识等并驾齐驱的重要生产要素。这主要是因为，只有当用于AI大模型训练的优质数据足够多，才能产生足够智能、足够强大的AI工具。

那么，我们应该如何获取数据？使用爬虫工具虽然方便，但未经他人同意爬取数据的行为是否具有法律风险？今天飒姐团队就与大家深入聊一聊应当如何正确使用爬虫工具获取数据。

使用爬虫获取数据有刑事风险？

时至今日，获取数据，或者说数据流通的主流方式主要有两种：一者是数据需求方与数据提供方达成协议，以开放端口（open API）的形式使得数据使用方获取数据，该种方式合规性最好但成本较高，常见于商业数据流通领域；一者是数据需求方自行通过爬虫软件，自动取得存在于其他平台上的数据。对于大模型AI来说，一般需要海量的数据进行训练，因此纯靠协议的方式一方面难以在短时间内获取足够多的数据，另一方面会导致训练成本过高，因此使用爬虫工具就成了无法回避的问题。

那么，使用爬虫工具获取数据可能具有哪些刑事风险？制作爬虫工具并自行使用，在未经数据来源方同意或违反robot协议的情况下，直接爬取大量数据的行为，司法实践中常被认定为侵犯公民个人信息罪、侵犯商业秘密罪抑或是侵犯著作权罪，而具体构成何种犯罪则取决于行为人通过爬虫工具实际取得了什么类型的数据。

侵犯公民个人信息罪

对于诸多数据分析公司、营销公司和各种数据驱动型企业来说，公民个人信息的商业价值是巨大的，不仅可以将其用于用户画像、市场分析，还可以向公民定向推送商业广告等，因此我国司法机关一直以来对侵犯公民个人信息的行为都保持着较为严厉的处理态度。

因此，如果行为人利用爬虫爬取的是公民个人信息，有可能构成“侵犯公民个人信息罪”。这主要是因为以爬取公民个人信息是一种未经公民知情同意的非法获取的行为。《刑法》第二百五十三条之一第三款规定：“窃取或者以其他方法非法获取公民个人信息的，依照第一款的规定处罚。”换言之，即使行为人没有将获取的公民个人信息出售或向他人提供，但只要获取的方式不当就有可能构成该罪。

在(2021)浙0703刑初17号案中，郭某伙同“杨某”通过爬虫软件从互联网上非法获取某宝、某东等多个电商平台上的公民个人信息并用于出售牟利，这些信息中包含能特定到个人的姓名、手机号码、住址等，共计541424条。最终法院认定郭某构成“侵犯公民个人信息罪”判处四年有期徒刑。

侵犯商业秘密罪

如果行为人利用爬虫工具爬取的是商业秘密，有可能构成“侵犯商业秘密罪”。一般来说，“商业秘密”是指不为公众所知悉，能为权利人带来经济利益，具有实用性并经权利人采取保密措施的技术信息和经营信息。在如今大数据时代，数据对于被爬方而言无疑是最为重要的资产之一。

参照《最高人民法院关于审理侵犯商业秘密民事案件适用法律若干问题的规定》的规定，算法、数据、计算机程序及其有关文档等信息，人民法院可以认定为构成《反不正当竞争法》第九条第四款所称的技术信息（第九条第四款为：“本法所称的商业秘密，是指不为公众所知悉、具有商业价值并经权利人采取相应保密措施的技术信息、经营信息等商业信息”）。因此，如果利用爬虫软件爬取他人“技术信息”可能会构成侵犯商业秘密罪。

但需要说明的是，由于使用爬虫工具获取他人商业信息而引发的不正当竞争之诉虽然已经不少，但真正因使用爬虫工具获取他人商业秘密而构成侵犯商业秘密罪的案件尚未出现，这可能是由于传统的商业秘密如食品配方、设计图纸、生产方法等自有其特殊性，持有人一般不会将其上传到网络保存之故，但我们认为，随着网络信息的发展，商业秘密所指称的对象和客体范围在不断的扩大，不排除未来会发生因爬取他人商业秘密而被实际定罪处罚的案件出现。

侵犯著作权罪

如果行为人利用爬虫工具爬取的是他人享有著作权的作品，有可能构成“侵犯著作权罪”。我国《刑法》第二百一十七条第一款规定：在以营利为目的的基础上，“未经著作权人许可，复制发行、通过信息网络向公众传播其文字作品、音乐、美术、视听作品、计算机软件及法律、行政法规规定的其他作品的”，违法所得数额较大或者有其他严重情节的构成“侵犯著作权罪”

同时，2021年的《刑法》第十一修正案修改了第二百一十七条，为“侵犯著作权罪”增加了一个针对爬虫等技术工具的条款：“未经著作权人或者与著作权有关的权利人许可，故意避开或者破坏权利人为其作品、录音录像制品等采取的保护著作权或者与著作权有关的权利的技术措施的”。换言之，即使行为人使用爬虫工具后没有在互联网上传播或向他人提供非法获取的作品，但只要利用爬虫工具故意避开或破坏了与保护著作权相关的技术措施，也可以构成侵犯著作权罪。

在(2022)赣0825刑初号案件中，被告人肖某于2015年开发了一款名为“XX免费小说”的App。肖某从2019年开始，租用某鹅厂云服务器将“爬虫”程序编程植入“XX免费小说”App中，该程序能够自动扒取互联网上各个小说网站的网页链接、小说名称、小说作者、小说简介、小说图片等信息并进行分类存放在腾讯云服务器当中，且不间断更新扒取内容，用户在软件中搜索小说相关文字后，服务器自动从扒取到的小说信息中提取出来，通过转码将第三方网页进行重新排版，再插入广告公司提供的广告供用户阅读。广告投放方每月根据该程序中的点击量按每次单价0.2元至1元不等的价格为肖某结算广告推广费。

法院最终依据《最高人民检察院、公安部关于公安机关管辖的刑事案件立案追诉标准的规定（一）》第二十六条，将肖某使用爬虫软件获得他人享有著作权作品，并在App中向读者免费提供的行为，认定为侵犯公民个人信息罪中“未经著作权人许可，复制发行、通过信息网络向公众传播其文字作品”的行为，判处肖某构成侵犯著作权罪。

写在最后

在当今时代，数据已经越来越成为一种极为重要的生产力要素，飒姐团队认为，监管机构和司法机关应当认识到，只要是出于合法利用数据的目的，在正确使用技术的前提下，爬虫未必就是一种洪水猛兽。许可老师同样认为：“蕴含于数据爬取中的数据自由流通是数字社会的重要价值......即使在知识产权出现之后，事实或思想也没有纳入法律保护的范围，任何人对事实、数据或碎片化的信息均不享有权利。”

总之，飒姐团队认为，数据需求方不应急于求成，在不熟悉数据合规相关法律、法规的情况下就急切的通过爬虫任意爬取数据。监管机关也不应当直接将使用爬虫的行为视为一种违法、犯罪行为，而是应当更加耐心细致处理相关案件，长此以往才能促进数字经济的向上发展。

本文系未央网专栏作者:肖飒发表，内容属作者个人观点，不代表网站观点，未经许可严禁转载，违者必究！

本文网址：http://www.yqlinks.cn/luyixian/1649734.html ，喜欢请注明来源周口新闻网。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。