Web抓取攻击,或简称为“抓取”,发生在机器人自动从您的网站收集数据时,通常是出于恶意目的,如内容转售和降价。爬虫机器人模仿真实用户在常规浏览器上访问网站,在那里他们提取机器人程序员想要存储在本地数据库中的数据。
爬虫与其他类型的机器人有何不同?
与不需要执行很多请求的scalpers这样的机器人相反,抓取程序经常需要发出数百万个请求来抓取网页。尽管他们执行的请求量很大,但Scraper机器人被设计为有利可图。
例如,与剥头皮机器人相比,爬虫可能使用质量较低的代理,但它们倾向于使用与其他机器人相同的底层技术。爬虫可以基于自动化(无头)浏览器,或者它们可以利用HTTP客户端,如aiohttp和Axios。爬虫机器人可以定制,或者欺诈者可以利用不同的专门框架,例如Scrapy,使爬虫的创建更容易。许多机器人即服务(BaaS)也专门用于抓取——他们所要做的就是使用API来抓取网站。
如何检测抓取攻击?
与其他类型的攻击一样,可以使用三种主要类型的信号检测抓取攻击:
可以在服务器端和客户端收集行为信号。在服务器端,该引擎分析用户如何浏览网站或移动应用程序,以检测一段时间内请求数量中的可疑异常值——因为机器人发出请求的速度比任何人都快得多。
在客户端,JavaScript(用于网站)或SDK(用于移动应用程序)将收集浏览器中事件的详细信息,例如点击、触摸事件、打字速度和鼠标移动。然后可以通过机器学习(ML)模型分析这些细节,以检测交互是否与人类行为一致。
信誉信号仅在服务器端以不同的粒度级别(如IP地址或用户会话)和时间窗口(如分钟、小时、天或月)计算。有了信誉信号,检测引擎可以使用先验知识来调整决策。例如,如果某个自治系统经常与数据抓取相关联,ML模型将决定更积极地阻止来自该系统的流量。
由于抓取工具需要扩大攻击规模才能抓取数千或数百万页,因此他们往往严重依赖代理。最先进的爬虫使用住宅代理来访问类似于人类用户的IP地址。这就是为什么能够检测代理以阻止爬虫很重要的原因。
签名信号在服务器端和客户端都被收集,可以包括:

客户端挑战还可以帮助检测和跟踪旨在绕过传统机器人检测技术的爬虫经常使用的修改后的机器人框架,尤其是:
关于抓取检测和保护的问题和误解
大多数网站和移动应用程序都实施了针对爬虫的反制措施,其中包括验证码、速率限制、Web应用程序防火墙(WAF)等。但一些常见的反制措施不足以保护您的网站免受复杂的爬虫攻击——更糟糕的是,其中一些可能会产生误报。
传统的CAPTCHA是否足以对抗爬虫?
不会。大多数爬虫可以伪造传统的验证码,使用基于人工智能的图像或音频识别或验证码农场,人类工人代表机器人解决验证码挑战。最重要的是,向用户显示验证码(也称为“误报”)会显着降低真实用户的用户体验。
在我的网站和API端点上使用基于IP的速率限制可以确保我的安全吗?
虽然基于IP的速率限制可以阻止最简单的机器人程序(仅从一个或几个IP运行的机器人程序),但它无法捕捉到最复杂的爬虫程序。复杂的爬虫利用代理将他们的攻击分布到数千个不同的IP地址。因此,每个IP地址仅发出少量请求,这使攻击者能够保持在速率限制阈值以下。
此外,阻止整个IP地址是危险的,因为许多IP地址被大量共享。事实上,大多数移动IP地址在任何给定时间都由成百上千的用户共享。因此,阻止IP会导致许多误报(挑战真正的人类用户),从而损害您的用户体验并使您的消费者感到沮丧。
阻止来自数据中心IP的所有流量是否足以阻止爬虫?
不幸的是,阻止所有数据中心IP流量是不够的,更糟糕的是,它会触发误报。许多合法流量来自数据中心IP,包括VPN用户和大公司代理。您不想阻止您的合法用户。最重要的是,攻击者可以访问数百万个住宅代理——而不仅仅是数据中心代理。一些代理服务以每GB带宽几美元的价格提供对住宅IP的访问。因此,攻击者可以使用属于Comcast、AT&T和Verizon等知名互联网服务提供商(ISP)的IP,就像您的真实用户一样。
如果我使用地理封锁来阻止来自我的业务未开展业务的国家/地区的所有流量,爬虫能否绕过它?虽然地理封锁可能会阻止从单个IP或外国数据中心代理运行的简单爬虫,但它不会阻止利用住宅代理的更复杂的攻击者。住宅代理网络允许欺诈者选择位于特定国家/地区的代理。
我们在观察到的是,大多数攻击者选择与他们所针对的网站位于同一国家/地区的代理——这有助于他们显得更人性化并绕过地理封锁技术。
地理封锁也会产生误报,因为您的一些用户可能正在国外旅行或暂时居住。此外,请记住IP地址位置并非100%准确。因此,IP位置数据库中可能存在一些国家/地区错误分类,地理封锁可能会在这些IP上产生误报。
我的WAF可以防止抓取吗?
不,不完全是。WAF无法与当今复杂的爬虫机器人相提并论,因为WAF旨在使用一组二进制规则检测和过滤恶意流量。尽管昨天的简单机器人程序和已知威胁可能会受到WAF中指定规则的约束,但爬虫现在可以轻松访问使用代理和ML来模仿人类行为的复杂机器人程序。今天复杂的爬虫可以轻松绕过基于规则的安全工具,如WAF。
本文来源:国外服务器--如何检测网页抓取攻击(检测使用网页抓取工具)
本文地址:https://www.idcbaba.com/guowai/2993.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 1919100645@qq.com 举报,一经查实,本站将立刻删除。



