← 返回首页

数据与爬虫Anti-crawler

反爬

网站为了防止被爬而做的阻挡：验证码、限频、IP 黑名单、JS 挑战、浏览器指纹。

做什么会用到

01爬大厂网站（淘宝/小红书/抖音/大众点评）：反爬极强，单机基本爬不到
02爬中小站点（博客/官网/政府公开数据）：反爬很弱，简单请求就能拿到
03做自己的产品：要不要加反爬？看被爬走值不值钱，盲目加反爬反而伤 SEO
04做需要登录态的爬虫：人家反爬会判断 Cookie / 行为轨迹，绕起来成本很高
05爬“提供 API”的数据：别自己爬，直接用 API 更稳（微博/Twitter/GitHub 都有）

想用它怎么问 AI

「我爬【XXX 站点】被【验证码 / 封 IP / 429 限流】挡住了。请告诉我它大概用的哪种反爬、对应破解思路（代理池 / Playwright / 打码平台）、以及换个合法方案的可能性。」

打个比方

像商场对职业代购拉起的各种门禁和限购。

相关词

爬虫抓取代理