做什么会用到
- 01做数据分析工具:爬各家电商的商品价格做对比、爬招聘网站做薪资报告
- 02做内容聚合产品:聚合多家新闻、博客、公众号文章(注意版权)
- 03做个人研究项目:爬论文、GitHub 趋势、Twitter 公开数据,不建议商用
- 04做比价 / 抢购 / 刷票工具:踩红线,平台会封,严重的刑事风险
- 05做 AI 训练数据:爬公开数据喂模型现在争议很大(版权、隐私)
想用它怎么问 AI
“我要做【XXX 数据采集】(目标站点和字段)。请告诉我用什么方案(requests / Playwright / 第三方 API),怎么应对反爬,以及这类采集的合规红线(robots.txt / 用户协议 / 个人信息保护法)。”
打个比方
像一个不知疲倦的小机器人,按你给的路线在网上到处拿资料。