返回首页
Category · 分类词典 · 12

数据与爬虫

这一类会持续补充核心名词,让 0 基础用户先把这一层的地图装进脑子里,再学会拿这些词跟 AI 沟通。

数据与爬虫Crawler

爬虫

自动去网页/接口批量抓数据的程序,像一个不知疲倦的小机器人,按你给的路线一条条取资料。

抓取解析反爬
查看词条详情 →
数据与爬虫Fetch

抓取

把目标页面/接口/文件的内容实际拿回本地的那个动作,是爬虫的第一步。

爬虫请求解析
查看词条详情 →
数据与爬虫Parse

解析

把抓回来的一团原始内容(HTML、JSON、XML、纯文本)整理成结构化字段。

抓取正则HTML
查看词条详情 →
数据与爬虫Anti-crawler

反爬

网站为了防止被爬而做的阻挡:验证码、限频、IP 黑名单、JS 挑战、浏览器指纹。

爬虫抓取代理
查看词条详情 →
数据与爬虫ETL

ETL

Extract-Transform-Load:把数据从 A 取出来(抽取)、清洗转换、再装进 B(加载)。数据搬家的标准流程。

Pipeline数据清洗数据仓库
查看词条详情 →
数据与爬虫Data Cleaning

数据清洗

把脏数据(重复、格式错、缺失、异常值)变成可用的干净数据。做分析和训练模型前几乎都要做。

ETL数据质量指标
查看词条详情 →
数据与爬虫Pipeline

Pipeline

把多个数据处理步骤串成一条自动流水线:A 的输出是 B 的输入,一条龙跑完。

ETL调度工作流
查看词条详情 →
数据与爬虫Data Warehouse

数据仓库

专门存海量历史数据、优化过“大查询”的数据库。跟日常业务库(MySQL/Postgres)分工不同。

数据库OLAPETL
查看词条详情 →
数据与爬虫Visualization

可视化

把数据变成图表、看板、趋势图,让人一眼看出情况。不是“好看”,是“好懂”。

报表Dashboard指标
查看词条详情 →
数据与爬虫Report

报表

按固定格式定期输出的业务总结:日报、周报、月报、季报。

可视化Dashboard指标
查看词条详情 →
数据与爬虫Metric

指标

用来衡量产品/业务好不好的具体数字。比“感觉还行”硬得多,能拿出来对比的。

报表Dashboard转化率
查看词条详情 →
数据与爬虫Event Tracking

埋点

在产品关键位置提前埋一段记录代码,用户一做这个动作就记一条。为后面的数据分析准备原料。

指标漏斗Dashboard
查看词条详情 →