Vol · 06 · Stage 04 · 方向深化21 词条 · 推进中

数据 / 爬虫 / 分析参考库

解释数据采集、处理、仓储、可视化这条链路上的高频词。

本参考库定位

让普通人看懂数据系统是怎么流动的。

核心词（节选）

爬虫抓取解析反爬ETL数据仓库埋点

全部词条

21 个词条，读得完

点进任一词条查看通俗解释、类比、使用场景与对 AI 的提问模板。

数据与爬虫Crawler

爬虫

自动去网页/接口批量抓数据的程序，像一个不知疲倦的小机器人，按你给的路线一条条取资料。

抓取解析反爬

查看词条详情 →

数据与爬虫Fetch

抓取

把目标页面/接口/文件的内容实际拿回本地的那个动作，是爬虫的第一步。

爬虫请求解析

查看词条详情 →

数据与爬虫Parse

解析

把抓回来的一团原始内容（HTML、JSON、XML、纯文本）整理成结构化字段。

抓取正则HTML

查看词条详情 →

数据与爬虫Anti-crawler

反爬

网站为了防止被爬而做的阻挡：验证码、限频、IP 黑名单、JS 挑战、浏览器指纹。

爬虫抓取代理

查看词条详情 →

数据与爬虫ETL

ETL

Extract-Transform-Load：把数据从 A 取出来（抽取）、清洗转换、再装进 B（加载）。数据搬家的标准流程。

Pipeline数据清洗数据仓库

查看词条详情 →

数据与爬虫Data Cleaning

数据清洗

把脏数据（重复、格式错、缺失、异常值）变成可用的干净数据。做分析和训练模型前几乎都要做。

ETL数据质量指标

查看词条详情 →

数据与爬虫Pipeline

Pipeline

把多个数据处理步骤串成一条自动流水线：A 的输出是 B 的输入，一条龙跑完。

ETL调度工作流

查看词条详情 →

数据与爬虫Data Warehouse

数据仓库

专门存海量历史数据、优化过“大查询”的数据库。跟日常业务库（MySQL/Postgres）分工不同。

数据库OLAPETL

查看词条详情 →

数据与爬虫Visualization

可视化

把数据变成图表、看板、趋势图，让人一眼看出情况。不是“好看”，是“好懂”。

报表Dashboard指标

查看词条详情 →

数据与爬虫Report

报表

按固定格式定期输出的业务总结：日报、周报、月报、季报。

可视化Dashboard指标

查看词条详情 →

数据与爬虫Metric

指标

用来衡量产品/业务好不好的具体数字。比“感觉还行”硬得多，能拿出来对比的。

报表Dashboard转化率

查看词条详情 →

数据与爬虫Event Tracking

埋点

在产品关键位置提前埋一段记录代码，用户一做这个动作就记一条。为后面的数据分析准备原料。

指标漏斗Dashboard

查看词条详情 →

数据与数据库JSON

JSON

一种常见的数据格式，前后端和 AI 接口经常用它传递结构化信息。

请求体响应API

查看词条详情 →

数据与数据库Data Model

数据模型

描述一种业务对象应该有哪些字段、字段类型和关系，比如用户、文章、订单。

数据库SchemaCRUD

查看词条详情 →

数据与数据库Primary Key

主键

数据库表里用来唯一标识一条记录的字段，常见名字是 id。

数据库记录外键

查看词条详情 →

数据与数据库Foreign Key

外键

一张表里指向另一张表主键的字段，用来表达数据之间的关系。

主键表关系数据库

查看词条详情 →

数据与数据库Relationship

表关系

数据库中不同表之间的连接方式，比如一对一、一对多、多对多。

主键外键数据模型

查看词条详情 →

数据与数据库Data Migration

数据迁移

数据库结构变化时，把旧结构安全变成新结构的过程，比如新增字段、改表名。

数据库Schema备份

查看词条详情 →

数据与数据库Seed Data

种子数据

为了开发、测试或演示，预先放进数据库的一批初始数据。

数据库测试本地预览

查看词条详情 →

数据与数据库CRUD

增删改查

Create、Read、Update、Delete 的缩写，表示对数据最基础的新增、读取、修改、删除。

数据库接口后台

查看词条详情 →

数据与数据库Backup

备份

把重要数据复制保存一份，防止误删、迁移失败、服务器故障导致无法恢复。

数据库数据迁移恢复

查看词条详情 →