← 返回十六参考库
VOL · 0612 词条· 推进中

数据 / 爬虫 / 分析参考库

解释数据采集、处理、仓储、可视化这条链路上的高频词。

本参考库定位

让普通人看懂数据系统是怎么流动的。

核心词(节选)

爬虫抓取解析反爬ETL数据仓库埋点

全部词条

12 个词条,读得完。

点进任一词条查看通俗解释、类比、使用场景与对 AI 的提问模板。

数据与爬虫Crawler

爬虫

自动去网页或接口抓数据的程序,按一定规则一页一页、一条一条取。

抓取解析反爬
查看词条详情 →
数据与爬虫Fetch

抓取

把目标页面、接口、文件的内容实际取回本地的那个动作。

爬虫请求解析
查看词条详情 →
数据与爬虫Parse

解析

把抓回来的原始页面或原始数据整理成结构化字段,方便后续使用。

抓取正则HTML
查看词条详情 →
数据与爬虫Anti-crawler

反爬

网站为了防止被批量抓取而做的各种阻挡措施,比如验证码、限频、指纹识别。

爬虫抓取代理
查看词条详情 →
数据与爬虫ETL

ETL

从一个地方把数据抽出来,清洗转换之后,再装进另一个地方的完整流程。

Pipeline数据清洗数据仓库
查看词条详情 →
数据与爬虫Data Cleaning

数据清洗

把脏数据、重复数据、格式乱的数据整理成可用的数据。

ETL数据质量指标
查看词条详情 →
数据与爬虫Pipeline

Pipeline

把多个数据处理步骤按顺序串起来,形成一条能自动跑的流水线。

ETL调度工作流
查看词条详情 →
数据与爬虫Data Warehouse

数据仓库

专门汇总海量历史业务数据、并优化过分析查询的存储系统。

数据库OLAPETL
查看词条详情 →
数据与爬虫Visualization

可视化

把数据变成图表、看板、趋势图,让人一眼看出情况。

报表Dashboard指标
查看词条详情 →
数据与爬虫Report

报表

按固定格式定期输出的一份业务数据总结,比如日报、周报、月报。

可视化Dashboard指标
查看词条详情 →
数据与爬虫Metric

指标

用来衡量业务或系统状态的数字,比如日活、转化率、错误率、延迟。

报表Dashboard转化率
查看词条详情 →
数据与爬虫Event Tracking

埋点

在产品关键位置提前记录用户行为和事件,为后面的分析准备数据。

指标漏斗Dashboard
查看词条详情 →