本参考库定位
让普通人看懂数据系统是怎么流动的。
核心词(节选)
爬虫抓取解析反爬ETL数据仓库埋点
全部词条
12 个词条,读得完。
点进任一词条查看通俗解释、类比、使用场景与对 AI 的提问模板。
数据与爬虫Crawler
爬虫
自动去网页或接口抓数据的程序,按一定规则一页一页、一条一条取。
抓取解析反爬
查看词条详情 →数据与爬虫Fetch
抓取
把目标页面、接口、文件的内容实际取回本地的那个动作。
爬虫请求解析
查看词条详情 →数据与爬虫Parse
解析
把抓回来的原始页面或原始数据整理成结构化字段,方便后续使用。
抓取正则HTML
查看词条详情 →数据与爬虫Anti-crawler
反爬
网站为了防止被批量抓取而做的各种阻挡措施,比如验证码、限频、指纹识别。
爬虫抓取代理
查看词条详情 →数据与爬虫ETL
ETL
从一个地方把数据抽出来,清洗转换之后,再装进另一个地方的完整流程。
Pipeline数据清洗数据仓库
查看词条详情 →数据与爬虫Data Cleaning
数据清洗
把脏数据、重复数据、格式乱的数据整理成可用的数据。
ETL数据质量指标
查看词条详情 →数据与爬虫Pipeline
Pipeline
把多个数据处理步骤按顺序串起来,形成一条能自动跑的流水线。
ETL调度工作流
查看词条详情 →数据与爬虫Data Warehouse
数据仓库
专门汇总海量历史业务数据、并优化过分析查询的存储系统。
数据库OLAPETL
查看词条详情 →数据与爬虫Visualization
可视化
把数据变成图表、看板、趋势图,让人一眼看出情况。
报表Dashboard指标
查看词条详情 →数据与爬虫Report
报表
按固定格式定期输出的一份业务数据总结,比如日报、周报、月报。
可视化Dashboard指标
查看词条详情 →数据与爬虫Metric
指标
用来衡量业务或系统状态的数字,比如日活、转化率、错误率、延迟。
报表Dashboard转化率
查看词条详情 →数据与爬虫Event Tracking
埋点
在产品关键位置提前记录用户行为和事件,为后面的分析准备数据。
指标漏斗Dashboard
查看词条详情 →