本参考库定位
让普通人看懂数据系统是怎么流动的。
核心词(节选)
全部词条
21 个词条,读得完
点进任一词条查看通俗解释、类比、使用场景与对 AI 的提问模板。
爬虫
自动去网页/接口批量抓数据的程序,像一个不知疲倦的小机器人,按你给的路线一条条取资料。
抓取
把目标页面/接口/文件的内容实际拿回本地的那个动作,是爬虫的第一步。
解析
把抓回来的一团原始内容(HTML、JSON、XML、纯文本)整理成结构化字段。
反爬
网站为了防止被爬而做的阻挡:验证码、限频、IP 黑名单、JS 挑战、浏览器指纹。
ETL
Extract-Transform-Load:把数据从 A 取出来(抽取)、清洗转换、再装进 B(加载)。数据搬家的标准流程。
数据清洗
把脏数据(重复、格式错、缺失、异常值)变成可用的干净数据。做分析和训练模型前几乎都要做。
Pipeline
把多个数据处理步骤串成一条自动流水线:A 的输出是 B 的输入,一条龙跑完。
数据仓库
专门存海量历史数据、优化过“大查询”的数据库。跟日常业务库(MySQL/Postgres)分工不同。
可视化
把数据变成图表、看板、趋势图,让人一眼看出情况。不是“好看”,是“好懂”。
报表
按固定格式定期输出的业务总结:日报、周报、月报、季报。
指标
用来衡量产品/业务好不好的具体数字。比“感觉还行”硬得多,能拿出来对比的。
埋点
在产品关键位置提前埋一段记录代码,用户一做这个动作就记一条。为后面的数据分析准备原料。
JSON
一种常见的数据格式,前后端和 AI 接口经常用它传递结构化信息。
数据模型
描述一种业务对象应该有哪些字段、字段类型和关系,比如用户、文章、订单。
主键
数据库表里用来唯一标识一条记录的字段,常见名字是 id。
外键
一张表里指向另一张表主键的字段,用来表达数据之间的关系。
表关系
数据库中不同表之间的连接方式,比如一对一、一对多、多对多。
数据迁移
数据库结构变化时,把旧结构安全变成新结构的过程,比如新增字段、改表名。
种子数据
为了开发、测试或演示,预先放进数据库的一批初始数据。
增删改查
Create、Read、Update、Delete 的缩写,表示对数据最基础的新增、读取、修改、删除。
备份
把重要数据复制保存一份,防止误删、迁移失败、服务器故障导致无法恢复。