返回首页

ETL

Extract-Transform-Load:把数据从 A 取出来(抽取)、清洗转换、再装进 B(加载)。数据搬家的标准流程。

做什么会用到

  • 01做数据分析/BI 产品:把业务库数据搬到数据仓库,每天自动跑 ETL
  • 02做多平台数据聚合(跨境电商统计、广告投放归因):从 Shopify / Amazon / Facebook 拉数据统一入库
  • 03做 AI 训练数据管线:从各种源拿文本,清洗去重打标签,送进训练
  • 04做一个小工具/个人博客:用不到 ETL,杀鸡用牛刀
  • 05做实时业务(订单/支付):ETL 是 T+1 场景,实时场景要用流处理

想用它怎么问 AI

我要把【XXX 源(MySQL/API/Excel)】的数据每天同步到【XXX 目标(数据仓库/分析工具)】。请帮我设计一个最小 ETL 流程,推荐工具(Airbyte / DBT / 自己写 Python 脚本)并给出调度方案。

打个比方

像搬家的三个步骤:打包、路上整理、到新家按柜子分类摆好。