返回首页

Pipeline

把多个数据处理步骤串成一条自动流水线:A 的输出是 B 的输入,一条龙跑完。

做什么会用到

  • 01做定期跑的数据任务(每日报表、每周榜单):用 Airflow / Prefect 搭 pipeline
  • 02做 CI/CD:代码提交 → 测试 → 构建 → 部署,也是 pipeline
  • 03做 AI 应用(RAG / 微调):数据采集 → 清洗 → 切分 → 向量化 → 索引,典型 pipeline
  • 04做一次性小脚本:不用 pipeline,一个 Python 文件就够
  • 05做 ML 训练流程:MLflow / Kubeflow 就是专门的 ML pipeline

想用它怎么问 AI

我要把【步骤 1、步骤 2、步骤 3】串成一条每天自动跑的 pipeline。请推荐适合小团队的工具(Airflow 可能太重)、给一个最小可行配置、以及失败重试和告警怎么做。

打个比方

像工厂的装配线,每一步只做一件事,做完自动送到下一步。