返回首页
数据与爬虫Data Cleaning

数据清洗

把脏数据(重复、格式错、缺失、异常值)变成可用的干净数据。做分析和训练模型前几乎都要做。

做什么会用到

  • 01做数据分析产品:不清洗,统计结果直接错
  • 02做 AI 训练(哪怕是微调个小模型):清洗质量直接决定模型效果
  • 03做爬虫采集后入库:爬来的数据基本都是脏的,必须清洗
  • 04对接第三方 API 数据:别人的数据格式不一定和你想的一样
  • 05做纯业务系统(订单/库存):数据在自己控制下产生,清洗需求很小

想用它怎么问 AI

我有【这份数据,字段描述】。请先帮我诊断它有哪些典型脏数据问题(重复/缺失/格式乱/异常值),再给出 Python pandas / SQL 的清洗脚本。

打个比方

像把翻出来的一堆旧相册去重、去模糊、标注好,才能真的用。

相关词

ETL数据质量指标