把脏数据(重复、格式错、缺失、异常值)变成可用的干净数据。做分析和训练模型前几乎都要做。
做什么会用到
想用它怎么问 AI
“我有【这份数据,字段描述】。请先帮我诊断它有哪些典型脏数据问题(重复/缺失/格式乱/异常值),再给出 Python pandas / SQL 的清洗脚本。”
打个比方
像把翻出来的一堆旧相册去重、去模糊、标注好,才能真的用。
相关词