做什么会用到
- 01做爬虫:抓完 HTML 要解析出标题、价格、图片这些字段
- 02做数据清洗:CSV / Excel / 日志文件解析成数据库能存的格式
- 03做 AI 产品处理用户上传:PDF / Word / 图片解析成文本喂给模型
- 04做 API 对接:拿到第三方返回的 XML/JSON 要解析成自己的数据结构
- 05做纯展示网站:用不到解析,后端已经给好结构化数据
想用它怎么问 AI
“我有【这段 HTML / JSON / PDF 文本】,想提取出【XXX 字段】。请用【Python BeautifulSoup / lxml / Cheerio】给我一段解析代码,遇到字段缺失时给默认值。”
打个比方
像把一堆收据扫描件整理成 Excel 表格,每一列对应清楚。