返回首页

解析

把抓回来的一团原始内容(HTML、JSON、XML、纯文本)整理成结构化字段。

做什么会用到

  • 01做爬虫:抓完 HTML 要解析出标题、价格、图片这些字段
  • 02做数据清洗:CSV / Excel / 日志文件解析成数据库能存的格式
  • 03做 AI 产品处理用户上传:PDF / Word / 图片解析成文本喂给模型
  • 04做 API 对接:拿到第三方返回的 XML/JSON 要解析成自己的数据结构
  • 05做纯展示网站:用不到解析,后端已经给好结构化数据

想用它怎么问 AI

我有【这段 HTML / JSON / PDF 文本】,想提取出【XXX 字段】。请用【Python BeautifulSoup / lxml / Cheerio】给我一段解析代码,遇到字段缺失时给默认值。

打个比方

像把一堆收据扫描件整理成 Excel 表格,每一列对应清楚。

相关词