用 OCR、PDF 转文本和摘要接口构建 RAG 文档入库 Agent
摘要:RAG 系统的效果很大程度取决于文档入库质量。本文用图片 OCR、PDF 转文本和 PDF 摘要接口演示一个文档入库 Agent:先把文件内容变成可检索文本,再生成摘要和索引元数据。
关键词:RAG 文档入库、OCR API、PDF 转文本 API、PDF 摘要 API、知识库 Agent
问题背景
企业知识库里常见的资料并不都是纯文本,很多是扫描件、PDF 报告、合同截图或演示材料。如果直
gugudata.hashnode.dev2 min read