RAG 进阶
写在最前:问题咨询请直接点击此处提交 ISSUE
- ⭐️ 请先 Star 本项目后再提问,作者精力有限,未 Star 直接 Close
- 🐞 GitHub ISSUE 需包含:问题截图 + SDK版本 + 配置代码
什么是office2md
这是一项基于 Markdown 格式的多功能转换服务,支持将 PowerPoint、Word、Excel、图像、音频和 HTML 等文件转化为 Markdown 格式。同时,服务整合了 Gitee AI 和智谱 AI 提供的 GLM-4V 模型,以及阿里云百炼平台的 Qwen-VL-Max 模型,用于图片和 PDF 文件的高效文本识别。
Docker 使用说明
1. 快速使用
2. 使用 Gitee AI
3. 使用阿里云百炼平台
环境变量说明
服务支持以下环境变量配置:
环境变量 | 说明 | 默认值 |
---|---|---|
API_KEY | AI 平台的 API 密钥 | XXXX |
BASE_URL | AI 平台的 API 基础 URL | https://open.bigmodel.cn/api/paas/v4 |
MODEL | 使用的模型名称 | glm-4v-flash |
DELETE_DELAY | 临时文件删除延迟(秒) | 300 |
PROMPT | 文本提取提示词 | 提取图片中全部的文本,不需要任何推理和总结,只需要原文 |
支持的模型配置
智谱 AI
- MODEL=glm-4v-flash
- BASE_URL=https://open.bigmodel.cn/api/paas/v4
Gitee AI
- MODEL=InternVL2_5-26B
- BASE_URL=https://ai.gitee.com/v1
阿里云百炼
- MODEL=qwen-vl-max
- BASE_URL=https://dashscope.aliyuncs.com/compatible-mode/v1
API 接口
1. 上传图片并提取文本
Endpoint: POST /upload/
请求格式: multipart/form-data
参数:
- file: 图片文件
响应示例:
2. 文档图像矫正
Endpoint: POST /uvdoc/unwarp
请求格式: multipart/form-data
参数:
- file: 需要进行展平处理的文档图片文件
响应格式: image/png
说明:
- 该接口用于处理弯曲变形的文档图片,返回展平后的图片
- 支持常见图片格式(PNG、JPEG等)
- 返回的是展平后的PNG格式图片数据
错误响应:
源码运行
商业化选择
PIG AI应用开发平台 | 适合中大型企业构建自主可控的AI中台
为Java开发者提供全栈式AI工程化解决方案,强类型/高可维护性架构,内置30+主流大模型支持。
- 🔍 知识引擎体系:RAG 知识引擎全自动化多模态解决方案
- 📝 AI-OCR 中枢:复杂非标场景高精度识别
- ⚙️ 业务智能融合:函数编排 + Chat2SQL,无缝对接现有业务系统
- 🛡️ N维风控体系:敏感词/IP/Token/User 规则控制引擎
文档有误?请协助编辑
发现文档问题?点击此处直接在 GitHub 上编辑并提交 PR,帮助我们改进文档!