写在最前：问题咨询请直接点击此处提交 ISSUE

⭐️ 请先 Star 本项目后再提问，作者精力有限，未 Star 直接 Close
🐞 GitHub ISSUE 需包含：问题截图 + SDK版本 + 配置代码

什么是office2md

这是一项基于 Markdown 格式的多功能转换服务，支持将 PowerPoint、Word、Excel、图像、音频和 HTML 等文件转化为 Markdown 格式。同时，服务整合了 Gitee AI 和智谱 AI 提供的 GLM-4V 模型，以及阿里云百炼平台的 Qwen-VL-Max 模型，用于图片和 PDF 文件的高效文本识别。

Docker 使用说明

1. 快速使用

# 内置了GLM-4V-FLASH视觉模型，仅供测试使用
docker run -p 8000:8000 registry.cn-hangzhou.aliyuncs.com/dockerhub_mirror/markitdown

2. 使用 Gitee AI

docker run -d \
 -p 8000:8000 \
 -e API_KEY=gitee_ai_key \
 -e MODEL=InternVL2_5-26B \
 -e BASE_URL=https://ai.gitee.com/v1 \
 registry.cn-hangzhou.aliyuncs.com/dockerhub_mirror/markitdown

3. 使用阿里云百炼平台

docker run -d \
  -p 8000:8000 \
  -e API_KEY=your_aliyun_api_key \
  -e MODEL=qwen-vl-max \
  -e BASE_URL=https://dashscope.aliyuncs.com/api/v1 \
  registry.cn-hangzhou.aliyuncs.com/dockerhub_mirror/markitdown

环境变量说明

服务支持以下环境变量配置：

环境变量	说明	默认值
API_KEY	AI 平台的 API 密钥	XXXX
BASE_URL	AI 平台的 API 基础 URL	https://open.bigmodel.cn/api/paas/v4
MODEL	使用的模型名称	glm-4v-flash
DELETE_DELAY	临时文件删除延迟（秒）	300
PROMPT	文本提取提示词	提取图片中全部的文本，不需要任何推理和总结，只需要原文

支持的模型配置

智谱 AI

MODEL=glm-4v-flash
BASE_URL=https://open.bigmodel.cn/api/paas/v4

Gitee AI

MODEL=InternVL2_5-26B
BASE_URL=https://ai.gitee.com/v1

阿里云百炼

MODEL=qwen-vl-max
BASE_URL=https://dashscope.aliyuncs.com/compatible-mode/v1

API 接口

1. 上传图片并提取文本

Endpoint: POST /upload/ 请求格式: multipart/form-data 参数:

file: 图片文件

响应示例:

{
  "text": "提取的文本内容"
}

2. 文档图像矫正

Endpoint: POST /uvdoc/unwarp 请求格式: multipart/form-data 参数:

file: 需要进行展平处理的文档图片文件

响应格式: image/png 说明:

该接口用于处理弯曲变形的文档图片，返回展平后的图片
支持常见图片格式（PNG、JPEG等）
返回的是展平后的PNG格式图片数据

错误响应:

{
  "detail": "Error message"
}

源码运行

git clone https://gitee.com/log4j/office2md.git

cd office2md 

python3 -m venv venvdev

source venvdev/bin/activate

pip install -r requirements.txt

# 启动服务
uvicorn main:app --reload

商业化选择

PIG AI应用开发平台 | 适合中大型企业构建自主可控的AI中台

为Java开发者提供全栈式AI工程化解决方案，强类型/高可维护性架构，内置30+主流大模型支持。

🔍 知识引擎体系：RAG 知识引擎全自动化多模态解决方案
📝 AI-OCR 中枢：复杂非标场景高精度识别
⚙️ 业务智能融合：函数编排 + Chat2SQL，无缝对接现有业务系统
🛡️ N维风控体系：敏感词/IP/Token/User 规则控制引擎

文档有误？请协助编辑

发现文档问题？点击此处直接在 GitHub 上编辑并提交 PR，帮助我们改进文档！

文档有误？请协助编辑

发现文档问题？点击此处直接在 GitHub 上编辑并提交 PR，帮助我们改进文档！

写在最前：问题咨询请直接点击此处提交 ISSUE

什么是office2md

​Docker 使用说明

​1. 快速使用

​2. 使用 Gitee AI

​3. 使用阿里云百炼平台

​环境变量说明

​支持的模型配置

​智谱 AI

​Gitee AI

​阿里云百炼

​API 接口

​1. 上传图片并提取文本

​2. 文档图像矫正

​源码运行

​商业化选择

PIG AI应用开发平台 | 适合中大型企业构建自主可控的AI中台

文档有误？请协助编辑

文档有误？请协助编辑

Docker 使用说明

1. 快速使用

2. 使用 Gitee AI

3. 使用阿里云百炼平台

环境变量说明

支持的模型配置

智谱 AI

Gitee AI

阿里云百炼

API 接口

1. 上传图片并提取文本

2. 文档图像矫正

源码运行

商业化选择