Skip to content
Open
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension


Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
21 changes: 21 additions & 0 deletions plugins/model/pdf-mineru/.dockerignore
Original file line number Diff line number Diff line change
@@ -0,0 +1,21 @@
__pycache__
.pyc
.pyo
.pyd
.Python
env
venv
.venv
pip-log.txt
pip-delete-this-directory.txt
.tox
.coverage
.coverage.
.cache
nosetests.xml
coverage.xml
.cover
.log
.git
.mypy_cache
.pytest_cache
1 change: 1 addition & 0 deletions plugins/model/pdf-mineru/.env
Original file line number Diff line number Diff line change
@@ -0,0 +1 @@
MINERU_TOKEN=官网申请的API 密钥
21 changes: 21 additions & 0 deletions plugins/model/pdf-mineru/Dockerfile
Original file line number Diff line number Diff line change
@@ -0,0 +1,21 @@
# ---- 基础镜像 ----
FROM python:3.12-slim

# ---- 工作目录 ----
WORKDIR /app

# ---- 复制代码 ----
COPY mineru_saas_api.py .
COPY requirements.txt .

# ---- 安装依赖 ----
RUN pip install --no-cache-dir -r requirements.txt

# ---- 环境变量(运行时注入)----
ENV MINERU_TOKEN="YOUR_TOKEN_WILL_BE_INJECTED"

# ---- 暴露端口 ----
EXPOSE 1234

# ---- 启动命令 ----
CMD ["uvicorn", "mineru_saas_api:app", "--host", "0.0.0.0", "--port", "1234"]
195 changes: 152 additions & 43 deletions plugins/model/pdf-mineru/README.md
Original file line number Diff line number Diff line change
@@ -1,85 +1,194 @@
# Readme
# **MinerU SaaS Wrapper For Fastgpt 详细部署文档**
**—— 为 FastGPT 提供稳定、高效、开箱即用的纯白嫖文档解析服务,转接服务用grok写的,文档也是,有不明白出问题了,`docker logs -f mineru-saas-wrapper` 查看日志,问他~**

# 项目介绍
---
本项目参照官方插件**pdf-marker,**基于MinertU实现了一个高效的 **PDF 转 Markdown 接口服务**,通过高性能的接口设计,快速将 PDF 文档转换为 Markdown 格式文本。

- **简洁性:**项目无需修改代码,仅需调整文件路径即可使用,简单易用
- **易用性:**通过提供简洁的 API,开发者只需发送 HTTP 请求即可完成 PDF 转换
- **灵活性:**支持本地部署,便于快速上手和灵活集成
> **适用人群**:FastGPT 开发者、后端工程师、DevOps、AI 应用集成者
> **目标**:在 **5 分钟内**完成从零到生产可用的 MinerU saas服务api的文档解析服务部署

# 配置推荐
---

## 一、项目概述

配置及速率请参照[MinerU项目](https://github.com/opendatalab/MinerU/blob/master/README_zh-CN.md)官方介绍。
| 项目 | 说明 |
|------|------|
| **名称** | MinerU SaaS Wrapper for FastGPT |
| **框架** | FastAPI + Uvicorn |
| **核心功能** | 接收文件 → 调用 MinerU 官方 SaaS API → 轮询结果 → 返回内嵌图片的 Markdown → fasgpt读取解析内容转为知识库 |
| **部署方式** | Docker(推荐) / docker-compose |
| **接口路径** | `POST /v2/parse/file` |

# 本地开发
---

## 基本流程
## 二、前置条件
| **MinerU Token** | 在 [https://mineru.net](https://mineru.net) 注册并获取 SaaS Token |

1、安装基本环境,主要参照官方文档[使用CPU及GPU](https://github.com/opendatalab/MinerU/blob/master/README_zh-CN.md#%E4%BD%BF%E7%94%A8GPU)运行MinerU的方式进行。具体如下,首先使用anaconda安装基础运行环境
> **获取 Token 步骤**:
> 1. 登录 MinerU 官网
> 2. 进入 **控制台 → API 密钥**
> 3. 创建新密钥(建议命名 `fastgpt-wrapper`)
> 4. 复制完整 Token(以 `eyJ...` 开头)

---

## 三、目录结构说明

```bash
conda create -n mineru python=3.10
conda activate mineru
pip install -U "magic-pdf[full]" --extra-index-url https://wheels.myhloli.com -i https://mirrors.aliyun.com/pypi/simple
mineru-saas-wrapper/
├── .dockerignore
├── Dockerfile
├── docker-compose.yml
├── mineru_saas_api.py # 主服务逻辑
├── requirements.txt # 依赖包
├── .env # (可选)环境变量文件
└── README.md
```

2、[下载模型权重文件](https://github.com/opendatalab/MinerU/blob/master/docs/how_to_download_models_zh_cn.md)
---

## 四、部署方式一:使用 `docker-compose`(推荐)

### 步骤 1:克隆项目

```bash
pip install modelscope
wget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/scripts/download_models.py -O download_models.py
python download_models.py
mkdir mineru-saas-wrapper
cd mineru-saas-wrapper
```

python脚本会自动下载模型文件并配置好配置文件中的模型目录
### 步骤 2:创建 `.env` 文件(推荐,防止 Token 泄露)

配置文件可以在用户目录中找到,文件名为`magic-pdf.json`
```bash
touch .env
```

> windows的用户目录为 "C:\\Users\\用户名", linux用户目录为 "/home/用户名", macOS用户目录为 "/Users/用户名"
编辑 `.env`:

3、如果您的显卡显存大于等于 **8GB** ,可以进行以下流程,测试CUDA解析加速效果。默认为cpu模式,使用显卡的话需修改【用户目录】中配置文件magic-pdf.json中"device-mode"的值。
```env
MINERU_TOKEN=官网申请的API 密钥
POLL_INTERVAL=3
POLL_TIMEOUT=600
PORT=1234
```

```bash
{
"device-mode":"cuda"
}
### 步骤 3:修改 `docker-compose.yml`

```yaml
services:
mineru-saas-wrapper:
build:
context: .
dockerfile: Dockerfile
container_name: mineru-saas-wrapper
restart: unless-stopped
ports:
- "1234:1234"
env_file:
- .env # 改为读取 .env 文件
healthcheck:
test: ["CMD", "curl", "-f", "http://localhost:1234/health"]
interval: 30s
timeout: 10s
retries: 3
start_period: 10s
logging:
driver: "json-file"
options:
max-size: "10m"
max-file: "3"
```

4、如需使用GPU加速,需额外再安装依赖。
### 步骤 4:启动服务

```bash
pip install --force-reinstall torch==2.3.1 torchvision==0.18.1 "numpy<2.0.0" --index-url https://download.pytorch.org/whl/cu118
docker-compose up -d --build
```

### 步骤 5:验证服务状态

```bash
pip install paddlepaddle-gpu==2.6.1
# 查看容器状态
docker ps | grep mineru-saas-wrapper

# 查看健康检查
curl http://localhost:1234/health
# 预期输出:
{"status":"healthy"}
```

5、克隆一个FastGPT的项目文件

```
git clone https://github.com/labring/FastGPT.git
```
## 五、接口测试

6、将主目录设置为 plugins/model 下的pdf-mineru文件夹
### 1. 使用 `curl` 测试

```bash
curl -X POST "http://localhost:1234/v2/parse/file" \
-F "file=@./sample.pdf" | jq
```
cd /plugins/model/pdf-mineru/

### 2. 预期成功响应

```json
{
"success": true,
"message": "",
"markdown": "# 标题\n\n![](data:image/png;base64,iVBORw0KGgoAAA...) ...",
"pages": 8
}
```

7、执行文件pdf_parser_mineru.py,启动服务
### 查看详细日志

```bash
python pdf_parser_mineru.py
docker logs -f mineru-saas-wrapper
```

# 访问示例
关键日志关键词:
- `Got upload url` → 上传成功
- `Polling ... -> done` → 解析完成
- `Parse finished, X pages` → 成功返回

---

仿照了**pdf-marker**的方式。
## 九、FastGPT 集成指南

```bash
curl --location --request POST "http://localhost:7231/v1/parse/file" \
--header "Authorization: Bearer your_access_token" \
--form "file=@./file/chinese_test.pdf"
### 1. 在 FastGPT 中配置「文档解析」节点

| 字段 | 值 |
|------|---- |
| **解析服务地址** | `http://your-server-ip:1234/v2/parse/file` |
| **请求方式** | POST |
| **文件字段名** | `file` |
| **响应字段映射** | `markdown` → 内容,`pages` → 页数 |

### 2. FastGPT 示例配置(JSON)

```json
// 已使用 json5 进行解析,会自动去掉注释,无需手动去除
{
"feConfigs": {
"lafEnv": "https://laf.dev", // laf环境。 https://laf.run (杭州阿里云) ,或者私有化的laf环境。如果使用 Laf openapi 功能,需要最新版的 laf 。
"mcpServerProxyEndpoint": "" // mcp server 代理地址,例如: http://localhost:3005
},
"systemEnv": {
"datasetParseMaxProcess": 10, // 知识库文件解析最大线程数量
"vectorMaxProcess": 10, // 向量处理线程数量
"qaMaxProcess": 10, // 问答拆分线程数量
"vlmMaxProcess": 10, // 图片理解模型最大处理进程
"tokenWorkers": 30, // Token 计算线程保持数,会持续占用内存,不能设置太大。
"hnswEfSearch": 100, // 向量搜索参数,仅对 PG 和 OB 生效。越大,搜索越精确,但是速度越慢。设置为100,有99%+精度。
"hnswMaxScanTuples": 100000, // 向量搜索最大扫描数据量,仅对 PG生效。
"customPdfParse": {
"url": "http://your-server-ip:1234/v2/parse/file", // 自定义 PDF 解析服务地址
"key": "", // 自定义 PDF 解析服务密钥
"doc2xKey": "", // doc2x 服务密钥
"price": 0 // PDF 解析服务价格
}
}
}
```
---

**部署完成!**
现在你的 FastGPT 已拥有强大的 **MinerU 文档解析能力**,支持 PDF + 图片 → 完美 Markdown 内嵌渲染。

> 如有问题,欢迎提交 Issue 或查看日志排查。祝你解析愉快!
32 changes: 32 additions & 0 deletions plugins/model/pdf-mineru/docker-compose.yml
Original file line number Diff line number Diff line change
@@ -0,0 +1,32 @@
services:
mineru-saas-wrapper:
build:
context: .
dockerfile: Dockerfile
container_name: mineru-saas-wrapper
restart: unless-stopped
ports:
- "1234:1234"
environment:
# 你的 MinerU SaaS API Token(必须)
- MINERU_TOKEN=eyJ0eXBlIjoiSldUIiwiYWxnIjoiSFM1MTIifQ.eyJqdGkiOiIzODcwOTM0MyIsInJvbCI6IlJPTEVfUkVHSVNURVIiLCJpc3MiOiJPcGVuWExhYiIsImlhdCI6MTc2Mjc2MTEzMywiY2xpZW50SWQiOiJsa3pkeDU3bnZ5MjJqa3BxOXgydyIsInBob25lIjoiMTg1MjEzMzQ1MDEiLCJvcGVuSWQiOm51bGwsInV1aWQiOiI4OTI5YjgzNC05ZTY4LTRhOTctOTNiMi1hMGVkNDk5N2YzYmYiLCJlbWFpbCI6IiIsImV4cCI6MTc2Mzk3MDczM30.CadUrEtAc_B_04opSk4b5ykK60m-CbrXArZuhNGV35MKsX_SaWTbrMHd3ND309f9fgM10QTWHAszjP2Duamzwg

# 可选:自定义轮询间隔(秒)
- POLL_INTERVAL=3

# 可选:最大等待时间(秒)
- POLL_TIMEOUT=600

# 可选:如果你的网络在国外,可改为国内加速镜像源(可选)
# - MINERU_BASE=https://mineru.net
healthcheck:
test: ["CMD", "curl", "-f", "http://localhost:1234/health"]
interval: 30s
timeout: 10s
retries: 3
start_period: 10s
logging:
driver: "json-file"
options:
max-size: "10m"
max-file: "3"
Loading
Loading