2026/4/15 4:35:06
网站建设
项目流程
怎么样在网站上做跳转,wordpress首页添加幻灯片,重庆建设工程施工安全管理平台,搭建门户网站MinerU能提取图片吗#xff1f;多模态输出功能实测教程
你是不是也遇到过这种情况#xff1a;手头有一份排版复杂的PDF文档#xff0c;里面夹着不少图表、公式和示意图#xff0c;想把内容整理成Markdown格式发到博客或项目文档里#xff0c;结果手动复制粘贴折腾半天多模态输出功能实测教程你是不是也遇到过这种情况手头有一份排版复杂的PDF文档里面夹着不少图表、公式和示意图想把内容整理成Markdown格式发到博客或项目文档里结果手动复制粘贴折腾半天图对不上文表格乱码公式更是直接“失踪”现在有个更聪明的办法——用MinerU 2.5-1.2B这个专为复杂PDF设计的深度学习工具一键提取文字、表格、公式还能完整保留并导出文档中的所有图片。本文就来实测一下它到底能不能准确提取图片多模态输出效果如何跟着我一步步操作带你从零开始验证它的真实能力。1. 环境准备与快速部署1.1 镜像简介我们使用的镜像是基于 CSDN 星图平台预置的MinerU 2.5-1.2B 深度学习 PDF 提取镜像已经完整集成以下核心组件主模型MinerU2.5-2509-1.2BOpenDataLab 推出辅助模型PDF-Extract-Kit-1.0用于OCR增强识别LaTeX_OCR精准还原数学公式依赖环境Python 3.10 magic-pdf[full] CUDA 支持这意味着你不需要再花几个小时配置环境、下载权重、解决依赖冲突进入镜像后即可直接运行提取任务真正实现“开箱即用”。1.2 启动与目录切换登录镜像后默认路径为/root/workspace。我们需要先进入 MinerU 的主工作目录cd .. cd MinerU2.5这个目录下已经准备好了一个测试文件test.pdf我们可以直接拿它来做实验。2. 图片提取功能实测2.1 执行提取命令运行如下命令开始提取mineru -p test.pdf -o ./output --task doc参数说明-p test.pdf指定输入的PDF文件-o ./output指定输出目录--task doc选择文档级提取任务启用完整多模态解析流程执行完成后系统会在当前目录生成一个output文件夹里面包含了所有提取结果。2.2 输出内容结构分析打开output目录你会看到类似这样的文件结构output/ ├── test.md # 主 Markdown 文件 ├── images/ # 存放所有提取出的图片 │ ├── figure_001.png │ ├── figure_002.jpg │ └── table_001.png ├── formulas/ # 公式图像可选 │ └── formula_001.svg └── metadata.json # 结构化元数据页码、区块类型等重点来了images/文件夹中确实包含了原PDF里的所有插图和表格截图而且命名清晰顺序合理可以直接在 Markdown 中引用。比如在test.md中可以看到这样的写法 如图所示整个流程分为三个阶段...这说明不仅图片被成功提取出来了连带的引用关系也被自动维护好了。3. 多模态输出能力详解3.1 什么是“多模态输出”所谓多模态指的是模型不仅能处理文本还能同时理解图像、表格、公式等多种信息形式并将它们统一组织成结构化的输出。MinerU 正是为此而生。它的工作流程可以分为三步视觉布局分析识别PDF每一页的区块划分标题、段落、图片、表格等内容提取与重建分别调用OCR、LaTeX识别、图像切分等模块获取具体内容语义对齐与整合确保图文对应、公式位置正确、表格结构完整最终输出一份既可读又可用的 Markdown 文档。3.2 图片提取原理揭秘很多人以为“提取图片”就是简单地把PDF里的图像资源抠出来。但实际上很多PDF中的图片是嵌入式的甚至有些是由矢量图形或多个图层拼接而成。MinerU 的做法更智能利用PDF-Extract-Kit对页面进行像素级分割检测出所有非文本区域尤其是带有边框、标题或图注的部分将这些区域裁剪为独立图像文件并保存至images/目录在 Markdown 中插入对应的![]()语法保持上下文连贯举个例子如果原文中有这样一段“如图1所示用户请求经过网关路由到后端服务。”MinerU 会自动找到下方最接近的图像命名为figure_001.png并在.md文件中正确插入引用。4. 实际效果评估4.1 测试样本选择为了全面检验图片提取能力我额外准备了几类典型PDF文档进行测试文档类型特点是否包含图片学术论文多栏排版、大量公式、图表密集是技术白皮书清晰章节结构、架构图丰富是财报PPT转PDF幻灯片风格、背景复杂、文字重叠部分误判扫描版书籍图像模糊、无文本层❌ 不支持结果显示对于电子版原生PDF即由Word/LaTeX生成MinerU 的图片提取准确率接近100%而对于扫描件或低质量PDF则建议先做预处理如使用OCR工具增强。4.2 图片质量与命名规范提取出的图片质量令人满意基本保持了原始分辨率。以一张A4页面上的折线图为例原图尺寸约 600×400 像素提取后保存为 PNG 格式清晰可放大查看细节文件名采用figure_xxx.png和table_xxx.png分类命名便于后期管理此外所有图片都按出现顺序编号不会错乱极大方便了后续编辑和发布。4.3 表格也能当“图片”提取你可能注意到images/目录下还有table_001.png这样的文件。这是怎么回事这是因为某些复杂表格如合并单元格、跨页表格难以完美转换为 Markdown 表格语法MinerU 会采取“降级策略”将其作为图像保存同时在.md文件中插入图片引用。虽然损失了可编辑性但保证了视觉完整性。如果你希望尽可能多地保留结构化数据可以在配置文件中调整表格识别模式。5. 自定义配置与优化技巧5.1 修改设备模式GPU vs CPU默认情况下系统使用 GPU 加速推理位于/root/magic-pdf.json的配置如下{ models-dir: /root/MinerU2.5/models, device-mode: cuda, table-config: { model: structeqtable, enable: true } }如果你的显存不足低于8GB或者处理超大PDF时出现 OOMOut of Memory错误可以将device-mode改为cpudevice-mode: cpu虽然速度会慢一些但稳定性更高适合本地小规模测试。5.2 输出路径建议推荐始终使用相对路径输出例如mineru -p test.pdf -o ./output --task doc这样生成的结果就在当前目录下方便快速查看。避免使用绝对路径或深层嵌套目录以免权限问题导致写入失败。5.3 如何处理公式乱码极少数情况下可能会遇到公式显示为[Formula]或乱码的情况。主要原因有两个PDF源文件本身图像模糊公式区域被错误识别为普通文本解决方案确保输入PDF清晰尽量避免压缩过度检查formulas/目录是否有.svg或.png文件生成若问题持续存在可尝试更新 LaTeX_OCR 模型权重6. 总结6.1 核心结论回顾通过本次实测我们可以明确回答文章开头的问题MinerU 能提取图片吗完全可以不仅如此它还能做到准确识别PDF中的图表、示意图、流程图等图像元素将其单独保存为高质量 PNG/JPG 文件在 Markdown 中自动建立图文引用关系同时提取表格、公式、多栏文本等复杂内容整个过程无需人工干预一次命令即可完成全链路解析。6.2 适用场景推荐MinerU 特别适合以下几类用户技术写作者需要频繁将PDF资料转为博客、笔记、文档研究人员整理学术论文、提取图表数据产品经理快速消化竞品白皮书、提取关键信息开发者构建自动化文档处理流水线6.3 下一步行动建议如果你想亲自体验这套强大工具访问 CSDN星图镜像广场搜索 “MinerU 2.5-1.2B”一键启动容器环境按照本文步骤运行测试你会发现过去需要半天才能搞定的PDF整理工作现在几分钟就能完成。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。