我看博客说 MinerU 是基于百度的 paddleocr 0.9b 的工程产品,
但是官方对其描述看起来却很像是自己训练或者微调出来的独立大模型:
“MinerU 在线产品已全面集成 MinerU2.5 文档解析大模型”
有了解的人出来给小弟解惑吗,官方文档也看了,没看到相关解释
1
w568w 1 天前
> 我看博客说 MinerU 是基于百度的 paddleocr 0.9b 的工程产品
你看的是什么博客? MinerU 和 PaddleOCR 没有半毛钱关系,像是 LLM 写出幻觉了。 |
2
miracleyin 1 天前 MinerU 分为两个 backend
一个是 pipeline ,集成了多种文档相关的模型,并基于后处理合并完成文档解析; 另一个是 vlm backend ,目前 2.5 版本是一个 qwen 架构 1.2B 的 vlm 模型,这个模型分为两阶段,一阶段是对版面进行分析,获取区域、区域类别、区域顺序,二阶段是对区域进行解析,提取文本、表格、公式,最后后处理合并。 他们的输入输出是一致的(功能一致),但使用的技术不同,效果和性能也有差异,需要根据自己场景按需选择。 paddleocr 在 MinerU pipeline backend 被集成(完成 ocr ),但 vlm 后端两者完全没有关联 |
3
ZimaBlueee OP @w568w 数字生命卡兹克的公众号,他在评论区里跟别人这样说的。并且这种说法在很多群里也能看到,但是又找不到出处,就很蒙。所以 mineru 是独立训练出来的模型吗?
|
4
coefu 1 天前
有他们自己的模型,外加一部分工程能力,组合而成的 rag workflow 工具,类似 ragflow 这种 rag 工程实现中 对 PDF 做解析的一环工具。
|
5
coefu 1 天前
@ZimaBlueee 少看点这种二道知识贩子的东西,有问题自己去官网/github 看官网文档,再不懂结合 chatgpt ,都比这种二道知识贩子靠谱。
|
6
w568w 1 天前
@ZimaBlueee #3 楼下的说法是正确的,MinerU 作为 pipeline 「可以」接入 PaddleOCR 模型,但不能说 MinerU 「基于」 PaddleOCR 。另外 MinerU 作为视觉语言模型时也是他们自己训练的模型称呼。
|
7
RotkPPP 1 天前
@w568w 不是做这方面的,就点击进去看看仓库,人家都致谢 paddleocr 了,而且搜一下代码,pipline 和 backend 很多使用 paddleocr 的包,所以也不能完全说没关系吧。
再搜了一下谷歌,"MinerU 使用 PaddleOCR 进行文字识别。".https://www.53ai.com/news/OpenSourceLLM/2025040908693.html |
8
ZimaBlueee OP @miracleyin 感谢老哥,明朗了,怪不得两种说法都有。
|
9
w568w 1 天前
@RotkPPP
> 人家都致谢 paddleocr 了 先澄清定义后讨论: 1. 「基于」的意思是「底层完全依赖某个特定包,或者在特定包的基础上进行包装」 2. 「 paddleocr 」是百度开发的工程框架和模型两者的「统称」,OP 的问题是「是否基于 PaddleOCR 模型」,即特指模型部分 > pipline 和 backend 很多使用 paddleocr 的包 MinerU 可以使用 PaddleOCR 模型,当然会依赖那些包。另外虽然我没有具体读过代码,但如果 MinerU 使用了 PaddleOCR 的工程函数来做图像处理,也是合理的。但不能说「 MinerU 基于百度的 paddleocr 0.9b 模型」。 > 再搜了一下谷歌,"MinerU 使用 PaddleOCR 进行文字识别。" 所以说不要再看 AI 反刍的二道贩子知识了啊…… |