求推荐一个能检索内容的 pdf 文件管理软件

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 751 天前的主题，其中的信息可能已经有所发展或是发生改变。

因为平时会把一些论文、文章转成 pdf 保存，时间久了 pdf 文件非常多，所以想找个 pdf 管理软件，想要的特性如下：

能检索 pdf 标题和内容
最好能给 pdf 文件打标签
B/S 架构，这样可以部署到一台服务器上，多端访问

谢谢。

PDF

检索

文件

软件

30 条回复 • 2023-03-15 16:53:55 +08:00

jamosLi

2023-03-14 09:41:48 +08:00

有了踢踢我

koto

2023-03-14 09:42:32 +08:00

abbyy ？不过是收费的

DigitalG

2023-03-14 09:52:38 +08:00

devonthink 有 server 版本，一次性付费，虽然比较贵。

DigitalG

2023-03-14 09:53:33 +08:00

@DigitalG 不过除了 server ，client 只有 Apple 生态的版本

shalingye

2023-03-14 10:00:47 +08:00 via Android

calibre ，能写元数据，自带 web 服务，但似乎不能检索 pdf 内容。

virlaser

2023-03-14 10:05:37 +08:00

目前用的 NAS 实现这个功能
对于可以复制文字的 PDF ，NAS 可以直接索引里面的文字，直接搜索
对于不能复制文字的 PDF ，需要先通过 OCR 软件识别一下（之前用的 PDFElement ，不过好像调的还是 abbyy 引擎），在 PDF 上覆盖一层透明的文字层，然后再保存到 NAS 里面，这样就可以索引了
NAS 本身的文件管理提供了打标签、多端访问和索引的功能

mmm159357456

2023-03-14 10:11:52 +08:00

为啥没人说 zotero 和 endnote

tool2d

2023-03-14 10:16:55 +08:00

自己写一个 pdf 搜索并不难。你可以用工具批量 pdf to txt ，然后针对 txt 做文本搜索，就会方便太多。

f1ynnv2

2023-03-14 10:31:15 +08:00

@mmm159357456 调研过 zotero ，这个好像就是个单体软件，只是能通过 webdav 同步，离 web-based 有些远。endnote 没接触过，我去了解下。

f1ynnv2

2023-03-14 10:35:59 +08:00

@tool2d 理论上确实是可以自己写，但是时间花在这上面不太值。

f1ynnv2

2023-03-14 10:43:35 +08:00

找到一个开源的，似乎完美符合我的要求。
https://github.com/papermerge/papermerge-core

litengyu86

2023-03-14 12:35:02 +08:00

@koto abbyy 丢丢贵

TerranceL

2023-03-14 13:05:23 +08:00

mendely

f1ynnv2

2023-03-14 13:12:51 +08:00

@f1ynnv2 试了下，功能是有，但是不稳定。。

NutsoGao

2023-03-14 13:38:06 +08:00

插眼，有了我踢踢我

beyondex

2023-03-14 15:53:05 +08:00

sea desktop search ，满足 1 ，3 B/S 架构，这样可以部署到一台服务器上，多端访问
不过浏览器访问需要手动配置，倒也不复杂，不提供傻瓜化开关。

aitianci

2023-03-14 16:52:29 +08:00

mendeley 和 zotero 确实符合条件，我现在在用的是 zotero ，可以手动导入 pdf 然后它自己会 OCR 搞一套检索，标题内容都能搜索，至于打标签那是基本功能，科研工具就是做笔记方便。另外可以用坚果云的 webdav 同步，多端访问也不成问题。

kukat

2023-03-14 18:08:47 +08:00

paperless-ngx

congjinyebaiya

2023-03-14 18:21:28 +08:00 via iPhone

zotero 貌似可以

wanghaoyang

2023-03-14 18:31:24 +08:00

Confluence

hicdn

2023-03-14 22:07:52 +08:00

继续安利 recoll ，https://www.lesbonscomptes.com/recoll/pages/index-recoll.html 支持全平台，功能十分强大，压缩包里的文件内容都可以索引，还能自己扩展可索引的文件后缀名，比如 xmind 的思维导图。

mmdsun

2023-03-14 22:11:10 +08:00

我用的 Adobe Acrobat Pro DC 工具可以搜索 pdf 内容，用的微博 Vposy 大神出的 Adobe 全家桶

em70

2023-03-14 22:13:10 +08:00

chatPDF

mmdsun

2023-03-14 22:14:47 +08:00

抱歉没看 B/S 架构，建议用 Apache Solr 。PDF\word 各种格式都能搜索，类似 ES ，带 UI

Apache Solr：
https://solr.apache.org/features.html

f1ynnv2

2023-03-14 22:48:00 +08:00

@kukat 试用了一下，这个确实很好用，基本满足我列的要求。非常感谢
不过默认自带的 ocr 不支持中文，用 Docker 的话得自己重新写个 Dockerfile

dier

2023-03-14 22:49:33 +08:00 via iPhone

听说最近出了一个 chatPDF

enrolls

2023-03-14 23:07:14 +08:00 via iPhone

这个整合一下应用，应该很快就能有雏形啊

kukat

2023-03-15 10:13:48 +08:00

@f1ynnv2 不用啊，可以调整 OCR 的语言选项。https://docs.paperless-ngx.com/configuration/#ocr

用官方提供的安装脚本就行，不过语言项有点 bug ，一会下划线一会横线…… 记得改一下 docker-compose.env
PAPERLESS_OCR_LANGUAGE=eng+chi_sim
PAPERLESS_OCR_LANGUAGES=eng chi-sim

f1ynnv2

2023-03-15 11:17:14 +08:00

@kukat 我启动 docker 时提示没安装 chi 的 ocr ，只好自己又装了一下重新做了个镜像

f1ynnv2

2023-03-15 16:53:55 +08:00

@kukat 请问一下，docker 镜像里，我已经通过 apt install tesseract-ocr-chi-sim 了，但是启动的时候仍然提示

2023-03-15 16:36:16 Reading package lists...
2023-03-15 16:36:16 Package tesseract-ocr-eng already installed!
2023-03-15 16:36:17 Package tesseract-ocr-chi_sim not found! :(

不过奇怪的是确实已经可以 OCR 扫描到文字了。