pdf 的格式很多很杂,有的标题是居中的,有的是左对齐的,如何将这些繁杂的 pdf 进行切割? (尝试过使用 itext5 ,但是对左对齐的标题格式不太好处理。)
|  |      1functionABC      2024-08-23 16:03:39 +08:00 要切割成啥样子呀? | 
|      2justNoBody      2024-08-23 17:59:06 +08:00 能不能发一个具体的材料,然后你想办法脱敏一下,我挺感兴趣的。 | 
|      3SoloKing      2024-08-23 19:18:15 +08:00 via Android 借楼,我也有需求,PDF 或者 Word 的内容提取出来之后,按章节段落切分,有什么好的方法吗? | 
|  |      4mythabc      2024-08-23 19:32:41 +08:00 1. 版式识别 2. 多模态大模型 | 
|      5wuDportgas OP @functionABC 根据一级标题去做切分 | 
|      6wuDportgas OP @mythabc ocr 速度比较慢 |