如何解决PDF itext TOC生成
| 我必须将多个PDF文档合并为一个PDF文档。除此之外,我还必须生成TOC。原始文档将包含具有特定样式的文本(例如H1)。该特殊文本成为目录的一部分。 已使用iText合并多个PDF文件。我无法在解析文档时找到示例/ API,以查找具有样式H1的所有内容。 生成TOC是下一个挑战。解决方法
你不知道PDF没有样式。它们具有“当前图形状态”,其中包括:
当前转换矩阵(CTM)。
描边和填充色
剪切路径
字体大小
其他文本状态内容(字符间距,单词间距,前导,文本呈现模式...)
包括与CTM组合的单独的文本转换矩阵。
因此,首先您必须跟踪所有这些内容(iText可以为您做大多数事情)。然后,您必须确定\“ H1 \”文本的大小,并考虑到CTM,文本矩阵和字体大小,然后锁定到具有该大小屏幕尺寸的所有文本(iText会再次为您处理) ,IIRC)。
只是为了让像您这样的人感到生活更加刺激,您正在查看的文字完全可能根本不是文字。它可能是路径,也可能是位图……这时您需要OCR,但我认为使用OCR不会获得很多尺寸信息。
您需要写一个“ 0”来确定给定文本的最终大小(以及是否为最后一部分的一部分),并过滤掉所有太小的内容。然后,您将根据找到的文本构建目录。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。