应项目需求需要获取PDF扫描文件的内容,但寻遍整个网络能达到这种功能的产品,都要会员充值。苦于囊中羞涩也只好编写功能代码来实现了。
如PDF中表格图片图-1效果生成图-2
我这里是获取JRT 金融数据安全 数据安全分级指南.pdf扫描文件,将内部表格数据写入到excel文件。
以上就是Python实现PDF扫描件生成DOCX或EXCEL功能的详细内容,更多关于Python 扫描件转DOCX EXCEL的资料请关注得牛网其它相关文章!
有关所有不同的调用,请参阅上面的CLI文档(或docx2pdf --help
)中的内容。对于CLI和python库也是一样的。在
从视觉呈现上来看,PDF文档和Word文档表征相同的内容(文本、图片等)和格式(字体、段落、表格等);但实际上完全是不同的格式和规范:
读取PDF内容(常用Python库如、、、、)仅仅是PDF转Word的第一步,猜想这也是题主问题(转换后格式有问题,图片丢失)的根源。
真正难点在于建立从PDF基于元素位置的格式到Word基于内容的格式的映射。PDF中实际并不存在段落、表格的概念,这个转换就是要将PDF中“横、竖直线围绕着文本”解析为Word的“表格”,将“文本及下方的一条横线”解析为“文本下划线”,等等。
基于这样的思路,我尝试写了一个Python库。支持Windows和Linux平台,要求Python版本>=3.6。目前还在断断续续的开发和改进中,不过已经能够处理一些常见的、规范的PDF到Word格式转换。
其中,start
和end
参数指定页码范围(下标从0开始),默认转换所有页(start=0, end=None,可省略);也可以通过pages
指定不连续的页面,例如pages=[1,3,5]
。
最后,上传两个样例展示转换效果(左边为PDF文档,右侧为转换后的Word文档)。
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。