指定文件总数提取 按指定分文件夹?

为了满足用户快速从docx文件中提取图片到指定文件夹的需求,该系统应该满足以下功能:

  • 当用户选择.docx文件并指定图片输出路径时可以完成对docx文件中所有图片的提取。
  • 当用户选择的文件不是.docx文件时应该提醒用户重新选择文件
  • 当用户没有选择图片输出路径时应该提醒用户输入
  • 当用户选择退出可以退出程序

图4 提示用户文件名不正确

本系统的软件开发与运行环境具体如下:

提取.docx中图片的文件结构结构比较简单,只包含一个Python文件。在运行程序时,用户可以自行选择要进行提取的.docx文件和输出图片的文件夹路径。

#选择docx文件按钮
#选择图片路径文件按钮
 

#创建docx文件名输入框
#创建输出图片路径输入框
 

1.提取.docx文件中的图片(最核心)

六、打包成exe可执行文件

Python项目编写完成后,可以将其打包成一个exe可执行文件,这样就可以在其他没有安装Python环境的计算机上运行。

实现打包.exe文件可执行文件需要使用pyinstaller模块,这个模块为第三方模块,需要单独安装。PyInstaller模块支持多种操作系统。但是该模块不支持跨平台操作。

  1. 通过CMD打开“命令提示符”窗口,在光标位置输入:pyinstaller+F+(要打包的.py文件的绝对路径)

图6 生成.exe可执行文件的执行过程

2.按下“Enter"键,将自动生成.exe可执行文件3

3.在.exe文件路径下打开找到该文件,双击该文件即可运行项目。


喜欢别忘记点赞加关注呀!

}

40个Python办公自动化案例合辑

大家好,我是早起。本文将分享一个常见办公场景下的Python自动化案例,主要将涉及以下两个内容

  • Python批量重命名文件

PDF 是纯图片类型,里面的文字信息无法手动复制,同时本例中所有的图片都向左旋转 90 度,大致如下图所示(马赛克部分为无关内容):

也就是需要根据每个PDF内容来批量重命名一大堆文件,最终效果如下

本需求是一个批处理问题,即需要对诸多文件执行类型的操作,基本思路是先完成对一份文件的处理,然后借助 glob 模块获取指定路径所有符合要求的文件路径,执行批处理框架,固后面的操作先针对 文件 (1).pdf

需求中最大的难题在于,PDF 是图片类型,无法按常规方法提取文件。解决思路是利用光学字符识别(OCR)将图片中的文字识别出,然后进行后续操作,这里就涉及到一些先后顺序:

截取需要识别的部分图片

将截取的图片交给 OCR 获取字符串

为了完成 OCR,需要在电脑上安装三个软件:

三个软件的下载安装没有特殊的地方(tesseract 配置稍复杂但网络有上诸多教程,这里不再赘述),读者可自行搜索下载及配置

具体的模块用途可以参考下面具体代码。其中 wand 和 pyocr 由于是非标准库需要自行额外安装。打开命令行输入:

作为测试以及方便后面的实际运行,需求中的 货物清单 这一文件夹可以放在桌面上。为了获取其中的内容首先我们要明确桌面的路径。每个人每台电脑的桌面路径都不相同,如果直接复制当前电脑桌面的路径,更换电脑或者其他用户调试就需要额外修改。可通过下面基于 os 模块的代码获取桌面路径:

将图片解析为二进制矩阵:

由于图片现在处于左旋 90 度的水平位,将其转为正位可以用 rotate() 方法,注意该方法是逆时针旋转,因此回正位需要逆时针旋转 270 度。完善上面的代码,并为 new_img.show() 预览图片:

弹出图片并恢复到了正位,接下来分别截取需要提取部位字符串的图片了,尽量让图片中只有需要识别的部分,获取识别出来容易简单处理获得需要的内容 截取图片用 image.crop((left, top, right, bottom)) 四个参数需要反复调试才能确定。首先提取 TRACKING# 部位需要的内容,经确定四个参数分别是 350 600 ,尝试截取和预览图片:

通过正则提取红框内需要的内容:

用同样的办法也可以提取另一个红框的文字:

至此我们就完成了需求的一大步,接下来只需要借助 glob 模块遍历目标文件夹,对获取的每一个文件执行上面的操作即可,这样就将全部需求完成,所有的PDF均按照指定进行重命名

本文的分享就到这里,上面的 Python办公自动化 案例可以扩展到很多使用场景(核心为提取PDF指定内容+批量重命名),大家可以自己找一些文件测试学习,如果对你有所帮助可以给本文来一波三连~

}

我要回帖

更多关于 批量获取文件夹下的文件数量 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信