指定文件总数提取按指定分文件夹？

点击联系发帖人 时间：2022-06-14 12:59

批量获取文件夹下的文件数量

为了满足用户快速从docx文件中提取图片到指定文件夹的需求，该系统应该满足以下功能：

当用户选择.docx文件并指定图片输出路径时可以完成对docx文件中所有图片的提取。
当用户选择的文件不是.docx文件时应该提醒用户重新选择文件
当用户没有选择图片输出路径时应该提醒用户输入
当用户选择退出可以退出程序

图4 提示用户文件名不正确

本系统的软件开发与运行环境具体如下：

提取.docx中图片的文件结构结构比较简单，只包含一个Python文件。在运行程序时，用户可以自行选择要进行提取的.docx文件和输出图片的文件夹路径。

#选择docx文件按钮
#选择图片路径文件按钮

#创建docx文件名输入框
#创建输出图片路径输入框

`1.提取.docx文件中的图片（最核心）`

`六、打包成exe可执行文件`

Python项目编写完成后，可以将其打包成一个exe可执行文件，这样就可以在其他没有安装Python环境的计算机上运行。

实现打包.exe文件可执行文件需要使用pyinstaller模块，这个模块为第三方模块，需要单独安装。PyInstaller模块支持多种操作系统。但是该模块不支持跨平台操作。

通过CMD打开“命令提示符”窗口，在光标位置输入：pyinstaller+F+(要打包的.py文件的绝对路径)

图6 生成.exe可执行文件的执行过程

2.按下“Enter"键，将自动生成.exe可执行文件3

3.在.exe文件路径下打开找到该文件，双击该文件即可运行项目。

喜欢别忘记点赞加关注呀！

}

40个Python办公自动化案例合辑

大家好，我是早起。本文将分享一个常见办公场景下的Python自动化案例，主要将涉及以下两个内容

Python批量重命名文件

PDF 是纯图片类型，里面的文字信息无法手动复制，同时本例中所有的图片都向左旋转 90 度，大致如下图所示（马赛克部分为无关内容）：

也就是需要根据每个PDF内容来批量重命名一大堆文件，最终效果如下

本需求是一个批处理问题，即需要对诸多文件执行类型的操作，基本思路是先完成对一份文件的处理，然后借助 glob 模块获取指定路径所有符合要求的文件路径，执行批处理框架，固后面的操作先针对文件 (1).pdf

需求中最大的难题在于，PDF 是图片类型，无法按常规方法提取文件。解决思路是利用光学字符识别（OCR）将图片中的文字识别出，然后进行后续操作，这里就涉及到一些先后顺序：

截取需要识别的部分图片

将截取的图片交给 OCR 获取字符串

为了完成 OCR，需要在电脑上安装三个软件：

三个软件的下载安装没有特殊的地方（tesseract 配置稍复杂但网络有上诸多教程，这里不再赘述），读者可自行搜索下载及配置

具体的模块用途可以参考下面具体代码。其中 wand 和 pyocr 由于是非标准库需要自行额外安装。打开命令行输入：

作为测试以及方便后面的实际运行，需求中的货物清单这一文件夹可以放在桌面上。为了获取其中的内容首先我们要明确桌面的路径。每个人每台电脑的桌面路径都不相同，如果直接复制当前电脑桌面的路径，更换电脑或者其他用户调试就需要额外修改。可通过下面基于 os 模块的代码获取桌面路径：

将图片解析为二进制矩阵：

由于图片现在处于左旋 90 度的水平位，将其转为正位可以用 rotate() 方法，注意该方法是逆时针旋转，因此回正位需要逆时针旋转 270 度。完善上面的代码，并为 new_img.show() 预览图片：

弹出图片并恢复到了正位，接下来分别截取需要提取部位字符串的图片了，尽量让图片中只有需要识别的部分，获取识别出来容易简单处理获得需要的内容截取图片用 image.crop((left, top, right, bottom)) 四个参数需要反复调试才能确定。首先提取 TRACKING# 部位需要的内容，经确定四个参数分别是 350 600 ，尝试截取和预览图片：

通过正则提取红框内需要的内容：

用同样的办法也可以提取另一个红框的文字：

至此我们就完成了需求的一大步，接下来只需要借助 glob 模块遍历目标文件夹，对获取的每一个文件执行上面的操作即可，这样就将全部需求完成，所有的PDF均按照指定进行重命名

本文的分享就到这里，上面的 Python办公自动化案例可以扩展到很多使用场景（核心为提取PDF指定内容+批量重命名），大家可以自己找一些文件测试学习，如果对你有所帮助可以给本文来一波三连~

}

我就爱股票网