发票数据提取器是一个基于 Python 的工具,旨在从发票 PDF 文件中提取关键信息,并将这些信息整理到 Excel 电子表格中,以便于分析和记录保存。
- 发票号码:从 PDF 文件中提取发票号码。
- 开票日期:识别并获取发票的开票日期。
- 项目名称:提取与发票相关的项目名称。
- 价税合计:定位并提取以小数格式呈现的价税合计金额。
- 将从多个发票 PDF 文件中提取的数据进行组织,并写入 Excel 电子表格。电子表格包含表头,便于识别每个数据字段。
- 对 Excel 电子表格进行格式设置,包括设置列宽、添加边框,以及对数值进行格式化.
系统上安装有 Python 3.11.9(或兼容版本)。
使用pip安装这些下 Python 库:
pymupdf(用于 PDF 文本提取)。
openpyxl(用于 Excel 文件的创建和操作)。
PyInstaller(若计划创建可执行文件)。
Windows 操作系统(由 PyInstaller 生成的可执行文件适用于 Windows)。
有足够的磁盘空间来存储输入的 PDF 文件、生成的 Excel 文件以及可执行文件本身。
- 准备输入文件:
将所有发票 PDF 文件放置在与 Python 脚本相同目录下的名为document的文件夹中。 - 运行脚本:
打开终端或命令提示符。 导航到pypdf.py脚本所在的目录。 使用以下命令运行脚本:
python pypdf.py- 检查输出:
脚本执行完成后,会在同一目录下的名为data的文件夹中创建一个名为包含实时时间的 Excel 文件。此文件将包含提取的发票数据。
- 下载可执行文件:
从GitHub 仓库的发布页面下载预编译的可执行文件。 - 准备输入文件:
在下载的可执行文件所在的同一目录中创建一个名为document的文件夹。将所有发票 PDF 文件放入document文件夹中。 - 运行可执行文件:
双击可执行文件(名为pypdf.exe)。执行过程中可能会短暂出现一个控制台窗口。一旦处理完成,会在与可执行文件相同目录下的名为data的文件夹中创建一个名包含实时时间的 Excel 文件。
可以从GitHub 仓库的源代码部分直接下载pypdf.py脚本。
如上所述,适用于 Windows 的可执行文件(pypdf.exe)可从GitHub 仓库的发布页面下载。请确保选择适合您系统的版本。
如果您希望修改脚本以适应不同的 PDF 格式或提取其他信息,您可以直接编辑pypdf.py文件。
如果您希望修改脚本以适应不同的 PDF 格式或提取其他信息,您可以直接编辑pypdf.py文件,然后使用PyInstaller重新编译可执行文件。编译后的可执行文件位于dist目录下。
pyinstaller --onefile --icon=pypdf.ico pypdf.py