Skip to content

Desolate-Tears/pypdf

Repository files navigation

发票数据提取器

图标 使用豆包AI生成

概述

发票数据提取器是一个基于 Python 的工具,旨在从发票 PDF 文件中提取关键信息,并将这些信息整理到 Excel 电子表格中,以便于分析和记录保存。

主要功能

  • 发票号码:从 PDF 文件中提取发票号码。
  • 开票日期:识别并获取发票的开票日期。
  • 项目名称:提取与发票相关的项目名称。
  • 价税合计:定位并提取以小数格式呈现的价税合计金额。

数据整理

  • 将从多个发票 PDF 文件中提取的数据进行组织,并写入 Excel 电子表格。电子表格包含表头,便于识别每个数据字段。
  • 对 Excel 电子表格进行格式设置,包括设置列宽、添加边框,以及对数值进行格式化.

前提条件

Python 环境

系统上安装有 Python 3.11.9(或兼容版本)。
使用pip安装这些下 Python 库:
pymupdf(用于 PDF 文本提取)。
openpyxl(用于 Excel 文件的创建和操作)。
PyInstaller(若计划创建可执行文件)。

windows 环境

Windows 操作系统(由 PyInstaller 生成的可执行文件适用于 Windows)。
有足够的磁盘空间来存储输入的 PDF 文件、生成的 Excel 文件以及可执行文件本身。

使用方法

Python 环境

  1. 准备输入文件:
    将所有发票 PDF 文件放置在与 Python 脚本相同目录下的名为document的文件夹中。
  2. 运行脚本:
    打开终端或命令提示符。 导航到pypdf.py脚本所在的目录。 使用以下命令运行脚本:
python pypdf.py
  1. 检查输出:
    脚本执行完成后,会在同一目录下的名为data的文件夹中创建一个名为包含实时时间的 Excel 文件。此文件将包含提取的发票数据。

Windows 环境

  1. 下载可执行文件:
    从GitHub 仓库的发布页面下载预编译的可执行文件。
  2. 准备输入文件:
    在下载的可执行文件所在的同一目录中创建一个名为document的文件夹。将所有发票 PDF 文件放入document文件夹中。
  3. 运行可执行文件:
    双击可执行文件(名为pypdf.exe)。执行过程中可能会短暂出现一个控制台窗口。一旦处理完成,会在与可执行文件相同目录下的名为data的文件夹中创建一个名包含实时时间的 Excel 文件。

下载

Python 脚本

可以从GitHub 仓库的源代码部分直接下载pypdf.py脚本。

可执行文件

如上所述,适用于 Windows 的可执行文件(pypdf.exe)可从GitHub 仓库的发布页面下载。请确保选择适合您系统的版本。

修改

Python 脚本

如果您希望修改脚本以适应不同的 PDF 格式或提取其他信息,您可以直接编辑pypdf.py文件。

可执行文件

如果您希望修改脚本以适应不同的 PDF 格式或提取其他信息,您可以直接编辑pypdf.py文件,然后使用PyInstaller重新编译可执行文件。编译后的可执行文件位于dist目录下。

 pyinstaller --onefile  --icon=pypdf.ico pypdf.py

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Packages

No packages published