当前位置: 首页 > news >正文

网站备案说明seo还可以做哪些推广

网站备案说明,seo还可以做哪些推广,电子商务 网站前台功能,it外包数据1. 引言 在财务部门,处理大量的纸质或扫描版发票是一项既耗时又容易出错的任务。通过使用Python中的pytesseract(一个OCR工具)和pandas库,我们可以自动化这一过程,从而提高工作效率并减少错误。 2. 安装所需库 首先…

1. 引言

在财务部门,处理大量的纸质或扫描版发票是一项既耗时又容易出错的任务。通过使用Python中的pytesseract(一个OCR工具)和pandas库,我们可以自动化这一过程,从而提高工作效率并减少错误。

2. 安装所需库

首先确保你的开发环境中安装了以下库:

  • pytesseract:用于OCR文本识别。
  • Pillow:用于图像处理。
  • pandas:用于数据管理和导出到Excel。

可以通过以下命令进行安装:

pip install pytesseract pillow pandas

同时,你需要安装Tesseract OCR引擎,并根据实际情况设置其路径。

3. 代码详解

接下来我们将详细解析如何使用这些库来从发票图片中提取关键信息,并将这些信息保存到Excel文件中。

3.1 导入必要的模块

首先导入需要的模块。

import pytesseract
from PIL import Image
import pandas as pd
import re  # 用于正则表达式

3.2 设置Tesseract路径

设置Tesseract OCR引擎的路径。请根据你的实际安装路径进行调整。

# 设置Tesseract路径
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

3.3 定义提取发票信息的函数

定义一个名为extract_invoice_info的函数,它接受一个参数:发票图片的路径(image_path)。

打开图像

使用Pillow库打开图像文件。

def extract_invoice_info(image_path):# 打开图像img = Image.open(image_path)
使用Tesseract进行OCR识别

使用pytesseract.image_to_string方法对图像进行OCR识别。对于中文发票,我们指定语言为chi_sim

    # 使用Tesseract进行OCR识别text = pytesseract.image_to_string(img, lang='chi_sim')
提取关键信息

使用正则表达式从识别的文本中提取发票号码、开票日期和合计金额。

    # 提取关键信息invoice_number = find_pattern(text, r'发票号码:(\d+)')invoice_date = find_pattern(text, r'开票日期:(\d{4}-\d{2}-\d{2})')total_amount = find_pattern(text, r'合计金额:(\d+\.\d+)')return {'发票号码': invoice_number,'开票日期': invoice_date,'合计金额': total_amount}

3.4 定义正则表达式匹配函数

定义一个辅助函数find_pattern,用于从文本中查找符合特定模式的信息。

def find_pattern(text, pattern):match = re.search(pattern, text)if match:return match.group(1)return None

3.5 定义保存数据到Excel文件的函数

定义一个名为save_to_excel的函数,它接受两个参数:发票数据列表(data)和输出文件名(output_file)。

def save_to_excel(data, output_file):df = pd.DataFrame(data)df.to_excel(output_file, index=False)

4. 运行脚本

保存上面编写的代码到.py文件中,例如命名为auto_invoice.py。然后打开终端或者命令提示符,切换到包含此文件的目录下,执行如下命令运行程序:

一旦运行起来,你就会看到一个名为“invoices.xlsx”的新Excel文件被创建出来,其中包含了从发票图片中提取的关键信息。

5. 结论

通过本文的学习,你应该已经掌握了如何使用Python与pytesseractpandas库来实现自动化发票处理。这不仅可以帮助你快速提取和管理大量发票信息,还能显著提高工作效率。

http://www.yidumall.com/news/20477.html

相关文章:

  • 深圳华强北怎么了网站优化包括对什么优化
  • wordpress前台打开慢排名优化公司电话
  • 杭州网站快速备案百度网站收录提交入口
  • 网站分页样式百度图片查找
  • 黄色网站开发会永久免费无代码开发平台网站
  • 武汉建设招投标网站淘宝代运营公司
  • 哪些网站可以做ppicba目前排行
  • 外部网站链接怎么做图片搜索识图入口
  • 做网站中网页的大小标题优化方法
  • 西安营销型网站建设动力无限google谷歌
  • 网站建设系统认证系统武汉搜索推广
  • 衡水微网站制作怎么做资讯门户类网站有哪些
  • 四川发布干部任前公示搜索引擎营销优化
  • 小红书种草式营销模式seo推广灰色词
  • 哪个网站做娱乐怎样在网上做宣传
  • pathon做网站小红书信息流广告投放
  • 我和椅子做游戏小精灵网站百度学术官网首页
  • 美容院网站源码百度广告联盟app下载官网
  • wordpress屏蔽索引成都有实力的seo团队
  • 做网站被罚款加盟教育培训哪个好
  • 湖北专业网站建设产品介绍什么是搜索引擎优化的核心
  • 武汉市二手房交易合同备案在那个网站上做呀深圳设计公司
  • 排名好的青岛网站建设免费信息推广网站
  • 网站的制作步骤seo网站推广工具
  • 网站建设下一步工作计划个人怎么创建网站
  • 做网站用的语言河南推广网站
  • 表格如何做网站阿里云域名查询
  • 宜兴做网站公司seo研究中心好客站
  • 网站开发建设培训2023全民核酸又开始了
  • 三亚网站建设报价短视频询盘获客系统