当前位置: 首页 > news >正文

辽宁建设工程信息网招标公告桓仁金山热电厂防水工程windows优化大师有用吗

辽宁建设工程信息网招标公告桓仁金山热电厂防水工程,windows优化大师有用吗,wordpress主题tint,手机自助建站系统最近为了将pdf报告解析成为文本和图片,需要将大量多页的pdf文件拆分下单独的一页一页的图像,以便后续进行OCR和图像处理,因此就需要实现将pdf2image,本文主要结合开源的pdf2image和poppler,实现了pdf转换为png格式图片…

       最近为了将pdf报告解析成为文本和图片,需要将大量多页的pdf文件拆分下单独的一页一页的图像,以便后续进行OCR和图像处理,因此就需要实现将pdf2image,本文主要结合开源的pdf2image和poppler,实现了pdf转换为png格式图片的简单转换工具,供大家参考,具体步骤和应用测试示例如下。

1.安装pdf2image包

需要先安装pdf2image包,安装命令:pip3 install pdf2image

2.安装poppler用于实现pdf2image

安装poppler-windows,下载地址:https://github.com/oschwartz10612/poppler-windows/releases/tag/v23.11.0-0

3.配置环境变量

将上述压缩包解压缩之后,将路径配置到环境变量path中,如path=:D:\tools\poppler-24.08.0\Library\bin

4.修改poppler_path指向的路径

修改pdf2image包的pdf2image.py文件,将poppler路径为上述路径,具体如下。

# pdf2image.py文件修改
def convert_from_path(pdf_path: Union[str, PurePath],output_file: Any = uuid_generator(),poppler_path=r'D:\tools\poppler-24.08.0\Library\bin',  # 需要修改为path中配置的poppler路径。grayscale: bool = False
) -> List[Image.Image]:...
5.测试示例代码
import fitz  # PyMuPDF  
from pdf2image import convert_from_path  
import os,sys
def extract_fullpage_images(filename,pdf_path,output_folder):  # 打开PDF文件  doc = fitz.open(pdf_path)  # output_folder = "extracted_content_pdf"  os.makedirs(output_folder, exist_ok=True)  os.makedirs(output_folder + "/png-full/", exist_ok=True)  # 遍历每一页  for page_num in range(len(doc)):  page = doc.load_page(page_num)        # 使用pdf2image将整个页面转换为图像  images = convert_from_path(pdf_path, first_page=page_num + 1, last_page=page_num + 1) for img_index, img in enumerate(images):  img.save(f"{output_folder}/png-full/page_{page_num + 1}_full_img_{img_index + 1}.png", 'PNG')  print(f"Processed page {page_num + 1}================================")  doc.close()# 示例: python pdfSplitAdapterPMI.py D:\xxx\report.pdf
if __name__ == '__main__':  # 检查参数个数  argc = len(sys.argv)  if (argc <= 1):  print('missing Parameter' % locals())  sys.exit()  filepath = sys.argv[1]  pdf_path = filepathfilename=filepath.split('\\')[-1][:-4]  output_folder = filepath[:filepath.rfind('\\')]+"\extracted_content2_"+filename  extract_fullpage_images(filename,pdf_path,output_folder)
6.转换结果对比

1.原始pdf文件

2.转换后每一页的图片文件列表

http://www.yidumall.com/news/28524.html

相关文章:

  • dedecms织梦古典艺术书画书法公司企业网站源码模板seo门户网站
  • 网站模板中心 网站推荐品牌网络推广
  • 成都个人学做网站浅议网络营销论文
  • 芜湖做公司网站的无锡网站优化
  • 广西棋牌软件开发公司seo优化推广业务员招聘
  • 做个网站需要多钱seo搜索引擎优化招聘
  • 长沙电商网站数字经济发展情况报告
  • 查看网站信息图标怎么做百度推广代理开户
  • 校园网站建设申请报告网站优化排名推广
  • 个人网站百度推广收费友情链接有哪些展现形式
  • 网站设计一年费用站长之家官网
  • 大学网站建设考核办法sem招聘
  • 杭州盘石做网站专业吗广告联盟全自动赚钱系统
  • 网站开发流程博客湖南网站seo找行者seo
  • 如何在网站中插入背景音乐seo外包收费
  • 唐山市住房和城乡建设局官方网站新冠疫情最新数据
  • 房地产开发网站建设百度关键词优化查询
  • 政务服务网站的建设原则报个计算机培训班多少钱
  • 建立网站难吗网络稿件投稿平台
  • 做音乐网站用什么程序滕州网站建设优化
  • 企业网站东莞网站建设制作怎么做宣传推广
  • 做网站允许发布什么内容网络热词2022流行语及解释
  • 电商网站建设比较好的广州日新增51万人
  • 谷歌官方网站注册上海比较大的优化公司
  • 织梦生成网站地图长沙百度网站排名优化
  • 深圳展览展示公司排行绍兴百度seo
  • 莱芜摩托车网站seo教程技术整站优化
  • wordpress文章分集搜索引擎优化方法有哪几种
  • 做网站的难点是什么高清视频网络服务器
  • 做电影网站看电影算网站流量吗广安seo外包