当前位置: 首页 > news >正文

做图片的网站独立站seo推广

做图片的网站,独立站seo推广,有教做桥梁质检资料的网站吗,网站维护 公司简介文章目录 一、前言二、实现方法1. 目录结构2. 代码 一、前言 此方法只能转文本格式的pdf,如果是图片格式的pdf需要用到ocr包,以后如果有这方面需求再加这个方法 二、实现方法 1. 目录结构 2. 代码 pdf2txt.py 代码如下 #!/usr/bin/env python # -*- …

文章目录

  • 一、前言
  • 二、实现方法
    • 1. 目录结构
    • 2. 代码


一、前言

此方法只能转文本格式的pdf,如果是图片格式的pdf需要用到ocr包,以后如果有这方面需求再加这个方法


二、实现方法

1. 目录结构

在这里插入图片描述


2. 代码

pdf2txt.py 代码如下

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import json
import osfrom pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFPage, PDFTextExtractionNotAllowed
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParamsdef batch_process(src_dir, tgt_dir):'''批处理:return:'''for pdf_name in os.listdir(src_dir):pdf_path = os.path.join(src_dir, pdf_name)text_path = os.path.join(tgt_dir, f'{os.path.splitext(pdf_name)[0]}.txt')json_path = os.path.join(tgt_dir, f'{os.path.splitext(pdf_name)[0]}.json')pdf_utils = PDFUtils()pdf_list = pdf_utils.pdf2list(pdf_path)# pdf2txtwith open(text_path, mode='w', encoding='utf-8') as f:f.write(''.join([''.join(page) for page in pdf_list]))# pdf2jsonwith open(json_path, mode='w', encoding='utf-8') as f:f.write(json.dumps(pdf_list, ensure_ascii=False))class PDFUtils():def __init__(self):passdef pdf2list(self, path):pdf_list = []   # 二维数组,一维放页,二维放行with open(path, 'rb') as f:praser = PDFParser(f)doc = PDFDocument(praser)if not doc.is_extractable:raise PDFTextExtractionNotAllowedpdfrm = PDFResourceManager()laparams = LAParams()device = PDFPageAggregator(pdfrm, laparams=laparams)interpreter = PDFPageInterpreter(pdfrm, device)for page_idx, page in enumerate(PDFPage.create_pages(doc)):line_list = []   # 保存每行数据# print(page_idx)interpreter.process_page(page)layout = device.get_result()for line_idx, line in enumerate(layout):# print(line_idx)if hasattr(line, "get_text"):content = line.get_text()# print(content)# output = StringIO()# output.write(content)# content = output.getvalue()# output.close()# print(content)if content and content.replace(' ', '') != '\n':line_list.append(content)# print(content)pdf_list.append(line_list)# output.close()return pdf_listif __name__ == '__main__':# pdf目录src_dir = './pdf'# 生成的txt和json文件的保存目录tgt_dir = './text_and_json'# 批量转换batch_process(src_dir, tgt_dir)
http://www.yidumall.com/news/8403.html

相关文章:

  • 怎么做淘宝联盟网站seo资源
  • 移动微网站安卓手机优化大师官方下载
  • 重庆网站制作设计公司西安竞价托管代运营
  • 云南省文山建设厅网站推广竞价
  • 用腾讯云怎么建设网站贵阳网络推广排名
  • 免费个人搭建网站东莞seo建站咨询
  • 做短视频的能跟几个网站签约苏州网站建设
  • 有人做家具网站中介吗天津谷歌优化
  • 万网速成网站seo外链代发
  • 如何做网站的营销有哪些可以推广的平台
  • 制作网站网站推荐6个免费国外自媒体平台
  • 领域网站建设微信公众号运营推广方案
  • 泰州网站制作方案定制线下推广方法有哪些
  • 制作网站时怎样做滚动字幕广东seo价格是多少钱
  • 荆州哪里做网站个人怎么做免费百度推广
  • 网页版微信登录入口手机百度seo关键词排名优化
  • 网站商城设计方案搜索引擎优化实训
  • 网络游戏那个网站做的最好免费推广的网站有哪些
  • 网站建设方案机构seo关键词优化的技巧
  • 唐山的做网站的企业排名前50名免费的网站
  • 在做好政府网站建设方面上海专业seo
  • 购物型网站用dw做怎么在百度做广告
  • 山西两学一做网站重庆百度seo整站优化
  • 北京公司做网站优化好搜移动端关键词快速排名
  • 如何注销网站图片搜索图片识别
  • 宠物网站模板seo流量增长策略
  • 手机网站怎么设计晋中网站seo
  • 东莞网站建设主要学什么百度公司全称叫什么
  • 微信平台商城开发seo发包技术教程
  • 贵阳公众号开发公司seo优化就业前景