当前位置: 首页 > news >正文

wordpress2018抖音seo推广外包公司好做吗

wordpress2018,抖音seo推广外包公司好做吗,云南省建设执业资格注册管理中心网站,产品宣传短视频制作最近为了将pdf报告解析成为文本和图片,需要将大量多页的pdf文件拆分下单独的一页一页的图像,以便后续进行OCR和图像处理,因此就需要实现将pdf2image,本文主要结合开源的pdf2image和poppler,实现了pdf转换为png格式图片…

       最近为了将pdf报告解析成为文本和图片,需要将大量多页的pdf文件拆分下单独的一页一页的图像,以便后续进行OCR和图像处理,因此就需要实现将pdf2image,本文主要结合开源的pdf2image和poppler,实现了pdf转换为png格式图片的简单转换工具,供大家参考,具体步骤和应用测试示例如下。

1.安装pdf2image包

需要先安装pdf2image包,安装命令:pip3 install pdf2image

2.安装poppler用于实现pdf2image

安装poppler-windows,下载地址:https://github.com/oschwartz10612/poppler-windows/releases/tag/v23.11.0-0

3.配置环境变量

将上述压缩包解压缩之后,将路径配置到环境变量path中,如path=:D:\tools\poppler-24.08.0\Library\bin

4.修改poppler_path指向的路径

修改pdf2image包的pdf2image.py文件,将poppler路径为上述路径,具体如下。

# pdf2image.py文件修改
def convert_from_path(pdf_path: Union[str, PurePath],output_file: Any = uuid_generator(),poppler_path=r'D:\tools\poppler-24.08.0\Library\bin',  # 需要修改为path中配置的poppler路径。grayscale: bool = False
) -> List[Image.Image]:...
5.测试示例代码
import fitz  # PyMuPDF  
from pdf2image import convert_from_path  
import os,sys
def extract_fullpage_images(filename,pdf_path,output_folder):  # 打开PDF文件  doc = fitz.open(pdf_path)  # output_folder = "extracted_content_pdf"  os.makedirs(output_folder, exist_ok=True)  os.makedirs(output_folder + "/png-full/", exist_ok=True)  # 遍历每一页  for page_num in range(len(doc)):  page = doc.load_page(page_num)        # 使用pdf2image将整个页面转换为图像  images = convert_from_path(pdf_path, first_page=page_num + 1, last_page=page_num + 1) for img_index, img in enumerate(images):  img.save(f"{output_folder}/png-full/page_{page_num + 1}_full_img_{img_index + 1}.png", 'PNG')  print(f"Processed page {page_num + 1}================================")  doc.close()# 示例: python pdfSplitAdapterPMI.py D:\xxx\report.pdf
if __name__ == '__main__':  # 检查参数个数  argc = len(sys.argv)  if (argc <= 1):  print('missing Parameter' % locals())  sys.exit()  filepath = sys.argv[1]  pdf_path = filepathfilename=filepath.split('\\')[-1][:-4]  output_folder = filepath[:filepath.rfind('\\')]+"\extracted_content2_"+filename  extract_fullpage_images(filename,pdf_path,output_folder)
6.转换结果对比

1.原始pdf文件

2.转换后每一页的图片文件列表

http://www.ritt.cn/news/23245.html

相关文章:

  • 网站制作创业电商培训机构推荐
  • 检查部门网站建设微信客户管理
  • 罗庄区建设局网站百度投稿平台
  • 建设网站架构服务器需要多少钱中文域名注册官网
  • 长沙制作公园仿竹围栏供货商关键词优化如何
  • 自己怎么做云购网站吗宁波seo服务
  • 国际网站怎么做优化东莞建设企业网站公司
  • wordpress视频模版山东seo网络推广
  • 网站域名出售创建网站的流程
  • 成都比较好的网站设计公司做网络推广有哪些平台
  • 高品质的佛山网站建设大连seo
  • 网站源码php软文代发平台
  • 齐诺网站建设东莞网站建设做网站网络推广工作室
  • 网站内容上传要求关键词收录
  • 附近的网站设计制作价格优化软件有哪些
  • 网站权重7怎么做网站建设与管理
  • 网站建设标语东莞关键词自动排名
  • 常州网站建设技术托管广州网络推广seo
  • ionic做网站短视频排名seo
  • 网站建设产品手册网站推广沈阳
  • 移动端的网站怎么做的精准拓客软件哪个好
  • 免费网站建设排行表爱站官网
  • 什么是php网站开发网络营销ppt怎么做
  • 网站建设学习百度人工客服电话是多少
  • 网站建设单页面推广模板竞价推广返点开户
  • 北京建设部网站 信息中心公司网站如何制作设计
  • 山东省交通运输厅网站开发单位在线网页制作系统搭建
  • 网站官网怎么做怎么样建一个网站
  • wordpress评论机器人seo从入门到精通
  • 自己做网站开发网站搜索排名优化价格