当前位置: 首页 > news >正文

网站服务空间产品网络营销

网站服务空间,产品网络营销,设计一个app软件多少钱,四川省住房和城乡建设厅证书查询最近我在捣鼓一个PDF文件,想把它里面的文字和文字颜色给提取出来。后来发现有个叫pymupdf的库能搞定这事儿。操作起来挺简单的,pymupdf的示例文档里就有现成的代码可以参考。 how-to-extract-text-with-color 我本地的测试代码如下: impor…

最近我在捣鼓一个PDF文件,想把它里面的文字和文字颜色给提取出来。后来发现有个叫pymupdf的库能搞定这事儿。操作起来挺简单的,pymupdf的示例文档里就有现成的代码可以参考。
how-to-extract-text-with-color
在这里插入图片描述

我本地的测试代码如下:

import pymupdf
import sys# sys.argv[1] 为文件名!
doc = pymupdf.open(sys.argv[1])
page = doc[0]for page in doc:text_blocks = page.get_text("dict", flags=pymupdf.TEXTFLAGS_TEXT)["blocks"]for block in text_blocks:for line in block["lines"]:for span in line["spans"]:text = span["text"]color = pymupdf.sRGB_to_rgb(span["color"])print(f"Text: {text}, Color: {color}")

运行效果如下:
在这里插入图片描述
我弄的那个文档里,有一块内容是这样的,项目里的文字被标成橙色,就是那种选中后的样子,所以我特别留意了它的颜色提取。
在这里插入图片描述
所以我需要抽取出文字的同时,还需要文字的颜色
在这里插入图片描述
在这里插入图片描述

推荐相关的文章 PymuPDF4llm:PDF 提取的革命

http://www.ritt.cn/news/15155.html

相关文章:

  • 服务外包平台百度seo推广软件
  • 网站服务器错误403买卖友情链接
  • 专门做饥饿营销的网站杭州百度快照
  • 陕西住房建设部网站接app推广
  • 如何做商城网站小程序百度快照推广一年要多少钱
  • 用啥网站做首页竞价什么意思
  • 做网站很赚钱吗深圳防疫措施优化
  • 网站解析需要多长时间seo基础知识包括什么
  • 建网站能赚钱吗网站宣传推广文案
  • 万维网申请网站域名站长统计app网站
  • 开发工程师网站开发工程师招聘成人职业技能培训班
  • 网站关键词如何部署网页模板源代码
  • 现在清算组备案在哪个网站做大数据免费查询平台
  • 模板做的网站不好优化百度指数的数值代表什么
  • 使用三剑客做网站进一步优化落实
  • 农村网站建设营销策划方案内容
  • 手机怎么做网站服务器seo在线优化网站
  • 河北建设工程招标网官方网站响应式网站模板的优势
  • 厦门优化公司外链seo服务
  • 威海相亲网站媒体营销
  • wordpress建站事例百度平台我的订单查询在哪里
  • 建网站郑州seo石家庄
  • 沈阳医疗网站制作站长之家网站查询
  • 深圳定制网站建设seo短期课程
  • 国内知名摄影网站有必要买优化大师会员吗
  • 南京外贸网站建设怎么收费交友网站有哪些
  • 做asp.net网站参考文献上海网站建设公司
  • 电商运营roi怎么算重庆seo按天收费
  • 自己开公司 自己做网站吗站长之家工具
  • 怒江北京网站建设郑州seo线上推广技术