当前位置: 首页 > news >正文

做网站可以用新建项目的方式吗杭州seo俱乐部

做网站可以用新建项目的方式吗,杭州seo俱乐部,磁力王,望谟网站建设本次文章更新内容,图片以及扫描的PDF也可以支持批量提取指定区域内容了,主要是通过截图指定区域,然后使用OCR来识别该区域的文字来实现的,所以精度可能会有点不够,但是如果是数字的话,问题不大;…

本次文章更新内容,图片以及扫描的PDF也可以支持批量提取指定区域内容了,主要是通过截图指定区域,然后使用OCR来识别该区域的文字来实现的,所以精度可能会有点不够,但是如果是数字的话,问题不大; 所以最好还是纯电子版本的PDF文件提取效果最好。


需求1:假如我有一批数量比较多的同样格式的PDF电子文档,需要把特定多个区域的数字或者文字提取出来

需求2:我有一批PDF文档,但是文件的名称都是一些乱码,我需要根据PDF文件里面第一页内容的第一行的标题文字来批量重命名这些文件

说明:不适应场景:如果多个PDF文件的需要提取内容的区域的位置不一样,比如我要提取的数字在第一个PDF文件在(30,30)的坐标,结果在第二个文件变成了(35,35)这个坐标,那么软件就会无法很好的提取这个内容文本,所以这个代码的适用范围是多个PDF文档格式一致,并且需要提取的文本信息所在的PDF位置都基本一样的情况下适用。

思路1:我们任意选一个PDF文件作为样本,然后用代码把要提取的区域用方框标注出来,再然后把这些区域的坐标保存下来,后续批量处理每个PDF的时候,就根据保存的这些区域坐标来提取对应位置的文字或者数字

思路示意图:

最后的结果示意图:

这种思路的缺陷和需要注意的点:

1 需要每个批量处理的文件要提取的数据的位置都是一样的,比如第一个PDF文件需要提取的数字位于【100,100】这个坐标,那么后续每个文件需要提取的数字都要位于这个位置,如有变动,就会导致提取不到需要的数据,可以通过扩大区域的坐标范围来一定程度上的解决这个问题

2 如果提取的文字不齐全,说明可能框选的方框略微小了一点,我代码里面设置了一个单独增大某个区域的功能


需求2思路:一批PDF文档的名称都是一些乱码,我需要根据PDF文件里面第一页内容的标题来批量重命名这些文件,实际上很简单,就是解析PDF文件,然后获取第一行的内容,然后重命名该文件即可,这个代码不复杂,就没放在本页了。

代码:

from typing import Optional, Dict, Listfrom solapi.magic_eden.site_api.utils.consts import MEAPIUrls
from solapi.magic_eden.site_api.utils.data import collection_stats_cleaner, collection_info_cleaner, \collection_list_stats_cleaner
from solapi.magic_eden.site_api.utils.types import MECollectionStats, MECollectionInfo, MECollectionMetrics
from solapi.utils.api import BaseApiclass MagicEdenCollectionApi(BaseApi):def get_collection_stats_dirty(self, symbol: str) -> Optional[Dict]:url = f'{MEAPIUrls.COLLECTION_STATS}{symbol}'res = self._get_request(url)return res.get('results') if isinstance(res, dict) else Nonedef get_collection_info_dirty(self, symbol: str) -> Optional[Dict]:url = f'{MEAPIUrls.COLLECTION_INFO}{symbol}'res = self._get_request(url)return res if bool(res) else Nonedef get_collection_stats(self, symbol: str) -> Optional[MECollectionStats]:data = self.get_collection_stats_dirty(symbol)if data:return collection_stats_cleaner(data)def get_collection_info(self, symbol: str) -> Optional[MECollectionInfo]:data = self.get_collection_info_dirty(symbol)if data:return collection_info_cleaner(data)def get_collection_list_stats_dirty(self):url = MEAPIUrls.COLLECTION_LIST_STATSres = self._get_request(url)return res.get('results') if isinstance(res, dict) else Nonedef get_collection_list_stats(self) -> Optional[List[MECollectionMetrics]]:data = self.get_collection_list_stats_dirty()if data:return list(map(lambda x: collection_list_stats_cleaner(x), data))def get_collection_list_dirty(self):url = MEAPIUrls.COLLECTION_LISTres = self._get_request(url)return res.get('collections') if isinstance(res, dict) else Nonedef get_collection_list(self) -> Optional[List[MECollectionInfo]]:data = self.get_collection_list_dirty()if data:return list(map(lambda x: collection_info_cleaner(x), data))

代码下载链接:

链接:https://pan.baidu.com/s/1WQQ8kaDilaagjoK5IrYZzA

提取码:1111

http://www.ritt.cn/news/1311.html

相关文章:

  • 网站怎么做配置文件夹希爱力双效片副作用
  • 卢湾网站设计关键词上首页软件
  • 云南网站建设的价值aso优化哪家好
  • 营销型网站建设企业百度推广公司哪家比较靠谱
  • 上传产品网站怎么做的网站优化外包价格
  • 做网站的的步骤怎么写公关公司排行榜
  • 河北网站建设排名网络推广策划方案模板
  • 温州网站开发建设关键词挖掘工具站
  • 四川建设安全监督管理局网站网站开发技术
  • 关系建设的网站如何查看一个网站的访问量
  • 虚拟主机网站建设过程谷歌 chrome 浏览器
  • 深圳企业网站建设怎么做寻找郑州网站优化公司
  • 南昌做网站公司哪家好网址域名大全2345网址
  • 7年级微机课做网站的软件线上推广员是做什么的
  • 深圳网站建设公司联系方式推广网站大全
  • 标书制作员这工作好吗安卓优化大师旧版本
  • 做公考题的网站网络推广搜索引擎
  • 网站做apk制作工具百度导航和百度地图
  • 湖南网站建设 系统市场调研分析报告
  • 深圳网站建设费用多少营销推广技巧
  • 嘉兴海盐县城乡建设局网站哈尔滨网站制作软件
  • 空压机网站开发公司seo关键词优化如何
  • 上海建网站开发公百度做广告费用
  • 采光板及采光瓦营销型网站建设百度教育app
  • 专业做淘宝网站公司太原网站开发
  • 网站与建设实训报告做营销型网站哪家好
  • 聊城做网站的公司流程站长工具日本
  • 吴江建网站百度官网下载安装
  • 网站开发框架书籍怎么做网页
  • html网站登陆注册怎么做国际新闻最新消息十条摘抄