当前位置: 首页 > news >正文

网站优化总结湖南靠谱seo优化公司

网站优化总结,湖南靠谱seo优化公司,上海ktv目前营业情况,啤酒免费代理0元铺货一、PDF文件介绍 PDF是英文Portable Document Format缩写,就是可移植的意思,它是以PostScript语言图象模型为基础,无论在哪种打印机上都可保证精确的颜色和准确的打印效果,PostScript咱也不懂,估计和SVG的原理差不多吧…

一、PDF文件介绍

PDF是英文Portable Document Format缩写,就是可移植的意思,它是以PostScript语言图象模型为基础,无论在哪种打印机上都可保证精确的颜色和准确的打印效果,PostScript咱也不懂,估计和SVG的原理差不多吧。

二、PDF文件格式

PDF文件是二进制数据,可以用Sublime的HexViewer打开。

1、首部

指明文件PDF版本号,%PDF-1.4 其中最后一位 4就是文件格式的版本号。

2、文件体

PDF文件主要部分,由一系列obj对象组成,类似如下格式

3 0 obj <<........>>endobj# 3 对象编号 0 修改次数

3、交叉引用表

用于索引各个obj 对象在文档中的位置,以实现随机访问

xref.0 180000000000 65535 f0000010112 00000 n.....# 0000000000 第一对象起始地址,修改次数 65535#(最大修改次数,表示不可再改, f 表示free # 这里可以看成文件头)# 0000010112 第二对象超始地址,n表示对象正在使用

4、尾部

指明文件体根对象和交叉引用表地址

trailer.<</Info 17 0 R/ID [<df2c5533d0ab7c62ee7732a5e375592a><b07f35295e287c0a5febcad25060ccbf>]/Root 16 0 R/Size 18>>.startxref.83511.%%EOF.# trailer 说明文件尾 trailer对象的开始# Size 18 该PDF文件的对象数目# Root 16 根对象的对象号为16# startxref.83511 交叉引用表地f址

三、解析PDF文件

Java PdfBox、Python的Pdfminer都可以解析出PDF中的文本,但无论哪个工具都只能把PDF文本一行行打印出来,具体的字段解析还是要自己用正则去匹配。

下面介绍一下Python3的pdfminer3k

1、安装 pip install pdfminer3k

2、pdfminer3k几个主要类介绍

PDFParser:从PDF文件中提取数据PDFDocument:PDF文档对象PDFPageInterpreter:处理页面内容

下面是解析简历PDF数据,需要把关键信息提取出来,刚从网上找了些代码简单实现了一下,代码还没有做任何异常处理,先能跑通再说。

注:这代码对扫描版本的PDF是没有办法解析出来的。

 

http://www.ritt.cn/news/1230.html

相关文章:

  • 公司名被注册网站培训网
  • wordpress中文版主题百度网盘无锡seo关键词排名
  • 自己做链接的网站优化大师平台
  • 网站设计理念怎么写如何搭建企业网站
  • 东莞企业网站电话百度浏览器app下载
  • 网站开发前台代码和后台代码百度搜索引擎排名
  • 政府门户网站群建设项目百度推广总部电话
  • 公司网站建设推荐百度域名注册
  • 安卓手机做服务器网站三明网站seo
  • 服装公司网站模版怎么查网站是不是正规
  • 做网站建设优化的公司百家号关键词seo优化
  • 一个空间怎么放两个网站吗百度seo建议
  • b2b网站的站外推广该如何做怎么做关键词排名靠前
  • 项目网站设计媒体邀约
  • 服装行业网站建设及推广谷歌广告联盟怎么做
  • 怎么用ip地址做网站百度灰色词优化排名
  • 如何看访问网站的dnsseo每日一贴
  • 网站制作合同模板百度店面定位怎么申请
  • nodejs可以做网站么郑州黑帽seo培训
  • 深圳公司社保网站游戏推广员招聘
  • 网站如何选择关键词今日小说排行榜百度搜索风云榜
  • 网站真实性如何推广网站
  • 做五金批发的适合在哪些网站如何创建一个网址
  • 建设一个网站要多网页制作培训网站
  • 银川做网站推广长沙网络推广平台
  • 柳州中小企业网站建设百度第三季度财报2022
  • 石家庄网站建设费用衡水今日头条新闻
  • 东莞建设银行电话号码夫唯seo视频教程
  • 做网站美工收费河南网站seo靠谱
  • 网站建设服务提供商已备案域名购买平台