使用PDFBox读取PDF文件内容 - 记得要忘记 - ITeye博客

`

daning

浏览: 90152 次
性别:
来自: 北京

最近访客更多访客>>

learnmore

l1y0l20

emmanuel_jie

GoOnDrift

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

tts6tarena：楼主，你那样取标题的话，要是该pdf文件有页眉页脚怎么搞？
使用PDFBox读取PDF文件中文本内容
zxsy007x：请问你有源代码吗？有的话发给我下 zxsy007x@gmail ...
设置XWiki中文界面
guava： xcopy source target_dir /e
python从一个文件夹自动拷贝文件到目标文件夹
phoenix007：正好碰到这个问题，不错，学习了！
eclipse中编码问题的解决方法

使用PDFBox读取PDF文件内容

Bean Adobe 工作

阅读更多

需要根据pdf文件内容，批量修改pdf文件的名字。手工完成工作量太大。所以决定使用程序读取pdf内容，然后自动修改文件名。
开始使用adobe官方的一个bean包，结果读出来的内容中的空格全部丢失了。然后就尝试使用开源项目PDFBox提供的库，使用还是挺方便的。
不过现在代码不在手边，等明天再贴上来吧。

分享到：

国内的web2.0网站真的有很多人在用么 | tomcat中web应用反部署时jar包不能删除的 ...

2008-02-25 23:51
浏览 2171
评论(0)
论坛回复 / 浏览 (0 / 3176)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

C#使用PDFBox读取PDF: C#中使用PDFBox读取PDF的内容，转换成TXT文件保存。

pdfbox 提取 pdf文件中的图片: PDFBox是一个开源的可以操作PDF文档的Java PDF类库。它可以创建一个新PDF文档,操作现有PDF文档并提取文档中的内容。它具有以下特性: 1.将一个PDF文档转换输出为一个文本文件。 2.可以从文本文件创建一个PDF文档。 ...

Java 解析 PDF， pdfbox读取PDF内容: NULL 博文链接：https://snowdymy.iteye.com/blog/1114344

【Java】基于Pdfbox解析PDF文档中指定位置的文字和图片: Extract Text – 使用PDFBox，您可以从PDF文件中提取Unicode文本。 Split & Merge – 使用PDFBox，您可以将单个PDF文件分成多个文件，并将它们合并为一个文件。 Fill Forms – 使用PDFBox，您可以在文档中填写表单...

.Net c#使用PDFBox解析PDF文件: 在.Net中使用PDFBox需要引用: 1.PDFBox-0.7.3.dlll (8 MB) 2.IKVM.GNU.Classpath (7 MB) 3.IKVM.Runtime.dll (360 kB) 4.FontBox-0.1.0-dev.dll 使用方法: private static string parseUsingPDFBox(string ...

pdfbox读取pdf文档转为高清图片的例子: 使用pdfbox读取pdf文件的内容并转为高清图片存储至硬盘 pdfbox api，pdfbox-tools

pdfbox 提取 pdf 中文字和图片并可转 html: pdfbox 提取 pdf 中文字和图片并可转 html 分2个文件，一个专门提取文本，内容可转为html，另一个文件专门用来提取图片，大家可自行整合为一个文件。使用pdfbox最新提取图片的方法。

java 读取PDF文件中的内容: java 读取PDF文件中的内容 java 读取PDF文件中的内容

基于pdfbox操作pdf文件的测试: 基于apache pdfbox的开源技术，来操作pdf文件，本程序可供参考学习用，但对于一些高级应用还需要参考官方文档继续学习

pdfbox 解析pdf里的图片和文字: pdfbox 提取 pdf 中图片文件以及读取pdf的文本信息，压缩包中包含必备jar包

java读取pdf的文字、图片、线条和对应坐标: pdf文档的内容都是坐标定位的，文档内容主要包含文本、图片、线条；需要用到pdfbox和pdf2dom两个依赖包

利用ITEXT、PDFBOX将PDF转为图片: 利用itext读取PDF后使用pdfbox将PDF转为图片。压缩包内附有相应JAR文件

PDFBox读取工具源码: 基于前辈的PDFBox包和公开的代码，经自己改进后，可以读取PDF文件显示在文本域并保存为TXT文件。

pdfbox所需jar包: 利用pdfbox读取pdf文件所需要的jar包。

pdfbox1.8.9实例图片转pdf和pdf转图片: 利用pdfbox实现图片转pdf 和pdf转图片功能，网络上有大部分源码，我只是个搬运工，如果你没积分请别懒，自行百度谷歌bing。图片可按比例转换成pdf。方法很简单只有几句代码没有写注释。

C#编程读取pdf文件: 利用PDFBox的IKVM版本能比较好地从PDF中提取文本并且能够根据需要显示行分隔符、字段分隔符、也分隔符等等便于使用

pdfbox-3.0.0-RC1.jar: pdfbox-3.0.0-RC1 PDFBox是Java实现的PDF文档协作类库，提供PDF文档的创建、处理以及文档内容提取功能，也包含了一些命令行实用工具。

开源PdfSharp提取读取PDF文档里text内容方法: 开源PdfSharp提取读取PDF文档里text内容方法

PDF解析需要的jar(pdfBox2.0): 　PDFBox（一个BSD许可下的源码开放项目）是一个为开发人员读取和创建PDF文档而准备的纯Java类库。它提供如下特性：提取文本，包括Unicode字符。和Jakarta Lucene等文本搜索引擎的整合过程十分简单。加密/解密...

pdfbox-0.7.3: pdfbox-0.7.3.jar包，用于解析pdf文档，读取文档内容。

Global site tag (gtag.js) - Google Analytics