如何把 pdf 文件转换成txt 文档现在是电子书的时代,很多朋友的电子设备只支持txt 格式的文件,可是找到的一些不错的书籍却是pdf 的格式
怎么把 pdf 格式转成 txt 格式呢
近来, 总有朋友问我这个问题
这里把我的方法写下来,分享给朋友们, 希望能帮到大家
更希望起到抛砖引玉的作用,有更好的方法被分享出来
工欲善其事,必先利其器,所以,需要先安装pdf 文档的专用软件,推荐使用Adobe Acrobat 7 Professional 或者 Adobe Acrobat 9 Professional 版本
不要使用 Adobe Acrobat reader,因为功能太少
软件网上一搜,可以随便找到
如果是由 word 文件转成的pdf 文件,这个比较简单
打开pdf文档,选择文件——另存为,如下图:在弹出的另存为对话框中,保存类型——纯文本
如下图:如果没法直接保存成纯文本,报 ASCII码错误的话, 可以先保存为microsoft word 文档,再由 word 文档转换成txt 格式
如果 pdf 文档是由扫描后的图片制作而成的,用上述方法就无法直接转换成txt 格式了
需要用以下方法
打开pdf 文档,选择文件——另存为——保存类型选择jpeg 图片格式
如下图:存为 jpeg 格式的图片之后,需要安装OCR识别软件
推荐使用清华紫光OCR或者汉王 OCR软件
软件网上都可以免费下到
我使用的是汉王OCR 8
安 装 好 软 件 之 后 , 运 行OCR 软 件
选 择 文 件 — — 打 开 图 像 , 如 下 图 :找到图片保存目录,打开从pdf 文件转换成的图片
图片文件打开以后,选择识别——开始识别:识别完成后界面如下图:上半部分是识别出来的文字,下半部分是原稿
因为识别软件以及图片清晰度的原因,有些字会与原稿有误,需要校对