如何把pdf 文件转换成txt 文档 现在是电子书的时代,很多朋友的电子设备只支持txt 格式的文件,可是找到的一些不错的书籍却是pdf 的格式
怎么把pdf 格式转成txt 格式呢
近来,总有朋友问我这个问题
这里把我的方法写下来,分享给朋友们,希望能帮到大家
更希望起到抛砖引玉的作用,有更好的方法被分享出来
工欲善其事,必先利其器,所以,需要先安装pdf 文档的专用软件,推荐使用Adobe Acrobat 7 Professional 或者Adobe Acrobat 9 Professional版本
不要使用Adobe Acrobat reader,因为功能太少
软件网上一搜,可以随便找到
如果是由word 文件转成的pdf 文件,这个比较简单
打开pdf文档,选择文件——另存为,如下图: 在弹出的另存为对话框中,保存类型——纯文本
如下图: 如果没法直接保存成纯文本,报ASCII 码错误的话,可以先保存为microsoft word 文档,再由word 文档转换成txt 格式
如果pdf文档是由扫描后的图片制作而成的,用上述方法就无法直接转换成txt 格式了
需要用以下方法
打开pdf 文档,选择文件——另存为——保存类型选择jpeg 图片格式
如下图: 存为jp eg 格式的图片之后,需要安装OCR 识别软件
推荐使用清华紫光OCR 或者汉王OCR 软件
软件网上都可以免费下到
我使用的是汉王OCR 8
安装好软件之后,运行OCR 软件
选择文件— —打开 图像 ,如 下图: 找到图片保存目录,打开从p df 文件转换成的图片
图片文件打开以后,选择识别——开始识别: 识别完成后界面如下图: 上半部分是识别出来的文字,下半部分是原稿
因为识别软件以及图片清晰度的原因,有些字会与原稿有误,需要校对
校对过程中,如果原稿字太小,看不清楚,