如何利用Python将PDF文件转化为txt文件?

Jamal123


这个实现起来不难,无非就是两步,先利用python解析pdf文件,提取出文本内容,再将文本内容写入到txt文件中,下面我大概介绍一下,如何利用python将pdf文件转化为txt文件,实验环境win10+python3.6+pycharm5.0,主要用到pdfminer3k(主要用于解析pdf文件)这个包,主要内容如下:

为了方便演示,我这里新建了一个test.pdf文件,主要内容如下:

1.安装pdfminer3k,打开一个cmd窗口,直接输入命令“pip install pdfminer3k”就行,如下:

2.安装成功后,我们就可以利pdfminer3k进行解析了,整个过程不难,主要就是创建pdf解释器,然后利用解析器解析出文本内容就行,主要代码如下(由于代码量比较多,所以这里截取了2张图片):

运行这个程序,程序结果截图如下,已经成功解析出pdf文件的文本内容:

3.程序正确运行后,会在当前目录下会生成一个text.txt文件,打开这个txt文件,内容如下,和pdf文件内容一致,说明已经成功转化:

至此,我们就完成了利用python将pdf文件转化为txt文件。就整个过程来看,其实不难,就是两步,先解析pdf文件内容,再写入txt文件中就行,只要你有一定的python基础,熟悉一下操作,很快就能掌握的,网上也有相关教程,感兴趣的可以搜索一下,希望以上分享的内容能对你有所帮助吧。


分享到:


相關文章: