python 读取word文件 docx2txt和textract

发布时间:2020-05-09 发布网站:脚本之家
脚本之家收集整理的这篇文章主要介绍了python 读取word文件 docx2txt和textract脚本之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。

python 读取word文件 docx2txt和textract

docx2txt安装

pip install docx2txt

docx2txt代码:

import docx2txt

my_text=docx2txt.process(r'C:\test\疫情防控思政大课观后感.docx')


print(my_text)

注意:docx2tx只支持word后缀为docx,不支持doc

如果需要支持doc,建议使用模块:textract

textract安装:

pip install textract

官方文档:https://textract.readthedocs.io/en/stable/

使用代码:

import textract

text = textract.process("path/to/file.extension")


总结

以上是脚本之家为你收集整理的python 读取word文件 docx2txt和textract全部内容,希望文章能够帮你解决python 读取word文件 docx2txt和textract所遇到的程序开发问题。

如果觉得脚本之家网站内容还不错,欢迎将脚本之家网站推荐给程序员好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您喜欢交流学习经验,点击链接加入脚本之家官方QQ群:1065694478