python 读取word文件 docx2txt和textract
docx2txt安装
pip install docx2txt
docx2txt代码:
import docx2txt my_text=docx2txt.process(r'C:\test\疫情防控思政大课观后感.docx') print(my_text)
注意:docx2tx只支持word后缀为docx,不支持doc
如果需要支持doc,建议使用模块:textract
textract安装:
pip install textract
官方文档:https://textract.readthedocs.io/en/stable/
使用代码:
import textract text = textract.process("path/to/file.extension")
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。