如何解决从网页中提取数据
| 我正在做一个学校项目,该项目需要从网页中提取数据。确切地说,我需要一个库或开源程序来从html / text数据中提取人类可读的内容。像网络浏览器一样呈现文本内容。 我知道用正则表达式解析html是从中提取文本的最差方法。 额外信息: 我需要它来计算文本文档之间的相似度。 任何帮助,将不胜感激。 谢谢解决方法
我强烈建议您回答该问题的第一个答案,以使您避免使用正则表达式解析HTML。这个答案在说明为什么不应该做的方面比我做的要好得多,因此我谨此。
您还将发现您应该研究XML解析器,而不是尝试通过正则表达式“手动解析”(您将在所引用的问题及其答案中阅读该内容)。,如果您只关心文本的相似性,则可以编写一个正则表达式以除去所有格式为“ 0”的HTML标签(也许首先删除所有“ 1”标签),然后将所有内容混入很长的一段中。完全不会对正则表达式造成不良影响;那就是他们在那里的目的。
我可能会推荐http://docs.python.org/library/xml.dom.minidom.html,但是恕我直言,该界面可能很尴尬。另外,您不需要访问层次结构,只需访问文本即可。否则,解析器将比正则表达式更好(否则这将是一个糟糕的主意)。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。