有什么方法可以检测python中输入错误的网址吗？

如何解决有什么方法可以检测python中输入错误的网址吗？

| 我的python程序涉及到用户提供的url，然后在页面上执行操作。理想情况下，可以识别错误键入的URL并弹出错误。但是，如果它们具有正确的语法，并且没有指向任何地方，则将加载ISP错误页面或广告网站。例如： \“ http：//washingtonn.edu \”-> http://search5.comcast.com/?cat=dnsr&con=dsqcy&url=washingtonn.edu \“ http://www.amazdon.com/”-> http://www.amazdon.com/ 有什么方法可以在不知道所有可能页面的情况下检测到这些？第二个可能很难，因为它是一个实际的网站，但是我很乐意赶上第一个。谢谢！

解决方法

除非我对您的问题有误解，否则您要提出的要求是不可能的，没有道理的，或者远非琐碎的事情。如果您想一想，但不是404错误，而是检测到页面不存在，如果页面确实存在，则无法知道页面是“好”还是“坏”，因为是主观的。可能可以应用一些通用规则，但您不能拥抱所有可能性。唯一的方法将类似于Google对建议的处理方式，但这将意味着一个庞大的数据库，其中列出了网站的受欢迎程度，并且每次都要进行邻近性测试，但这远非琐碎且可能没有必要。为了在python中处理404法规，您可以使用lie httplib。祝好运！ , 您可以检查请求的HTTP状态代码。您可能最感兴趣的是404-未找到状态。在第二种情况下，您是对的-如果响应是网页，则无法确定用户想要的是拼写错误还是错字 , 您正在谈论的是启发式方法，它实际上是一个非常复杂的主题。您可能会看到一个常见网站和常见拼写错误的列表-如果某些内容无法解析（即404 HTTP响应），请对照该列表检查输入，然后选择“最接近”的答案（这是整个算法本身））。不过，它并不是太可靠，因为拼写错误的网站可能确实可以正确解析（尽管对于意想不到的域）。如果您非常担心拼写错误的网址，那么一个非常简单的解决方案是只要求输入两次网址。 , 您可以使用正则表达式检查有效的URL，也可以使用httplib检查响应代码，并要求输入200才能继续。如果网址有效，则HTTPConnection.getresponse（）将返回200

有什么方法可以检测python中输入错误的网址吗？

如何解决有什么方法可以检测python中输入错误的网址吗？

解决方法

相关推荐